百川智能将发布新一代医疗大模型，事实性幻觉率降至3.3%

百川智能创始人、CEO 王小川，图片来源：百川智能

近日，在清华大学百川楼举办的 "AI 医疗新范式 " 学术论坛上，百川智能创始人兼 CEO 王小川展示了即将发布的新一代医疗大模型 Baichuan-M4 与 AI 家庭医生 " 百小医 "。

北京儿童医院、中国医学科学院肿瘤医院和上海交通大学医学院附属瑞金医院等三家国家顶尖医院，与百川联合开展临床研究的成果。

王小川认为，coding 对应创造、video 对应快乐，健康是智力模型尚未解开的一环。

AI 真正进入医疗，必须依靠医疗增强大模型。王小川将医疗对大模型的刚性要求总结为三点：

低幻觉。医疗容不得编造，一个错误判断可能危及生命。《BMJ Open》2026 年的研究系统评估了主流通用模型的医疗回答，约 50% 被评为 " 有问题 "，近 20% 属于 " 高度有问题 "。通用模型当前的幻觉率在严肃医疗场景下不可接受。

强循证。临床诊断有严格的循证路径，不是 " 根据症状猜一个最可能的病 "。通用模型缺乏系统性的循证推理能力。《JAMA Network Open》2026 年评测了 21 款主流大模型在 29 个标准化临床案例中的表现，鉴别诊断阶段的错误率普遍超过 80% ——不按指南逻辑层层排除，而是过早锁定一个答案。

会提问。任何受过训练的医生都不会在患者说完第一句话时就下结论。牛津大学 2026 年发表于《Nature Medicine》的研究揭示了一个关键差距：AI 读标准化病历时准确率可达 94.9%，但真实患者自助使用时骤降至 34.5%。原因在于患者描述往往不完整，而通用模型不会像医生一样追问。

三条刚需，通用模型一条都不达标。为此，百川在 M 系列医疗专用大模型做了针对性的优化。

据百川智能方面介绍，新一代医疗大模型 Baichuan-M4，在 HealthBench、HealthBench Hard、HealthBench Professional 三大权威医疗榜单中同时位列世界第一，超越 GPT-5.5、Opus 4.7、DeepSeek-V4-Pro 等模型。依托原创的事实性感知强化学习算法，Baichuan-M4 将裸模型的事实性幻觉率降至 3.3%。

不过，模型能力再强，并不直接等同于患者的最终获益。大脑解决的是能力问题，身体解决的是触达问题。中国医疗核心的矛盾，是优质医疗资源供给不足。AI 的发展，前提是找到对的产品形态。

百川即将发布的 AI 家庭医生 " 百小医 "，产品核心定位是，" 明明白白看医生，安安心心管家人 "。

值得关注的是，百小医将基于微信生态运作，主动引导用户添加企业微信 " 百小医 @百川家医 "，拉入家庭群后自动为每位成员建立独立的健康档案，在对话中捕捉并结构化每个人的身体状态、用药历史和检查数据，识别日常闲聊中的高危信号，主动提醒复诊和用药等行为。（本文首发于钛媒体 APP，作者｜李程程）

宙世代

一起剪

相关标签