细节决定成败!深耕医疗的Baichuan-M2用了哪些黑科技

发布于 2025-8-18 06:49
浏览
0收藏

实话实说,本来没有这篇稿子,我并没有太关注Baichuan-M2这个模型,因为最近开源社区太火爆了,各家都在卷。

7月份见​开源模型盘点,而8月刚过半,已经有Qwen-Image、dots.vlm1、MiniCPM-V 4.0、GLM4.5V等等等。

那么,Baichuan-M2这个垂域模型就显得不那么惊艳了(很多人都更关心通用模型),还有百川上次开源M1已经是五六个月前了,当时在群里发AI日报,一众小伙伴都惊讶百川还在发模型。

PS:不过我群里有个内应,说他们项目挺多的~

细节决定成败!深耕医疗的Baichuan-M2用了哪些黑科技-AI.x社区

不过,因为看到极客公园采访王小川的稿子,我对百川的这个模型又提起了兴趣。同时M2在healthbench hard 上的表现也超过了32分,实属不易。

细节决定成败!深耕医疗的Baichuan-M2用了哪些黑科技-AI.x社区

https://mp.weixin.qq.com/s/BeowHiFg3otIcfEIufredw

PS:推荐大家看一下这个采访,里面对垂域模型、领域壁垒等一些内容说的蛮好的,当然也是很多做领域大模型的人都遇到的困局、及面临的选择。

说回医疗大模型,其实医疗AI一直很有市场,不过真正落地有很多困难,大模型效果、幻觉、信任度等等,说实话,百川在2024年就ALL IN医疗,挺有魄力的。

关注技术本身,看了Baichuan-M2的技术报告,发现里面还是有很多细节在的,同时这也是一个做垂域模型很好的例子,在小参数下,达到甚至超越大参数模型的效果。

而我也是一直在做这样的事情,因为落地成本真是很大的问题,只不过我在做ToB,王小川是要做ToC。

Blog:https://www.baichuan-ai.com/blog/baichuan-M2
HF:https://huggingface.co/baichuan-inc/Baichuan-M2-32B

整体流程应该涉及两个部分Mid-Training 和 Post-Training。

Mid Training 就是向通用大模型中注入领域知识的过程,感觉说是Continue Pre-train也可以,不过Baichuan这里用了领域自约束持续预训练方法,在维护通用模型的知识,确保保留通用任务解决能力的前提下,使训练模型能够获取领域特定的知识。

细节决定成败!深耕医疗的Baichuan-M2用了哪些黑科技-AI.x社区

https://arxiv.org/abs/2412.15270

高质量医疗数据、其他通用数据和数学推理数据的比例为 2:2:1 ,基模是Qwen2.5-32B模型,哈哈哈,Qwen在开源社区的含金量依旧很高。

重点在RL部分,整体流程如下:

细节决定成败!深耕医疗的Baichuan-M2用了哪些黑科技-AI.x社区

其实我们都知道RL部分奖励机制是关键,其实在真实使用时找到好的奖励很难,日常任务一般考奖励模型,不像数学、代码等有明确的奖励。

M2这里设计了一个Verifier系统,对模型在多轮交互中的整体表现进行持续、动态的量化评估,评估诊断准确性、问诊的逻辑连贯性、治疗方案的合理性、沟通和共情能力以及医学伦理等关键维度。

细节决定成败!深耕医疗的Baichuan-M2用了哪些黑科技-AI.x社区

从M2的回答上来看,可以看出沟通和共情能力很强。大多数人,在询问医疗问题的时候,是很焦虑的,沟通和共情就是很关键的内容,这也是AI医生的关键所在。

因为我们需要的并不是冷冰冰的机器,我们需要可以跟我们交流的、让我们感受到温暖的伙伴医生。它需要能理解我们的病情,更能读懂我们的情绪,在解释病因、分析检查结果、提出治疗建议时,既有专业的严谨,又有耐心的关怀。

做RL都知道,奖励做的好,RL成一半!M2还采用Multi-Stage RL策略,复杂任务拆解,逐步提高模型能力。

同时最有意思的一个东西,就是AI患者模拟器,这个我真是才知道,不过这个已经是Baichuan今年1月份发的论文了。

Paper:Exploring the Inquiry-Diagnosis Relationship with Advanced Patient Simulators

AI患者模拟器可以模拟真实患者的情绪(如焦虑)、主动提问和非合作行为,最大程度还原了真实医疗场景,从而可以进一步提高整个的问诊质量。

同时经过实验发现,医疗问诊和诊断是存在木桶效应的,问诊质量直接决定诊断上限。同时提供4类问诊动作分布分析,帮助定位医生模型的提问短板,为模型训练提供高质量素材。

细节决定成败!深耕医疗的Baichuan-M2用了哪些黑科技-AI.x社区

然后RL的算法采用GRPO,同时做了以下修改:去除 KL 散度、Clip-higher、损失归一化、 优势归一化、动态长度奖励等。

我没部署,直接用的官方链接,

https://platform.baichuan-ai.com/playground?initialmodel=Baichuan-M2

为了更贴近临床场景,我先找了一个真实问诊案例,对比了擅长医学的 GPT-5,结果发现 M2 在信息覆盖度和细节处理上都很突出。

细节决定成败!深耕医疗的Baichuan-M2用了哪些黑科技-AI.x社区

同样,百川的回答像一份系患者就诊指南,信息覆盖全面,帮助患者梳理了相关情况,又引导患者高效、安全地就医,风险提示十分明确,对潜在危险做了很好的预警。

细节决定成败!深耕医疗的Baichuan-M2用了哪些黑科技-AI.x社区

很多垂域大模型一旦跳出专业范围,就容易掉线,而 M2 在通用任务上的能力依然在线。就用了我之前常测的通用题来看看它的效果。

Prompt: 用水来兑水,得到的是浓水还是稀水

细节决定成败!深耕医疗的Baichuan-M2用了哪些黑科技-AI.x社区

Prompt: 小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹

细节决定成败!深耕医疗的Baichuan-M2用了哪些黑科技-AI.x社区

Prompt:2024年年高考全国甲卷数学(文)试题

细节决定成败!深耕医疗的Baichuan-M2用了哪些黑科技-AI.x社区

细节决定成败!深耕医疗的Baichuan-M2用了哪些黑科技-AI.x社区

虽然在 RL 训练后的表现中,回答稍微有些偏长,但逻辑性和准确性依旧可圈可点。这说明它的领域优化并没有牺牲掉太多通用能力,在实际落地中更具弹性和适配性。

最后想说,

想要做一个AI医疗产品,光有一个大模型当然是远远不够的,

大模型只是基础能力的起点,要真正走进临床场景,权威医学资料构建的底层知识库是必不可少的,

还需要多层次的知识校验体系,确保每一次诊断和建议都经过严谨验证,减少错误与偏差。

只有当这些环节环环相扣,AI医生才能既有温度,又有精准度,既让患者感到被理解,也能让医生在临床决策中安心依赖。

这条路注定艰难,但我们依旧向前~

细节决定成败!深耕医疗的Baichuan-M2用了哪些黑科技-AI.x社区

PS:现在AI医疗产品也有不少,看看最后谁能跑出来吧~

本文转载自​​​​​​​NLP工作站​​​​​​​,作者:NLP工作站

收藏
回复
举报
回复
相关推荐