
阿里推出 LingShu AI医生:统一多模态医学理解与推理的通用基础模型
核心速览
多模态大型语言模型(MLLMs)在理解常见视觉元素(如风景、家居用品和公共事件)方面展现了令人印象深刻的能力,这主要归功于其大规模数据集和先进的训练策略。然而,由于医学场景中的数据和任务与一般领域存在固有差异,它们在医学应用中的有效性仍然有限。具体来说,现有的医学MLLMs面临以下关键限制:(1)对医学知识(超出影像学范围)的覆盖有限;(2)由于数据策展流程不佳,容易产生幻觉;(3)缺乏针对复杂医学场景定制的推理能力。为了应对这些挑战,我们首先提出了一个全面的数据策展程序,该程序(1)不仅从医学影像,还从广泛的医学文本和一般领域数据高效获取丰富的医学知识数据;以及(2)合成准确的医学字幕、视觉问答(VQA)和推理样本。因此,我们构建了一个富含广泛医学知识的多模态数据集。在策划的数据基础上,我们推出了专注于医学的MLLM:Lingshu。Lingshu经过多阶段训练,以嵌入医学专业知识并逐步提升其解决问题的能力。此外,我们初步探索了应用可验证奖励范式的强化学习来增强灵书的医学推理能力。同时,我们开发了MedEvalKit,一个统一的评估框架,它整合了领先的多模态和文本医学基准测试,用于标准化、公平且高效的模型评估。我们在三个基本医学任务上评估了Lingshu的表现:多模态问答、基于文本的问答和医学报告生成。结果显示,Lingshu在大多数任务上持续超越现有的开源多模态模型。此外,我们进行了五个紧密与现实世界场景对齐的案例研究,展示了Lingshu在医学背景下实际应用的潜力。
主页:https://alibaba-demo-academy.github.io/lingshu/
核心速览
研究背景
- 研究问题:这篇文章要解决的问题是如何在多模态医学理解中实现统一的多模态基础模型。现有的多模态大型语言模型(MLLMs)在通用领域表现出色,但在医学领域的应用效果有限,主要由于医学数据与任务的复杂性和特异性。
- 研究难点:该问题的研究难点包括:医学知识的覆盖范围有限,数据质量参差不齐,缺乏针对复杂医学场景的推理能力。
- 相关工作:该问题的研究相关工作有:将通用LLM或MLLMs与医学多模态数据结合构建专用模型,采用蒸馏技术改进模型性能,以及利用强化学习提高推理能力。
研究方法
这篇论文提出了Lingshu模型用于解决医学多模态理解问题。具体来说,
数据收集与合成:首先,提出了一个全面的数据收集和合成流程,包括从医学影像、医学文本和通用领域数据中高效获取丰富的医学知识数据,并生成准确的医学字幕、视觉问答(VQA)和推理样本。
多阶段训练:基于收集的数据,提出了多阶段训练方法,逐步注入医学专业知识并增强模型的解决问题能力。具体阶段包括:浅层医学对齐、深层医学对齐、医学指令调优和医学导向的强化学习。
- 强化学习:初步探索了将可验证奖励的强化学习(RLVR)应用于提升Lingshu的医学推理能力,开发了Lingshu-RL版本。
- 评估框架:提出了MedEvalKit,一个统一的评估框架,整合了主流的多模态和文本医学基准,支持多种问题格式,确保评估的标准化和可重复性。
实验设计
- 数据收集:从网络中收集了多种开源医学多模态数据集、医学文本指令数据和通用领域数据集,并进行严格的质量过滤和预处理。
- 数据合成:生成了长形式字幕、基于OCR的指令样本、VQA实例和蒸馏推理示例,以提高模型的特定能力。
- 模型训练:基于Qwen2.5-VL模型架构,开发了7B和32B参数的Lingshu模型,并通过多阶段训练框架进行训练。
- 评估:使用MedEvalKit框架对Lingshu进行评估,涵盖多模态VQA、文本QA和报告生成任务。
结果与分析
多模态VQA任务:在七个医学多模态VQA任务上,Lingshu-32B模型的平均得分达到了66.6%,超过了所有其他模型,包括专有模型如GPT-4.1和Claude Sonnet 4。
- 文本QA任务:在医学文本QA任务上,Lingshu-7B模型在多个基准测试中表现出色,平均准确率达到52.8%,领先于其他开源模型。
- 报告生成任务:在MIMIC-CXR、CheXpert Plus和IU-Xray三个报告生成基准上,Lingshu-32B模型在大多数指标上均表现最佳,特别是在IU-Xray任务上,得分接近130.4。
- 强化学习效果:尽管Lingshu-RL在部分任务上表现出微弱的改进,但整体效果有限,表明当前RLVR训练在医学领域的应用仍需进一步优化。
总体结论
这篇论文提出了Lingshu模型及其多阶段训练框架,解决了医学多模态理解中的关键挑战。通过全面的实验验证,Lingshu在多个医学任务上表现出色,显著优于现有开源模型。此外,MedEvalKit评估框架的引入进一步推动了医学MLLMs的标准化和可重复性。总体而言,Lingshu和MedEvalKit为医学领域的MLLMs提供了一个高性能模型、一个强大的评估工具以及数据收集、分阶段训练和评估的经验指南。
论文评价
优点与创新
- 数据收集与合成:提出了一种全面的数据收集和合成流程,能够高效地获取丰富的医学知识数据,并生成高质量的医学字幕、问答对和推理样本。
- 多阶段训练:开发了针对医学领域的多阶段训练框架,逐步注入医学知识,增强模型的问题解决能力。
- 强化学习探索:初步探索了将可验证奖励的强化学习(RLVR)应用于提升Lingshu的多模态医学推理能力,开发了Lingshu-RL版本。
- 统一评估框架:提出了MedEvalKit,一个统一的评估框架,整合了主要的多模态和文本医学基准,简化了模型评估过程,推动了标准化性能评估的发展。
- 实验验证:通过严格的实验验证,Lingshu在多个多模态和文本医学视觉问答任务以及报告生成任务中表现出色,显著优于现有的开源多模态模型。
- 案例研究:进行了五个与实际应用场景紧密相关的案例研究,展示了Lingshu在实际医疗应用中的潜力。
不足与反思
- 数据质量和多样性:尽管收集了大量的医学多模态和文本数据,但数据质量和多样性仍然有限。开源医学多模态数据通常存在标注准确性低、图像分辨率差和模态分布不均等问题。
- 模型性能和泛化能力:尽管Lingshu在多个医学基准上取得了有希望的结果,特别是在问答和报告生成任务中,但与最先进的专有模型相比仍有差距。其在大规模、更多样化的医学任务和更广泛的泛化能力方面的探索仍不充分。
- 训练范式和强化学习:尽管验证了数据策略和训练范式的有效性,但最佳的数据混合和训练配置仍需进一步探索。当前在医学背景下的RLVR应用的初步探索效果有限,需要更深入的理解。
关键问题及回答
问题1:Lingshu模型在数据收集和合成方面采取了哪些具体措施来确保医学知识的全面性和高质量?
数据收集
- 从网络中收集了多种开源医学多模态数据集,包括医学字幕数据(如LLaVA-Med Alignment、PubMedVision等)和医学多模态指令数据(如PathVQA、PMC-VQA等)。
- 收集了医学文本指令数据,如医疗事实问答、蒸馏推理数据、患者-医生对话和一般医学指令数据。
- 收集了医学影像数据,包括X光、CT、MRI、超声、皮肤镜、眼底、组织病理学和显微镜等不同医学影像数据集。
- 还收集了通用领域数据,如图像字幕、文本和多媒体指令跟随数据,以增强模型的泛化能力。
数据合成
- 生成了长形式字幕,通过数据从医学图像分割和分类任务中提取结构化的事实知识,生成详细的医学字幕。
- 基于OCR的指令样本,收集了生物学和化学考试问题和答案,并使用Gemini-2.0-Flash-Thinking进行详细推理步骤标注。
- 合成VQA实例,使用模板法和自指示法生成医学VQA数据,模板法通过手动设计问题模板和答案选项,自指示法通过GPT-4o生成问题和答案。
- 蒸馏推理示例,使用GPT-4o生成链式推理路径,并通过LLM验证过程确保推理路径的一致性。
问题2:Lingshu模型的多阶段训练框架是如何设计的,各阶段的具体目标和训练内容是什么?
医学浅层对齐(Medical Shallow Alignment)
- 目标:建立医学影像模态与其对应文本描述之间的有效对齐。
- 训练内容:使用粗略标注的医学图像-文本对,仅微调视觉编码器和投影层。
医学深层对齐(Medical Deep Alignment)
- 目标:全面整合医学知识到MLLM中,增强其理解和适应各种临床上下文的能力。
- 训练内容:解冻所有模型参数,使用更大、更高质量和语义更丰富的医学图像-文本对进行端到端微调。
医学指令调优(Medical Instruction Tuning):
- 目标:提高模型理解和执行各种医学用例任务的能力,增强其泛化到下游任务的能力。
- 训练内容:使用广泛的医学和多模态指令数据集进行大规模、端到端优化,包括多图像推理任务、多轮对话和需要详细推理过程的查询。
医学导向的强化学习(Medical-oriented Reinforcement Learning)
- 目标:通过可验证奖励的强化学习(RLVR)增强模型的医学推理、问题解决能力和解释性。
- 训练内容:使用精心策划的医学可验证数据集进行训练,采用Group Relative Policy Optimization(GRPO)方法,使用严格格式的奖励和准确性奖励。
问题3:MedEvalKit评估框架的主要特点是什么,它如何确保评估的标准化和可重复性?
多模态和文本医学基准整合
- 整合了多个主流的多模态和文本医学基准,包括VQA-RAD、SLAKE、PathVQA、PMC-VQA、OMnimedVQA、MMMU、MedXpertQA、MMLU、PubMedQA、MedMCQA、MedQA-USMLE、MedBullets、SuperGPQA、MIMIC-CXR、IU-Xray和CheXpert Plus。
支持多种问题格式
- 支持多选题、封闭式问题、开放式问题和医学报告生成等多种问题格式。
标准化数据预处理和后处理协议
- 标准化了所有问题的输入格式,遵循候选医学MLLMs推荐的官方聊天模板。
- 使用规则基础的评估与LLM作为评委的策略相结合的双重验证机制,结合客观和主观评估,提高评估的稳定性和可靠性。
支持推理加速和高吞吐量评估
- 通过vLLM支持推理加速,支持高通量和并行评估,具有强大的可扩展性和工程可用性。
通过这些特点,MedEvalKit确保了评估过程的标准化和可重复性,使得不同模型之间的比较更加公平和可靠。
本文转载自知识图谱科技,作者:知识图谱科技
