
MedChain:通过交互式顺序基准测试桥接大模型Agent与临床实践之间的差距
摘要
临床决策制定(CDM)是一个复杂、动态的过程,对医疗保健交付至关重要,然而对于人工智能系统而言仍是一个重大挑战。尽管基于大型语言模型(LLM)的代理已经在使用许可考试和知识问答任务的一般医学知识上进行了测试,但由于缺乏反映实际医疗实践的综合测试数据集,它们在现实世界场景中的CDM表现有限。为了弥补这一差距,我们提出了MedChain,一个包含12,163个临床案例的数据集,涵盖临床工作流程的五个关键阶段。MedChain以三个关键特征区别于现有基准测试,即现实世界临床实践的个人化、交互性和顺序性。此外,为了应对现实世界的CDM挑战,我们还提出了MedChain-Agent,一个整合了反馈机制和MCase-RAG模块的AI系统,以从过往案例中学习并适应其响应。MedChain-Agent在动态收集信息和处理顺序临床任务方面展现了非凡的适应性,显著超越了现有方法。相关数据集和代码将在本文被接受后发布。
1 引言
在人工智能与医疗保健的交汇点,医学面临最复杂的挑战之一:临床决策制定(CDM)。在医疗服务过程中,CDM不仅需要综合多种数据来源并持续评估不断发展的临床场景,还需要基于证据的诊断和治疗判断(Sutton等人,2020年)。尽管这对最佳患者护理至关重要,但这一复杂过程对医疗专业人员提出了重大的认知要求,使其成为人工智能辅助的理想候选(Sendak等人,2020年)。
基于大型语言模型(LLM)的代理的最新进展(OpenAI,2023年;Team等人,2023年;Gu等人,2023年;Shinn等人,2024年;Guan等人,2023年;Zhuang等人)已成为复杂决策任务的有效解决方案,从软件开发(Qian等人,2024年)到办公自动化(Wang等人,2024c年)。在医学领域,这些代理在医学执照考试(Singhal等人,2023年;Pal等人,2022年)和基于知识的评估(Gilson等人,2023年;Eriksen等人,2023年)中表现出色。尽管大型语言模型在这些评估中的得分一直远高于及格门槛(Singhal等人……(2023年),重要的是要认识到,这些评估在三个关键方面未能捕捉到现实世界临床决策支持系统(CDM)的复杂性。
首先,这些基准测试很少考虑患者特定信息,如过去的病史和当前病情(Pal等人,2022年),这在真实临床场景中显著影响临床决策。这种遗漏未能捕捉到常常塑造个性化诊断的微妙背景。其次,不同于真实临床场景中的决策建立在先前步骤的基础上,现有的基准测试将临床任务呈现为独立问题(Schmidgall等人,2024年),忽略了诊断过程中关键的相互依赖性。实际上,临床决策是一个顺序过程,每一步都依赖于前一步,一个阶段的错误可能会深刻地影响后续决策。第三,大多数基准测试一次性提供所有相关信息,提供一个静态的、全面的数据集(Tu等人,2024年)。然而,真实的临床工作流程需要通过持续的病人互动进行多轮动态信息收集。
为了解决这些关键缺口,我们引入了MedChain,这是一个旨在评估基于大型语言模型(LLM)的代理在真实世界临床环境中表现的新颖基准测试。
具体来说,MedChain 包含12,163个多样化的病例,涵盖19个医学专业和156个子类别,包括7,338张带有相应报告的医学影像。每个病例都要经过五个关键阶段:专业转诊、病史采集、检查、诊断和治疗。与现有的基准测试不同,MedChain 独特地强调三个关键特征。1)个性化:每个病例都包含详细的患者特定信息。最初,代理人仅获得患者的主诉和基本信息。2)互动性:必须通过患者动态咨询积极收集信息。3)连续性:每个阶段的决策会影响后续步骤。只有在代理人独立完成了所有五个阶段后,才会对整体诊断过程进行评估。
MedChain-Agent:鉴于这个基准测试所呈现的新颖特征和挑战,现有的Agent框架难以充分解决这些问题。为了克服这些限制,我们提出MedChain-Agent,一种多代理协作框架,使具备反馈机制的LLM和MedCase-RAG能够动态收集信息并处理顺序临床任务。具体来说,MedChain-代理人促进三种专业代理类型之间的协同互动:负责特定任务专业知识的通用代理人、用于洞察合成的总结代理以及用于迭代完善的反馈代理。这种分层迭代的方法确保决策是彻底分析和多元视角的产物。此外,为了应对需求基于证据的研究和患者特定因素整合的CDM(临床决策模型)的多面性,我们将一种新颖的MedCase-RAG模块纳入我们的MedChain-Agent框架。与传统的医学RAG方法不同,MedCase-RAG动态扩展其数据库,并采用结构化方法进行数据表示,将每个医学案例映射到一个12维的特征向量。该系统能够高效检索相关案例,并帮助模型做出明智的决策。
我们的贡献总结如下:
● 我们首次提出了一个CDM基准,MedChain,全面评估基于大型语言模型(LLM)的代理的诊断能力,紧密反映现实世界中的患者护理。
● 我们提出了一个基于CDM特性的多代理框架。该系统能够高效检索相关案例,并帮助模型做出明智的决策。
● 通过广泛的实验,我们展示了MedChain和MedChain-Agent框架在提高临床决策准确性和可靠性方面的有效性
核心速览
研究背景
- 研究问题:这篇文章要解决的问题是如何在临床决策(CDM)中有效地利用大型语言模型(LLMs)。临床决策是医疗交付过程中至关重要的一环,然而,现有的LLMs在真实世界场景中的表现有限,主要由于缺乏全面且反映实际医疗实践的测试数据集。
- 研究难点:该问题的研究难点包括:现有基准测试很少考虑患者特定信息、临床任务之间缺乏依赖性以及静态的数据集无法反映动态的患者互动。
- 相关工作:该问题的研究相关工作有:现有的医学领域的LLMs评估主要集中在通过结构化评估测试一般医学知识,但这些基准测试未能捕捉到真实世界临床决策的三个关键方面:个性化、互动性和顺序性。
研究方法
这篇论文提出了MedChain和MedChain-Agent来解决临床决策中的LLMs评估问题。具体来说,
- MedChain:MedChain是一个包含12,163个临床病例的数据集,覆盖了19个医学专业和156个子类别,每个病例经过五个关键阶段:专科转诊、病史采集、检查、诊断和治疗。MedChain的独特特性包括个性化、互动性和顺序性。
- MedChain-Agent:MedChain-Agent是一个多代理协作框架,结合了反馈机制和MedCase-RAG模块,以动态收集信息和处理顺序临床任务。该框架包括三种专门的代理类型:通用代理、总结代理和反馈代理。通用代理负责特定任务的专家知识,总结代理整合讨论和分析,反馈代理提供建设性反馈并迭代改进决策。
- MedCase-RAG:MedCase-RAG是一种新颖的检索增强生成技术,专为医学背景定制。它将每个医学病例映射到一个12维特征向量,并使用文本嵌入模型对“症状描述”进行量化,作为密集检索任务的主要键。此外,MedCase-RAG还包含一个动态数据库扩展机制,以不断丰富其知识库。
实验设计
- 数据收集:数据集来源于中国医疗网站“ii Yi”,包含超过20,000个验证过的临床病例,覆盖28个疾病类别。这些病例经过专业医生的验证和去识别处理,以确保患者隐私。
- 质量控制:实施了一个严格的质量控制过程,涉及五位具有超过10年临床经验的高级医师。评估过程随机抽查了6,000个病例(数据集的49.3%),每个病例在多个维度上进行评估,包括疾病流行度、临床相关性、病史准确性、诊断程序的适当性、诊断的正确性和治疗建议的适宜性。
- 临床工作流程模拟:MedChain模拟了完整的临床工作流程,包括五个顺序任务:专科转诊、病史采集、检查、诊断和治疗。每个阶段的结果作为后续阶段的输入,创建了一个依赖关系,后续决策受到前面阶段质量的 影响。
- 交互环境:开发了一个交互环境,模拟医生与患者的咨询过程。使用本地大型语言模型“gemma2(9b)”作为患者代理,初始化时提供预定义的病例信息,但不了解实际诊断,从而模拟真实患者的体验。
结果与分析
- 单代理系统:在单代理系统中,GPT-4o-mini和InternVL2的平均得分分别为0.4442和0.3920,表明即使在先进模型中,顺序决策任务也具有挑战性。
- 多代理系统:基于InternVL2的多代理系统(如MedAgent和MDAgent)的性能优于其单代理对应物,但仍未达到MedChain-Agent的水平。MedChain-Agent的平均得分为0.5269,显著提高了决策质量和可靠性。
- 开源LLMs:MedChain-Agent框架与开源LLMs的结合显示出优于专有模型的性能,表明框架可以充分利用开源LLMs的优势。
- 消融研究:移除个性化、互动性和顺序性特征后,模型性能在不同任务上表现出不同程度的下降,验证了这些特征在模拟真实世界临床决策过程中的重要性。反馈机制和MedCase-RAG模块的移除也对性能产生了显著影响,表明它们在优化框架能力方面的互补性。
总体结论
这篇论文介绍了MedChain,一个用于评估大型语言模型在临床决策中的新颖基准,以及MedChain-Agent,一个旨在应对真实世界医学场景复杂性的创新多代理框架。通过将个性化、顺序性和互动性纳入评估过程,MedChain-Agent展示了在顺序临床决策任务中的卓越性能,甚至在结合开源LLMs时优于专有模型。这项研究为评估和发展医疗AI系统设定了新的标准,为其在临床实践中的负责任整合铺平了道路。
论文评价
优点与创新
- 全面的评估框架:MedChain是第一个旨在全面评估大型语言模型在临床决策中能力的基准,紧密反映了现实世界中的患者护理。
- 多代理框架:提出了一个基于临床决策特征的多代理框架,该系统能够高效检索相关病例并帮助模型做出明智的决策。
- 反馈机制:引入了反馈机制,使每个任务的输出结果都能得到后续任务的评估和反馈,从而持续改进决策质量。
- MedCase-RAG模块:提出了一个新的检索增强生成(RAG)技术,通过结构化的数据表示和动态数据库扩展机制,提高了决策能力。
- 个性化、交互性和顺序性:MedChain强调个性化、交互性和顺序性,更好地模拟了现实世界中的临床决策过程。
- 实验验证:通过广泛的实验,证明了MedChain和MedChain-Agent框架在提高临床决策准确性和可靠性方面的有效性。
不足与反思
- 数据源多样性:MedChain基准是从中国医疗网站“iiYi”获取的12,163份电子健康记录,尽管数据集广泛且覆盖了19个医学专业和156个子类别,但它仅来自单一来源。未来工作将纳入来自不同地区或医疗系统的额外数据源,以进一步丰富数据集,提供更广泛的临床场景并增强基准的泛化能力。
- 患者交互模拟:在交互环境中,病史采集阶段的患者响应是由Gemma 2语言模型生成的。虽然这种方法确保了评估的一致性和可控性,但真实患者的交互可能更加多样化和复杂。未来工作可以探索更先进的患者模拟器或纳入真实的对话数据,以捕捉更广泛的沟通风格和行为。
关键问题及回答
问题1:MedChain-Agent框架中的多代理系统是如何设计的?各自承担什么角色?
MedChain-Agent框架包含三种主要的代理类型,每种代理在医学决策过程中扮演不同的角色:
- 通用代理(General Agents):这些代理根据特定任务的要求进行招募,具备各医学专业的综合知识和分诊协议。例如,在任务1(专科转诊)中,通用代理能够评估病例的紧急程度并将患者分配到适当的科室。
- 总结代理(Summarizing Agent):在每个决策阶段结束时,总结代理会整合通用代理的讨论和分析,将集体专业知识合成一个连贯的总结,并为每个任务提供最终决策,类似于医学背景下高级医师或科主任的角色。
- 反馈代理(Feedback Agent):反馈代理在整个过程中评估每个任务的输出,提供建设性反馈并在必要时建议迭代改进。通过这种方式,反馈代理创建了一个动态的、自我纠正的系统,不断精炼其决策能力。
这种分层、迭代的 approach 确保决策是经过彻底分析和多样化视角的综合结果。
问题2:MedCase-RAG模块在MedChain-Agent框架中的作用是什么?它如何增强决策能力?
MedCase-RAG模块是一种新颖的检索增强生成技术,专为医学背景定制。其主要作用体现在以下几个方面:
- 数据表示:MedCase-RAG将每个医学病例映射到一个12维的特征向量,包括年龄、性别、患者描述、症状描述、病史和患者图像等关键属性。这种结构化的表示方式使得病例编码更加全面和标准,便于准确和细致的检索。
- 动态检索:在处理新病例时,MedCase-RAG首先提取并量化“症状描述”这一最具代表性的特征,然后通过文本嵌入模型进行量化处理。接着,使用余弦相似度计算在相关医学部门中进行相似性搜索,选择最相似的前三个病例作为当前检索结果,从而提供更全面的决策依据。
- 数据库扩展:MedCase-RAG还包含一个动态数据库扩展机制,随着患者完成医疗过程并康复,其病例信息会被重新引入数据库作为伪数据。这种方法允许系统从新病例中学习并适应不断演变的医学知识和实践。
通过这些方法,MedCase-RAG显著增强了MedChain-Agent框架的决策能力,使其能够更准确地检索相关病例并做出明智的决策。
问题3:MedChain数据集的质量控制过程是如何进行的?有哪些关键步骤?
MedChain数据集的质量控制过程涉及以下关键步骤:
- 数据来源和处理:数据集来源于中国医疗网站“ii Yi”,包含超过20,000个验证过的临床病例,覆盖28个疾病类别。这些病例经过专业医生的验证和去识别处理,以确保患者隐私。
- 样本选择:质量控制过程随机抽查了6,000个病例(数据集的49.3%),每个病例在多个维度上进行评估,包括疾病流行度、临床相关性、病史准确性、诊断程序的适当性、诊断的正确性和治疗建议的适宜性。
- 评估标准:采用标准化评分系统对每个病例进行量化评估,涵盖疾病流行度、临床相关性、病史准确性、诊断程序的适当性、诊断的正确性和治疗建议的适宜性等维度。使用Cohen's kappa系数计算评估者之间的一致性。
- 结果分析:质量评估结果显示,整体质量合格率为94.7%,所有评估维度的一致性均在92.9%到97.2%之间,表明评估标准的一致性和高标准。Cohen's kappa系数为0.82,表明评估者之间存在强一致性。
- 数据处理:不符合标准的病例(5.3%)经过修订或被排除在最终数据集之外,以维护数据集的完整性和质量标准。
通过这些严格的质量控制步骤,MedChain数据集确保了高标准的数据完整性和临床相关性,为评估LLMs在临床决策中的表现提供了可靠的基础。
本文转载自知识图谱科技,作者:知识图谱科技
