
FedMRG: 通过大模型高效通信异构联邦学习驱动的医疗报告生成
摘要
大型语言模型(LLMs)在医疗报告生成(MRG)中展现了显著潜力,然而其开发需要大量的医学影像-报告对,这些数据通常分散在多个中心。由于隐私法规的原因,集中这些数据异常具有挑战性,从而阻碍了模型开发和更广泛采用基于LLM的MRG模型。为了应对这一挑战,我们提出了FedMRG,这是首个利用联邦学习(FL)实现隐私保护、多中心开发的基于LLM的MRG模型框架,专门设计用于克服在多模态数据异质性下通信高效的LLM训练的关键挑战。首先,我们的框架通过采用低秩分解有效分解参数更新,解决了联邦LLM调整中的基本通信开销挑战,显著降低了梯度传输成本,使基于LLM的MRG在带宽受限的FL设置中成为可行。此外,我们观察到在FL场景下MRG的双重异质性:不同医疗中心的图像特征各异,以及多样化的报告风格和术语偏好。为了解决数据异质性问题,我们通过以下两个方面进一步增强FedMRG:(1) 在MRG编码器中使用以患者为中心的对比学习,并结合诊断驱动的提示,以捕捉全局泛化和局部独特的特征,同时保持诊断准确性;(2) 在MRG解码器中使用双适配器互促机制,协调通用适配器和专用适配器以应对报告风格和术语的变化。通过对我们建立的FL-MRG基准进行广泛评估,我们展示了FedMRG的可泛化性和适应性,突显了其在利用多中心数据和生成临床准确报告方面的潜力,同时保持沟通效率。
核心速览
研究背景
- 研究问题:这篇文章要解决的问题是如何在多中心医疗报告生成(MRG)中利用联邦学习(FL)实现隐私保护的多中心模型开发,特别是解决在多模态数据异质性下的通信效率问题。
- 研究难点:该问题的研究难点包括:医疗数据的分散性和隐私限制,使得数据集中化变得异常困难;现代大型语言模型(LLMs)需要大量的训练数据,单个医疗机构难以提供足够的数据;在多模态数据异质性下进行通信高效的LLM训练。
- 相关工作:该问题的研究相关工作有:利用LLMs进行医疗报告生成的研究,如R2GenGPT、PromptMRG等;联邦学习在基础模型构建中的应用,如FedAdaLoRA、FedPara等。
研究方法
这篇论文提出了FedMRG框架,用于解决多中心医疗报告生成中的通信效率和数据异质性问题。具体来说,
- 低秩适应(Low-rank Adaptation):首先,FedMRG通过低秩分解来减少每个客户端的LLM可训练参数数量,从而显著降低梯度传输成本。
- 分层对比和提示(Hierarchical Contrasting and Prompting, HCP):为了解决图像编码中的数据异质性问题,HCP采用了自我监督对比学习和诊断驱动提示的结合。具体来说,
- 客户感知特征对比:在每个本地客户端上进行自我监督对比学习,并通过全局记忆银行提供负样本。
- 诊断感知提示:将诊断预测转换为文本解码器的输入提示,以提供结构化的临床指导。
- 双适配器互促(Dual-adapter Mutual Boosting, DMB):为了解决文本解码器中的数据异质性问题,DMB设计了两个互补的LLM适配器:一个用于编码全局报告模式,另一个用于保留客户端特定的报告风格。具体来说,
- 双适配器设计:在每个解码器层中集成一个通用适配器和一个专用适配器。通用适配器通过常规联邦平均算法聚合全局知识,而专用适配器则通过专门微调捕捉本地客户端的特定知识。
- 互促机制:通过知识蒸馏实现双向知识转移,确保全局洞察力和本地适应性之间的有效知识交换。
实验设计
- 数据集设置:开发了公开的联邦MRG基准(FL-MRG),包含MIMIC-CXR和IU X-Ray两个公开数据集。通过患者级别的随机抽样和基于报告的聚类方法模拟真实世界的数据异质性和分布模式。
- 客户端异质性讨论:通过患者级别的随机抽样和报告聚类方法,模拟真实世界的数据异质性和分布模式。具体来说,FL-MRG(Random)通过分层随机抽样确保异构案例分布在子集中,而FL-MRG(Clustering)则通过报告聚类算法策略性地分组相似的临床病例。
- 真实世界联邦设置:通过整合CheXpert+数据集,创建一个真正的多机构协作数据集,保留不同医疗机构的自然数据异质性。
- 评估指标:使用自然语言生成(NLG)指标(如BLEU、CIDEr、ROUGE-L)和临床效能(CE)指标(如PRE、REC、F1)评估模型性能。
结果与分析
- 内部比较:在内部测试中,FedMRG在语言生成指标和临床效能指标上均优于其他基线和方法,特别是在精度和召回率方面有显著提升。
- 外部比较:在外部测试中,FedMRG在面对领域偏移时表现出强大的泛化能力,与基线方法相比,性能下降较小。
- 临床效能评估:FedMRG在临床效能指标上始终优于其他模型,特别是在生成更准确和临床相关的报告方面。
- 消融研究:通过消融研究分析了各个组件的贡献,结果表明去除表示损失、专用适配器和提示会导致性能显著下降,验证了各个组件的有效性。
总体结论
这篇论文提出了FedMRG框架,通过低秩适应、分层对比和提示以及双适配器互促机制,实现了在多中心医疗报告生成中的通信效率和数据异质性问题的解决。实验结果表明,FedMRG在生成准确且临床相关的报告方面表现出色,具有强大的泛化能力和实际应用潜力。未来的研究方向包括处理更复杂的现实世界医疗数据异质性和异步客户端参与的情况。
论文评价
优点与创新
- 首次提出联邦学习框架:FedMRG是第一个将联邦学习与大型语言模型(LLM)驱动的医疗报告生成(MRG)相结合的框架,提供了一种隐私保护的多中心医疗报告生成方法,特别解决了通信效率和多模态数据异质性双重挑战。
- 低秩因子分解:通过引入低秩因子分解,显著减少了LLM的可训练参数数量,从而在联邦学习环境中实现了显著的通信成本降低。
- 分层对比和提示(HCP):在图像编码器中,HCP结合了自监督对比学习和全局记忆银行的负样本,并通过诊断驱动的提示来指导报告生成,确保临床精度和相关性。
- 双适配器互促机制(DMB):在文本解码器中,DMB集成了两个互补的LLM适配器,一个针对通用全局知识优化,另一个针对本地数据细节优化,通过相互知识转移实现协同改进。
- 全面的基准测试:建立了第一个全面的联邦医疗报告生成基准(FL-MRG),模拟了现实的多中心异质性,并通过与14种最先进方法的广泛实验比较和详细的消融研究,展示了FedMRG在通信效率和临床准确性方面的优越性。
不足与反思
- 数据异质性的模拟:当前的方法通过视觉转换和基于报告的聚类来模拟异质性,但现实世界中的医疗数据异质性更为复杂,包括疾病发病率、患者人口统计学和机构报告偏好的变化。
- 同步客户端参与的假设:框架假设客户端参与是同步的,这在具有不同运营时间表的临床环境中可能不总是可行的。
- 未来研究方向:未来的研究可以进一步探索更复杂的异质性模拟方法,并改进框架以适应异步客户端参与的情况。
关键问题及回答
问题1:FedMRG框架如何通过低秩适应(Low-rank Adaptation)解决通信效率问题?
FedMRG通过低秩分解来减少每个客户端的大型语言模型(LLM)可训练参数数量,从而显著降低梯度传输成本。具体来说,低秩适应(LoRA)技术通过引入低秩矩阵来调整预训练的LLM权重,而不需要完整的模型更新。
问题2:FedMRG框架中的分层对比和提示(HCP)机制是如何设计的,其在图像编码中的作用是什么?
分层对比和提示(HCP)机制旨在解决图像编码中的数据异质性问题。它结合了自我监督对比学习和诊断驱动提示,具体设计如下:
- 客户感知特征对比:在每个本地客户端上进行自我监督对比学习,并通过全局记忆银行提供负样本,以学习区分性的视觉表示,同时保持客户端特定的特征。
- 诊断感知提示:将诊断预测转换为文本解码器的输入提示,以提供结构化的临床指导,确保生成的报告不仅在语言上连贯,而且在临床上准确。
这种机制通过结合全局和局部的信息,增强了模型的泛化能力和临床准确性,使得模型能够在多中心医疗报告生成任务中表现出色。
问题3:FedMRG框架中的双适配器互促(DMB)机制是如何设计的,其在文本解码器中的作用是什么?
双适配器互促(DMB)机制旨在解决文本解码器中的数据异质性问题。它设计了两个互补的语言模型适配器:
- 通用适配器:通过常规联邦平均算法聚合全局知识,用于编码全局报告模式。
- 专用适配器:通过专门微调捕捉本地客户端的特定知识,用于保留客户端特定的报告风格。
双适配器通过知识蒸馏实现双向知识转移,确保全局洞察力和本地适应性之间的有效知识交换。具体来说,通用适配器在每次本地训练轮次开始时继承通用适配器的权重,并在后续轮次中冻结。专用适配器则在此基础上扩展,捕捉本地客户端的特定知识。这种机制不仅提高了模型的性能,还确保了在不同医疗机构的报告生成中的一致性和准确性。
本文转载自知识图谱科技,作者:Wolfgang
