
生成式AI与医疗:FDA盲区中的医药监管新挑战与大模型临床应用"Elsa"
引言
近年来,大型语言模型(LLMs)以惊人的速度渗透到医疗领域,尽管它们并非原生用于临床决策,但医疗从业者正日益依赖这些新兴AI工具来辅助诊疗。如果AI产品以“临床决策支持”为卖点,依据美国食品药品监督管理局(FDA)的规定,其很可能应被视作医疗器械接受监管。然而,现有法规体系远远未能覆盖这一激增的应用场景,监管滞后于技术创新,潜在风险与巨大前景并存。
Penn LDI高级成员兼宾大医学院助理教授Gary Weissman等人,进行了首个模拟医生如何利用LLM做临床决策支持的系统性研究。结果表明,即使明确设置“不建议作决策”,AI仍然在紧急场景下自动给出类似“医疗器械”的诊疗建议,这不仅涉及新科技的伦理风险,也对现行监管构成前所未有的挑战。
LLM是什么?它怎样影响医疗?
“LLM是一种能读取互联网上海量文本的数据驱动程序,能够模仿对话、生成各种文本输出。就像互联网,LLM学习到的内容有真有假,模型本身无法分辨对错,需人工反馈。输出有时准确、易于理解,但也可能完全错误、或存在潜在危害。” —— Gary Weissman
在医疗领域,LLM可能能回答“肺炎是什么?”这类一般性问题,但面对“该患者当前如何处置肺炎?”则远远不够安全与严谨。迄今为止,没有人真正将LLM用于真实病患的高风险临床决策。
研究方法与设计亮点
Weissman团队以模拟场景还原了LLM被医生实际用于决策支持时的过程。团队通过输入包含病例信息并不断丰富细节,动态询问AI的临床建议,借此评估AI输出是否满足FDA《医疗决策支持软件指南》中,将软件认定为“医疗器械”的判定标准。
值得注意的是:
- 传统AI“可复现”、即同一输入必得相同输出;而LLM是生成式AI,“同题试十次十种答”,输出高度波动,给评估带来挑战。因此,研究组每组输入重复五次,统计各类输出比例与波动性。
核心发现与疑问
“LLM在大多数场景下,哪怕我们给出了非医疗器械的参考答案,它仍然自发给出属于FDA‘医疗器械’范畴的决策支持,特别是在紧急情境下尤其突出。”
举例:急救情境下的AI建议
例如,面临疑似心脏骤停的场景,GPT-4和Llama-3均建议“立即呼叫急救、给予阿司匹林”,这是普通旁观者就能执行的合理建议;但同时,AI也会建议“给予氧气吸入”“建立静脉通道”,这些举措只适合专业医护操作。此现象引发新的监管困境:AI输出跨越了专业-非专业的边界,怎样针对不同用户群体分级监管?
事件 | GPT-4建议 | Llama-3建议 | 合理性 |
呼叫急救 | √ | √ | 旁观者合理 |
给阿司匹林 | √ | √ | 旁观者合理 |
补充氧气 | √ | √ | 临床专业人士 |
静脉通道 | × | √ | 临床专业人士 |
FDA现有监管制度的局限
- 当前FDA对AI/ML的监管仍基于数十年前制定的医疗器械法案,不涉及生成式AI特别是LLM的新特性;
- “紧急时限”“理解决策依据”这些关键概念,在官方文件中都缺少明确定义,需要更多实证研究支撑监管调整。
监管展望与改革建议
Weissman团队针对LLM监管,提出三方面建议:
- 输出限制:开发更高效的“安全围栏”,让AI像法规规定的传统设备一样,只能在被授权的适应症上作出建议,避免“超范围答题”。类似目前OpenAI等企业为防止版权/危险内容所加的安全机制。
- 通用型路径:针对LLM泛化能力强、很难固守单一适用范围现实,建议开辟“广义临床决策支持工具”的独立审批通道,而非精准到小适应症执照。但这个“广度-安全性”权衡,尚无成熟国际范例可供借鉴。
- 用户区分监管:针对终端“专业人士”与“普通旁观者”区分管理。同一AI建议或许可作为急救现场外围群众的急救参考,但对专业医生则要按更高门槛监管。例如,推荐“心脏骤停做CPR”“疑似阿片过量给纳洛酮”均已反映了潜在用户分层的边界问题。
FDA最新进展——内部AI工具“Elsa”上线
图:FDA首次大规模内部部署大型语言模型——Elsa
2025年6月2日,FDA宣布自研大型语言模型AI——Elsa,在安全的GovCloud架构下启用,专为FDA员工提供内部文档检索、文本摘要、信息快速比对、大大提升了临床方案审查、科学评估和高优先级现场检查的效率。
Elsa主要功能与特点
- 快速阅读与文档总结,提升科学复查效率
- 支持不良事件摘要、说明书对比、自动生成数据库代码
- 坚持不训练来自被监管企业的敏感数据,兼顾保密与合规性
- 未来将继续扩展AI在FDA各类数据流程与监管场景下的应用
这标志着FDA自身正在主动拥抱生成式AI,意在通过“智能助手”推动监管现代化,但同时如何监管外部AI产品,仍然留有巨大空间和挑战。
结语:未来展望与呼吁
在启动AI监管新时代的过程中,联邦、州政府甚至医院层面的实验性监管政策都将发挥重要作用。无论旧机制能否迅速转型,实证研究、技术演进与制度创新的“协同赛跑”——正成为AI医疗监管不可阻挡的趋势。
延展阅读
- Weissman等人原文发表于《npj Digital Medicine》,题为“Unregulated Large Language Models Produce Medical Device-like Output”,2025年3月7日上线。
作者:Christine Weeks,战略项目主任整理编辑:GPT-4.1助理来源:Penn LDI、FDA官方网站
Sources:
https://ldi.upenn.edu/our-work/research-updates/ai-in-health-care-and-the-fdas-blind-spot/
本文转载自知识图谱科技,作者:知识图谱科技
