
内部评估作用有限:通用人工智能需要第三方缺陷披露机制
通用人工智能(GPAI)时代的风险与挑战
通用人工智能(GPAI)系统,凭借其广泛的应用能力,正迅速渗透到我们生活的方方面面。这些基于基础模型并服务于多种用途的软件系统,已拥有庞大的用户群体。一些 GPAI 系统每周活跃用户已超过 3 亿。同时,GPAI 系统在安全和权利影响领域的应用也日益广泛,如医疗保健、金融、教育和司法等 (Maragno et al., 2023; Young, 2024; Perez-Cerrolaza et al., 2024)。
然而,GPAI 系统的广泛应用也伴随着巨大的潜在风险。与传统软件不同,GPAI 系统往往表现出概率性故障(Raji et al., 2022a),这意味着它们的行为并非总是可预测或可解释的。这种不确定性带来了诸多安全、保障和可信度方面的风险 (Weidinger et al., 2022; Li et al., 2023)。论文中列举了多个已报告的 GPAI 缺陷案例,例如:
- Angwin et al. (2024) 报道了 AI 系统传播关于选举过程的错误信息。
- Vishwanath et al. (2024) 发现了 AI 系统导致医疗记录损坏的案例。
- Cheng (2024) 揭示了 AI 系统被用于生成和传播图像性虐待内容。
这些案例表明,GPAI 系统的缺陷可能导致严重的社会危害,包括误导公众、侵犯隐私、损害健康、加剧歧视等。
尽管存在这些风险,但当前 GPAI 系统缺陷报告的基础设施、实践和规范却严重滞后。与软件安全等成熟领域相比,AI 领域的缺陷报告机制还处于初级阶段。这种滞后使得 GPAI 系统的安全漏洞和社会技术风险难以被及时发现和有效解决。
为了应对这一挑战,以麻省和斯坦福为主的研究人员在论文《In-House Evaluation Is Not Enough: Towards Robust Third-Party Flaw Disclosure for General-Purpose AI》中提出了一个全新的 GPAI 安全范式,其核心在于建立一个稳健的第三方缺陷披露机制。
论文提出了三个核心干预措施:
- 标准化的 AI 缺陷报告和研究人员行为准则:旨在简化 GPAI 系统缺陷的提交、重现和优先级排序过程。
- GPAI 系统提供商采用广泛的缺陷披露计划和安全港:鼓励第三方研究人员参与缺陷发现,并为其提供法律和技术保护。
- 改进基础设施以协调缺陷报告的分发:确保缺陷信息能够及时、准确地传递给所有受影响的利益相关者。
第三方评估的必要性:超越内部评估的局限
传统的 AI 系统评估主要依赖于内部评估,即由系统开发者或其委托的第二方进行的评估。然而,内部评估存在固有的局限性,使其难以充分保障 GPAI 系统的安全性和可靠性。
首先,内部评估在规模上受限。由于资源和时间的限制,内部评估团队通常规模较小,无法对系统进行全面、深入的测试。其次,内部评估在覆盖范围上存在不足。内部评估人员可能缺乏多样化的视角和专业知识,难以发现所有潜在的缺陷。最后,内部评估在独立性方面存在缺陷。由于利益冲突的存在,内部评估人员可能倾向于低估或忽视某些缺陷。
相比之下,第三方评估具有独特的优势。第三方评估可以:
- 扩大评估规模:吸引更广泛的评估者群体参与,包括独立研究人员、安全专家、伦理学家、社会科学家等。
- 拓宽评估覆盖范围:引入更多样化的视角和专业知识,发现更广泛的缺陷,包括安全漏洞、偏见、鲁棒性问题、可解释性问题等。
- 提高评估独立性:避免利益冲突,更客观地评估系统的风险。
- 增强评估适应性:及时发现和应对部署后出现的新风险,因为GPAI系统在使用过程中经常出现意想不到的风险。
论文引用 Raji et al. (2022b) 的研究,强调了第三方风险评估对于识别和减轻 GPAI 系统潜在危害的独特必要性。
然而,要充分发挥第三方评估的潜力,需要建立一个完善的基础设施和机制。当前,GPAI 评估生态系统与软件安全等成熟领域相比,还存在显著差距。这促使我们借鉴协调漏洞披露和漏洞赏金的原则,构建一个更稳健的 GPAI 缺陷披露体系。
问题:AI 评估实践与软件安全实践的差距
为了更清晰地理解当前 AI 评估实践的不足,我们需要先要明确 AI 缺陷的定义和范围。论文对“AI 缺陷”给出了一个广义的定义:
一组条件或行为,允许违反与系统安全性、保障性或其他不良影响相关的显式或隐式策略。
这一定义涵盖了传统的软件安全漏洞,以及更广泛的社会技术风险,例如偏见、歧视、虚假信息、隐私侵犯等 (Solaiman et al., 2024)。这种广义的定义反映了 GPAI 系统可能产生的复杂多样的危害。
第三方 AI 评估者在发现和报告 AI 缺陷方面发挥着关键作用。他们可以是独立研究人员、安全专家、伦理学家、社会科学家,甚至是普通用户。然而,当前第三方评估者面临着诸多挑战:
- 缺乏统一的报告标准和流程:导致缺陷报告难以提交、重现和优先级排序。
- 缺乏有效的披露渠道:缺陷信息难以传递给所有受影响的利益相关者。
- 缺乏法律和技术保护:评估者担心因违反服务条款或触犯法律而受到惩罚。
这些挑战阻碍了第三方评估者的积极性,也限制了第三方评估的效果。甚至还有某些第三方评估将其作为营利的商业手段。
但大环境之下,GPAI 系统的安全、保障和可信度又确实面临着独特的挑战。这些系统已部署到数亿用户 (Roth, 2025; OpenAI, 2025),但其部署后的风险状况却不透明 (Bommasani et al., 2023)。GPAI 系统的风险具有多样性和不可预测性 (Weidinger et al., 2021; 2022; Marchal et al., 2024a; Cattell et al., 2024b; Kapoor et al., 2024),这使得风险评估和缓解变得更加困难。
第三方研究人员已经发现了大量与 GPAI 系统安全、保障和可信度相关的严重缺陷 (Carlini et al., 2024b;a; Reuel et al., 2024; Cattell et al., 2024b)。然而,令人担忧的是,当前资源主要集中于 GPAI 系统的产品化,而非解决这些安全挑战 (Schmidt Sciences, 2024)。
现有 AI 缺陷报告机制存在三个核心差距:
- 缺乏报告文化:与软件安全领域成熟的漏洞报告文化相比,AI 领域的缺陷报告还处于起步阶段。许多缺陷被忽视或未被报告,或者仅在社交媒体上非正式地披露(参见论文图 1)。
- 有限的披露基础设施:现有的报告选项有限且分散,难以满足 GPAI 缺陷报告的需求(参见论文表 A3)。
- 缺乏对评估者的法律和技术保护:缺乏安全港机制,评估者担心因违反服务条款或触犯法律而受到惩罚 (Harrington & Vermeulen, 2024; Council, 2023; Albert et al., 2024)。
这些差距凸显了构建一个更稳健的 GPAI 缺陷披露机制的紧迫性。
构建更好的 GPAI 缺陷披露:借鉴软件安全的六项原则
为了构建一个更有效的 GPAI 缺陷披露机制,论文借鉴了软件安全领域的六项原则,并纠正了六个常见的误解。
- 纠正误解 1:第三方评估和缺陷披露不是资源的有效利用。
软件安全领域的经验表明,第三方评估和漏洞披露对于提高系统安全性具有重要作用。多项研究表明,漏洞披露可以显著提高软件安全性 (Gal-Or et al., 2024; Walshe & Simpson, 2022; Boucher & Anderson, 2022; Wachs, 2022; Arora et al., 2010)。其他行业,如美国国防部和食品药品管理局,也采用了漏洞披露计划 (DoD Cyber Crime Center, 2022; Schwartz et al., 2018)。 - 纠正误解 2:GPAI 系统与现有软件不同,需要特殊的披露规则。
尽管 GPAI 系统具有概率性输出、缺陷可转移性、领域专业知识等特点,但这并非 GPAI 系统独有。许多软件系统也具有类似的特性。U.S. Cybersecurity and Infrastructure Security Agency 和 Carnegie Mellon University’s CERT 已经运行了针对具有这些特征的缺陷的协调漏洞披露计划 (Boucher & Anderson, 2022; Cattell et al., 2024b)。Householder et al. (2024a) 指出,软件漏洞披露计划可以为 AI 缺陷披露提供最佳实践。 - 纠正误解 3:缺陷披露是为系统开发者服务的,而不是为公众。
缺陷披露应面向所有利益相关者,包括开发者、部署者、用户、公众、监管机构等。公众知情权对于提高 AI 产品安全性和形成市场压力至关重要 (Householder et al., 2024a)。 - 纠正误解 4:缺陷披露仅适用于开发或使用报告的 GPAI 系统的供应链参与者。
可转移缺陷可能影响多个系统,涉及多个系统开发者、部署者和分发者 (Wallace et al., 2019)。因此,需要一个协调披露基础设施来及时发现和缓解这些缺陷 (McGregor, 2024)。 - 纠正误解 5:确定 GPAI 系统的行为是否非预期并不可行。
缺陷识别是可行的,尤其是在基于 GPAI 系统提供商的策略或文档的情况下 (McGregor et al., 2024a)。缺陷报告应基于这些策略和文档 (McGregor et al., 2024a; OpenAI, 2024b)。 - 纠正误解 6:对善意第三方评估的保护可能会助长恶意使用。
“安全港”机制通过“what not who”原则,保护遵守规则的善意研究,而非基于研究者的身份 (Oakley, 2019; Department of Justice, 2022)。研究表明,安全港可以提高技术产品的韧性和质量 (Tschider, 2024)。
GPAI 评估与缺陷披露的新范式:三方参与者的行动清单
为了实现一个更稳健的 GPAI 缺陷披露机制,论文提出了一个新范式,并为第三方 AI 评估者、GPAI 系统提供商和披露协调中心分别制定了行动清单。
第三方 AI 评估者的行动清单
- 标准化的 AI 缺陷报告模板:
论文提出了一个标准化的 AI 缺陷报告模板(参见论文图 3),旨在简化缺陷报告的提交、重现和优先级排序过程。该模板包含了以下关键字段:
a.报告者 ID:报告者的匿名或真实身份。
b.报告 ID:唯一的缺陷报告 ID。
c.系统版本:受影响的 AI 系统和版本。
d.报告状态:报告的当前状态(例如,已提交、调查中、已修复)。
e.会话 ID:用于追踪缺陷环境的系统会话 ID。
f.报告时间戳:报告提交的时间。
g.缺陷时间戳:缺陷发生的时间。
h.上下文信息:涉及的其他软件或硬件系统版本。
i.缺陷描述:缺陷的详细描述,包括如何识别、重现以及它如何违反系统策略或用户期望。
g.策略违反:详细说明系统期望如何被违反或未被记录,指向使用条款、可接受使用策略、系统卡或其他文档。
k.标签:用于缺陷分类、利益相关者路由和优先级排序的标签(例如,开发者、系统、严重性、普遍性、影响、受影响的利益相关者、风险来源、赏金资格)。
该模板的设计借鉴了多个现有资源,包括 AI Incident Database、MITRE’s AI Incident form、OECD’s AI incident form、AI Vulnerability Database、MITRE’s STIX、CISA’s VEX 和 OASIS’s CSAF。
论文强调,对于与 GPAI 系统生成的输出相关的缺陷,报告应附有统计有效性指标,以描述不良输出出现的频率 (McGregor et al., 2024b)。
论文附录 B.1 提供了缺陷报告示例。
- 善意 AI 研究的行为准则:
论文借鉴计算机安全领域的“善意研究”概念,为第三方 GPAI 评估者提出了以下行为准则:
这些规则旨在建立积极的规范,鼓励负责任的研究行为,而非用于限制研究。
a.仅评估范围内的系统:评估应仅限于已部署且可公开访问的系统,除非获得明确许可。
b.不损害真实用户和系统:采取合理措施避免对系统运行造成实质性负担、破坏数据或损害用户体验。
c.保护隐私:未经同意,不得故意访问、修改或使用他人的高度敏感、私有或机密数据。
d.不故意暴露、生成或存储非法内容:不得故意暴露、生成或存储非法内容,如儿童性虐待材料(CSAM)。
e.负责任地披露缺陷:及时报告发现的缺陷,并在必要时保持机密,直到缺陷得到缓解或经过预先商定的披露期限。
f.不威胁利用信息进行非法或胁迫目的:不得威胁利用缺陷信息对提供商或用户进行非法或胁迫。
GPAI 系统提供商的行动清单
- 法律访问保护:
GPAI 系统提供商的服务条款(ToS)和可接受使用策略(AUP)可能阻碍合法研究 (Longpre et al., 2024b; Council, 2023; Klyman, 2024; Lemley & Henderson, 2024)。例如,禁止“逆向工程”、“自动数据收集”或“复制”的条款可能会无意中限制评估流程中的必要步骤。
为了解决这个问题,论文建议提供商在其服务条款中明确包含对遵循善意研究规则的研究的例外。这种例外可以 reassure 机构审查委员会、出版商、法律团队和资助者,他们通常担心授权或传播可能与服务条款冲突的研究 (Longpre et al., 2024b; Harrington & Vermeulen, 2024)。
此外,论文建议提供商提供明确的法律安全港 (HackerOne, 2023; Etcovich & van der Merwe, 2018; Pfefferkorn, 2022)。安全港应承诺不对遵守既定规则的研究人员采取法律行动。论文提供了建议的措辞,包括豁免条款和法律安全港条款。
安全港应基于善意研究规则,并广泛涵盖 AI 缺陷,而不仅仅是传统的安全漏洞。 - GPAI 缺陷披露计划:
论文建议 AI 提供商支持专门的 GPAI 缺陷披露计划,包括:
论文引用了 Cattell et al. (2024b)、Humane Intelligence 和 Anthropic 的缺陷披露计划作为示例。
a.报告缺陷的界面:提供一个机制,供第三方评估者匿名提交结构化缺陷报告、与提供商互动以及对报告进行优先级排序。
b.披露策略:详细说明 GPAI 缺陷的范围、测试人员的行为准则以及对遵循规则的评估者的服务条款和责任的例外。
- 无需审核的研究访问:
为了进一步赋能善意安全研究,论文建议 GPAI 提供商建立无需审核的研究访问计划,也称为“技术安全港” (Longpre et al., 2024b; Bucknall & Trager, 2023)。
这种计划可以为经过审查的研究人员提供更深入的系统访问权限,并确保他们的帐户不会因测试活动而被错误地暂停。
研究人员审查可以采用事前审查或事后审查的方式,并应基于“what not who”原则,即根据研究人员的行为而非身份来决定是否授予访问权限。
披露协调中心的行动清单
- 解决可转移 AI 缺陷的披露问题:
AI 缺陷通常具有可转移性,即一个模型或系统中的缺陷可能存在于其他模型或系统中 (Wallace et al., 2019; Carlini et al., 2021; Zou et al., 2023; Nasr et al., 2023a; Carlini et al., 2024b;a)。此外,AI 供应链非常复杂,涉及多个利益相关者,包括数据提供商、模型开发者、模型托管服务、应用程序开发者和分发平台 (Cen et al., 2023b)。
当前,可转移缺陷的披露存在局限性,通常只向一个提供商披露或直接向公众披露,这可能导致其他受影响的系统未能及时采取缓解措施。 - AI 披露协调中心的设计与功能:
为了解决可转移缺陷的披露问题,论文提出了一个 AI 披露协调中心(参见论文图 1),其作用类似于 Cybersecurity and Infrastructure Security Agency’s (CISA) incident reporting hub。
该中心将接收缺陷报告,并将其路由到相关的利益相关者,包括数据提供商、系统开发者、模型托管服务、应用程序开发者、模型分发平台、政府机构,以及在适当的披露期限后,更广泛的公众。
论文提出了一个轻量级的设计,利益相关者可以订阅缺陷报告卡中的特定标签,并接收包含这些标签的所有报告。例如,Meta 可以订阅“Meta”或“Llama 3.3”标签,数据提供商可以订阅“风险来源:预训练数据”标签,政府机构(如 CISA)可以订阅“影响:网络安全”标签。
该中心还将负责设置适当的披露期限,促进与利益相关者的沟通,并建立一个可查询的历史缺陷报告卡数据库。
建议:促进第三方 AI 评估生态系统
为了促进第三方 AI 评估生态系统的发展,论文提出了七项政策建议:
- 发布关于第三方 AI 评估的指南:为研究人员提供关于何时以及如何进行第三方评估的明确指导,包括最佳实践、行为准则和标准化报告模板。
- 将法律保护扩展到 AI 安全和可信度研究:修改现有法律框架,将目前适用于 AI 安全研究的保护扩展到 AI 安全和可信度研究,例如,澄清《数字千年版权法案》(DMCA)第 1201 条和《计算机欺诈和滥用法案》(CFAA)在 AI 安全和可信度方面的适用性。
- 要求 GPAI 提供商提高透明度:要求 GPAI 系统提供商披露关于其系统构建、内部评估、部署规模和影响的信息。
- 要求平台提供安全港:要求向数百万用户分发 GPAI 系统的平台(如云服务提供商或主要的封闭开发者)为遵守行为准则的研究人员提供法律和技术安全港。
- 资助和开发集中式披露基础设施:支持建立一个集中式的 AI 缺陷披露和协调中心,确保独立评估者和研究人员可以系统地报告漏洞并跟踪缓解措施。
- 鼓励采用缺陷赏金:建立明确的 GPAI 系统缺陷赏金计划指南,借鉴软件系统漏洞赏金计划的成功经验,激励研究人员主动识别缺陷。
- 优先采购经过第三方评估的系统:要求政府机构优先采购经过第三方评估的 GPAI 系统,将问责制和严格评估的原则纳入公共部门的 GPAI 部署。
论文引用了相关的现有法规(参见论文表 A1),包括 NIST AI 600-1、NIST AI 800-1、NIST SP 800-53 r5、NIST Cybersecurity Framework 2.0、NTIA Safety Working Group Vulnerability Disclosure Template v1.1、《数字千年版权法案》(DMCA)、《计算机欺诈和滥用法案》(CFAA)、CISA Binding Operational Directive 20-01、《关键基础设施网络事件报告法案》(CIRCIA)、《物联网网络安全改进法案》、欧盟《网络弹性法案》和欧盟 NIS 2 指令。
不同观点:对第三方评估和协调漏洞披露的质疑
论文讨论了两种常见的反对第三方评估和协调漏洞披露的观点。
- 观点 1:第一方和第二方评估,加上第三方对部署系统的廉价商业访问,足以发现和解决主要缺陷。
这种观点认为,GPAI 系统提供商进行的内部评估和合同评估,以及第三方通过廉价 API 访问 GPAI 系统,已经足够发现和解决主要缺陷。
论文反驳了这种观点,指出它未能考虑到:
论文强调,机器学习社区、政策制定者和民间社会对更广泛的风险具有专业知识和关注,而不仅仅是 GPAI 系统提供商和第二方评估者关注的风险。
- 因害怕报复而未进行安全研究的研究人员。
- 在社交媒体上报告(或根本未报告)的大量缺陷。
- 缺乏对严重缺陷采取集体行动的基础设施。
- 法律或程序上的不确定性带来的障碍。
- 观点 2:启用第三方评估和协调漏洞披露的努力给资源有限的公司带来了困难的权衡。
这种观点认为,GPAI 系统提供商在竞争激烈的商业环境中资源有限,没有足够的带宽来管理研究人员访问计划,而且通常只有少数人负责协调数千名感兴趣的研究人员的访问。
论文反驳了这种观点,指出:
论文强调,随着 AI 系统变得越来越强大,其在社会中的应用也越来越广泛,优先考虑缺陷发现、缓解和披露是至关重要的。
- 领先的 GPAI 系统开发商拥有数十亿美元的资金,足以雇佣更多员工来帮助研究人员发现系统中的缺陷。
- 精心设计的缺陷披露生态系统(如图 1 所示)对供应链中的每个参与者来说成本都很低,而且每个参与者都可以从通用基础设施中受益。
- 从长远来看,为协调漏洞披露基础设施做出贡献的投资回报将是巨大的。
未来发展:开放性的问题与解决方案
论文指出了三个主要的未来发展方向:
- 统一缺陷定义与责任:
缺陷报告者和 GPAI 系统提供商之间在缺陷定义和责任方面可能存在分歧。例如,某些提示可能使用户能够生成看似构成版权侵权的图像,而提供商和用户都可能认为对方应对侵权负责 (Lee et al., 2024)。
论文建议系统提供商维护明确的策略和系统文档,并要求 GPAI 缺陷报告基于这些策略和文档。未来的研究应探讨公司如何最好地调整和更新其策略和文档,以促进协调缺陷披露。 - 缺陷缓解与补救流程:
一旦缺陷被披露,如何缓解或补救这些缺陷仍然不确定。一个有效的协调缺陷披露机制将大大增加系统提供商收到的缺陷报告数量,并使观察提供商是否真正缓解或补救这些缺陷变得更容易。
未来的研究应帮助提供商选择如何对缺陷进行优先级排序,并确定缓解范围的选项。 - 披露协调中心的治理:
如何确保披露协调中心获得 AI 生态系统中关键私营部门参与者的支持,同时保持其在第三方评估者中的公信力,是一个潜在的挑战。
未来的研究应构建披露协调中心的关键功能,并朝着更大的问责制迈进。
总结与展望
该论文提出了一个全新的 GPAI 安全范式,强调了第三方评估和协调缺陷披露对于提高 GPAI 系统安全、保障和可信度的重要性。
论文的核心观点是,仅靠内部评估不足以保障 GPAI 系统的安全。需要建立一个稳健的第三方缺陷披露机制,鼓励研究人员参与缺陷发现,并为其提供法律和技术保护,同时确保缺陷信息能够及时、准确地传递给所有受影响的利益相关者。
这个思路其实对于国内实施监管的网信办发布的管理办法有着非常大的借鉴意义。监管与治理从来都不是一个静态的过程,而是需要进行持续有力且有抓手的监督。这个三方缺陷披露的框架就是一个很好的可供参考的设计。
论文为第三方 AI 评估者、GPAI 系统提供商和披露协调中心分别制定了行动清单,并提出了七项政策建议,以促进第三方 AI 评估生态系统的发展。
论文还讨论了两种常见的反对观点,并对其进行了反驳。
最后,论文指出了三个主要的未来研究领域,包括统一缺陷定义与责任、优化缺陷缓解与补救流程以及披露协调中心的治理。
参考论文: arXiv:2503.16861v1 [cs.AI] 21 Mar 2025
本文转载自上堵吟,作者:一路到底的孟子敬
