
从生成式AI到可信赖AI:两种AI的故事
文章摘要
大型语言模型虽然具备流畅的文本生成能力,但在准确性和可靠性方面存在重大缺陷。研究人员提出将符号知识和逻辑推理整合到AI系统中,构建可信赖、透明且一致的AI模型,为高风险领域的AI应用提供解决方案。
引言:生成式AI的双面性
当前的大型语言模型(LLMs)如GPT和Claude展现出令人惊叹的语言流畅性和巧妙的模仿能力,彻底改变了机器生成类人文本的方式 。然而,这些看似智能的系统在需要精确、一致和可解释推理的领域中仍然不够可靠 。
虽然LLMs已经掌握了大部分发达国家的语言(如英语和西班牙语),但在欠发达地区的语言方面仍然严重滞后 。更重要的是,即使在已掌握的语言中,准确性和可靠性的限制仍然阻碍了它们在高风险领域的应用 。
生成式AI的根本问题
尽管具备流畅的表达能力,LLMs经常编造事实(生成式AI的幻觉现象)并产生不一致的结果,这主要是因为它们被训练来模仿语言模式,而不是基于结构化知识进行推理 。
Doug Lenat和Gary Marcus在他们的研究论文《从生成式AI到可信赖AI:LLMs可以从Cyc学到什么》中提出了一种新方法:将显式符号知识和逻辑整合到AI系统中,以构建可信赖、透明且一致的模型 。
生成式AI的局限性分析
似是而非胜过真理
当前的LLMs通过预测基于大量文本数据的下一个最可能单词来运行 。这种方法使它们表现出卓越的流畅性,但从根本上来说是不可靠的。为了实现流畅性,它们被优化为用编造的事实和不稳定的推理来填补空白 。
更重要的是,它们的输出会因用户提示的细微或显著变化而发生变化 。原本应该成为它们优势的统计模式依赖,现在也成了它们的致命弱点。结果是,它们缺乏对"真理"的结构化知识,使它们在复杂或模糊的场景中容易出错 。
理解能力的缺失
正如Lenat和Marcus所强调的,LLMs并没有建立在一致的世界模型基础上 。它们无法区分事实与似是而非的虚构内容,导致因提示、温度设置甚至标点符号的不同而产生不稳定的行为 。
它们无法"理解"其输出内容的真实性 。这种根本性缺陷使得它们在需要准确信息的关键应用中表现不佳。
可信度差距
可信赖的AI必须掌握内容的真实性,这需要一致性、透明性和稳健推理能力等品质 。《从生成式AI到可信赖AI:LLMs可以从Cyc学到什么》的作者认为,要使AI变得可信赖,它必须满足十六个基本标准——从可审计性和可解释性到常识推理和伦理对齐 。
大多数LLMs在这些属性方面都存在不足 。它们的内部运作是不透明的;缺乏持久记忆,推理过程也不易解释或保持一致 。当在医学、金融或政策制定等关键领域部署AI时,这些差距会带来严重风险 。
基于知识的替代方案
Cyc项目的持久价值
近四十年来,Cyc项目一直致力于以正式的逻辑语言编码广泛的常识知识 。虽然其符号方法经常被数据驱动的深度学习所掩盖,但Lenat和Marcus认为Cyc提供了重要的经验教训 。
与LLMs不同,Cyc支持可追溯的推理链,使用结构化表示,并能明确推理因果关系 。这些能力对于需要可审计和逻辑稳健的AI系统至关重要 。
逻辑推理优于模式匹配
他们提案的核心在于将大规模符号推理与语言能力相结合 。AI系统不是基于表面模式识别生成输出,而是建立在符号逻辑基础上,可以应用演绎和归纳推理,评估冲突证据,并以原则性方式适应新环境 。
这允许在需要逻辑链或数学严谨性的领域中实现更大的一致性 。这种方法代表了从统计模式识别向真正的逻辑推理的根本转变。
结构化知识表示
论文的一个核心观点是,知识不应该仅仅潜藏在神经网络中,而应该明确表示 。例如,Cyc将事实存储在基于逻辑的三元组(主语-谓语-宾语)中,并使用丰富的本体来建模概念之间的关系 。
这种结构使系统能够验证推理,识别不一致性,并解释其结论——这些能力在今天的LLMs中基本上是缺失的 。
构建可信赖AI的路径
可信赖AI的特征
根据作者的观点,可信赖的AI必须做的不仅仅是生成连贯的文本 。它应该:
- 应用有效、可重现的推理
- 区分事实和推测
- 整合事实和上下文的长期记忆
- 基于道德和伦理考虑调整行为
- 为其输出提供可追溯到明确输入的解释
这些特征与Cyc中构建的功能密切一致,而在神经LLMs中基本缺失 。
弥合差距:混合模型
Lenat和Marcus建议,前进的道路在于混合系统——将LLMs的语言流畅性与符号AI的结构化推理相结合 。在这种模型中,LLM可能生成候选答案,但符号推理器会根据已知事实和逻辑约束对它们进行审核 。
或者,符号引擎可能生成查询或推断缺失的前提,然后LLM可以详细阐述 。这种分工可以提供两全其美的解决方案:灵活性和可靠性 。
新评估范式
作者还批评了当前AI的评估标准,这些标准通常依赖基准分数而不是更深入的推理和一致性测试 。他们呼吁采用新的指标来评估:
- 逻辑合理性
- 事实根据
- 内部一致性
- 遵守伦理规范
这些指标将更好地反映可信赖AI的目标,并帮助识别适合关键部署的系统 。
挑战与未来方向
符号系统的扩展性
对符号AI的一个常见批评是其有限的可扩展性 。构建和维护像Cyc这样的知识库需要大量资源 。然而,作者认为,用于自动知识提取的新工具,结合协作编辑,可以使这个过程更具可扩展性 。
他们还提议LLMs可以通过生成反事实或提出新推理来帮助识别知识库中的空白 。这种协同方法可能为大规模知识工程提供解决方案。
整合常识和上下文
LLMs经常在常识推理方面失败,因为它们缺乏嵌入的世界模型 。另一方面,符号系统可以明确编码日常知识:比如"如果一个人掉落玻璃杯,它通常会破碎" 。
整合这种知识使系统能够做出更好的推理并避免荒谬的错误 。这种常识知识的整合是构建真正智能AI系统的关键组成部分。
人机协作推理
另一个重要提议是让人类参与推理过程 。可信赖的AI不应该完全自主(至少在仍处于前AGI阶段时);相反,它应该支持与人类用户的透明协作,提供解释,询问澄清问题,并适应用户反馈 。
当前挑战
让人类有意义地参与生成式AI的推理过程是困难的,因为这些系统以超过人类监督的速度和规模运行,而它们不透明的决策制定(例如黑盒幻觉)挫败了透明协作——这正是可信赖AI的基础 。
这一挑战突出了在AI系统设计中需要考虑人机交互的重要性。未来的AI系统必须设计为支持人类理解和参与,而不是简单地用自动化替换人类判断。
结论与展望
Lenat和Marcus的论文既提出了批评,也提供了路线图 。虽然生成式AI以语言流畅性令人眼花缭乱,但在高风险领域真正重要的品质上却步履蹒跚:真理、一致性和问责制 。
通过回到符号AI的原理,特别是在Cyc项目中所展示的原理,作者为可信赖AI的可能面貌提供了引人注目的愿景 。
他们的工作表明,未来不在于将符号推理和神经网络视为不兼容的范式,而在于整合 。可信赖的AI不会仅仅建立在概率基础上,而是建立在能够解释、证明并随时间改进其推理的系统上 。
在这个新兴时代,流畅性是必要的——但信任将通过逻辑来获得 。这种整合方法为AI领域提供了一条新的发展路径,有望在保持语言生成能力的同时,显著提升系统的可靠性和可信度。
对行业的启示
这项研究对AI行业具有重要意义 :
- 技术发展方向:纯粹的统计方法可能不足以构建真正可信的AI系统
- 投资机会:混合AI系统和符号推理技术可能成为下一个投资热点
- 应用场景:在医疗、金融等高风险领域,可信度比流畅性更为重要
- 监管要求:随着AI在关键领域的应用增加,监管机构将更加重视AI系统的可解释性和可靠性
对于企事业单位和科研院所而言,这意味着在选择和部署AI解决方案时,需要更加重视系统的可信度和可解释性,而不仅仅是性能指标。
本文转载自知识图谱科技,作者:Wolfgang
