FABLES:超长文本自动摘要评估 原创

发布于 2024-4-25 12:10
浏览
0收藏

长文本大语言模型(LLMs)的崛起使得生成整本书的摘要成为可能。然而,评估这些摘要的质量,特别是它们与源材料的忠实程度和相关内容的选择,带来了重大挑战。近日,研究人员发表的论文《FABLES: Evaluating faithfulness and content selection in book-length summarization》深入探讨了这一挑战,提出了一种新颖的数据集,并探讨了当前评估方法的局限性。

FABLES:超长文本自动摘要评估 -AI.x社区

评估长篇摘要的一个主要障碍在于源材料的庞大量级和复杂性。要求人类注释者阅读整本书以评估摘要既耗时又昂贵。为了解决这个问题,该论文引入了 FABLES(Faithfulness Annotations for Book-Length Summarization),这是一个专注于新出版书籍摘要的数据集。通过招募已经阅读过这些书籍的注释者,该研究避开了对源材料的广泛熟悉的需求,使注释过程更加高效。

FABLES 通过专注于经常被忽视的两个关键方面——忠实度和内容选择——超越了现有的评估方法。该数据集不仅仅依赖于表面层面的连贯性等指标,而是采用了声明级别的注释。摘要被分解成单个声明,使注释者能够评估其准确性并提供来自书籍的证据。这种细粒度的方法揭示了LLMs所犯错误的性质,突出了与事件、角色状态和关系相关的不准确性的普遍性。此外,研究发现验证这些声明通常需要复杂的推理和推断,不像更简单的事实验证任务那样。

论文还探讨了使用LLMs的自动评估方法的潜力。虽然这种方法在其他摘要任务中显示出了潜力,但在长篇摘要的上下文中可靠地检测到不忠实的声明却很困难。即使提供了整本书作为证据,基于LLMs的评分者也无法达到人类水平的准确度。这一发现强调了任务的复杂性,并强调了需要进一步研究以开发健壮的自动评估方法的必要性。

除了忠实度,FABLES 还揭示了内容选择错误。通过分析注释者的摘要级反馈,发现经常遗漏了关键信息,包括重要事件、细节和主题。论文提出了这些遗漏错误的分类法,为当前LLMs摘要模型的局限性提供了宝贵的见解。此外,研究观察到LLMs倾向于过分强调发生在书籍末尾的事件,忽略了较早部分的重要信息。

FABLES: Evaluating faithfulness and content selection in book-length summarization》为该超长文本摘要领域提供了宝贵的财富。FABLES 数据集为评估长篇摘要的质量提供了一种急需的资源,超越了表面层次的指标,专注于诸如忠实度和内容选择之类的关键方面。该研究还强调了当前自动评估方法的局限性,并提出了声明级别的验证作为LLMs长文本理解的具有挑战性的基准。随着这一领域的研究进展,我们可以期待LLMs能力的进一步提升和更可靠评估方法的发展,最终导致生成甚至最复杂叙述的精彩摘要的高质量摘要

FABLES:超长文本自动摘要评估 -AI.x社区

实验

1. 忠实度和内容选择的人工评估

注释者评估了从由五种不同LLM配置生成的摘要中提取的单个声明的忠实度(基于基础模型和块大小的变化)。他们还提供了关于整体质量和内容选择的摘要级反馈。 数据集:FABLES,包含26本书的3,158个声明级别注释和130个摘要级别评论。

2. 忠实度的自动评估

使用不同访问证据的基于LLM的评分器进行实施

  • 无证据:评分器只看到声明和摘要
  • 人类证据:评分器看到声明、摘要和来自FABLES的人工注释证据
  • BM25检索:评分器看到声明、摘要和使用BM25从书中检索到的前5个句子
  • 整本书:评分器看到声明和整本书

评估

比较了评分器在FABLES注释的子集上的性能。

人工评估

CLAUDE-3-OPUS获得了最高的忠实度得分(90.66%),明显优于其他LLMs。 GPT-4和GPT-4-TURBO紧随其后,忠实度约为78%,而GPT-3.5-TURBO和MIXTRAL的得分约为70-72%。 对不忠实声明的分析表明,它们通常涉及事件、角色状态,并且需要多次推理进行验证。

摘要级别的评论突出了关键信息的频繁遗漏,导致遗漏错误的分类法的开发。

自动评估

所有基于LLM的评分器都难以可靠地识别不忠实的声明,即使有整本书作为证据。 “整本书”设置表现最好,但仍不及人类水平的准确度。

这一发现强调了在长篇摘要中自动评估忠实度的挑战,并建议在这一领域进行进一步研究。

论文:https://arxiv.org/pdf/2404.01261.pdf

译自(有删改):https://intuitionmachine.gumroad.com


本文转载自公众号AIGC最前线   

原文链接:​​https://mp.weixin.qq.com/s/xfBWtAImEO_1ofHj3wovsA​

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐