学会LLM思维:语料质量的自评估 原创

发布于 2025-4-22 07:24
浏览
0收藏

日常工作中面对各类的作业,如何通过工程化的设计,充分利用LLM的逻辑推理能力,是AI思维的最直接体现。今天开始小编将带着大家,遵循AI思维来解决日常作业中的各种问题。今天探讨的实际场景是语料质量评估。在垂类应用或者RAG应用,将企业知识或者领域知识转化为语料是最为关键的一环,但是如何来确定语料的质量作为关键。

LLM的训练过程中因为其预训练能力与困惑度(PPL)相关,因此可以从不同的数据来源中分别提取困惑度排名靠前和排名靠后的语料,交予大模型自己去评估和分析,这些导致困惑度差异巨大的归因,进而得出评估标准。

学会LLM思维:语料质量的自评估-AI.x社区


上述的实验如下图所示的确得出了与LLM性能相关的13个质量标准:准确性、连贯性、创造性、语法多样性、知识新颖性、语言一致性、原创性、专业性、语义密度、敏感性、结构标准化、风格一致性和主题聚焦,并形成了一个名为总体评分的综合标准。

学会LLM思维:语料质量的自评估-AI.x社区


小编点评:通过大模型完成语料质量标准的分类提取。在日常其余的企业应用中,也可以将差异较大的语料通过满血的大模型去协助提炼质量评估标准。当然如何构建提示词,引导大模型给出正确的结论十分重要。下面为提示词示例,提醒大模型按照质量评估细项进行逐一打分。当然这个过程需要和人类专家进行交叉对比验证,最终其与人类偏好的共识度超过95%。


Please carefully read and analyze the following text, score it based on fourteen evaluation criteria and
their respective scoring definitions. Additionally, select the most appropriate category from the fifteen
domain types that best matches the content of the text. Let’s think step by step.


Text:{text}


Domain Types: [A]Medicine [B]Finance [C]Law [D]Education [E]Technology [F]Entertainment
[G]Mathematics [H]Coding [I]Government [J]Culture [K]Transportation [L]Retail E-commerce
[M]Telecommunication [N]Agriculture [O]Other


The Higher The Score, The Evaluation Criteria:
[1]Accuracy: the fewer grammar, referential, and spelling errors the text contains, and the more accurate
its expression. _/5
[2]Coherence: the more fluent the content is expressed, and the stronger its logical coherence. _/5
[3]Language Consistency: the more consistent the use of language in the text, with less mixing of
languages. _/5
[4]Semantic Density: the greater the proportion of valid information in the text, with less irrelevant or
redundant information. _/5
[5]Knowledge Novelty: the more novel and cutting-edge the knowledge provided by the text, with more
insightful views on the industry or topic. _/5
[6]Topic Focus: the more the text content focuses on the topic, with less deviation from the main theme.
_/5
[7]Creativity: the more creative elements are shown in the text’s expression. _/5
[8]Professionalism: the more professional terminology appears in the text, with more accurate use of
terms and more professional domain-specific expression. _/5
[9]Style Consistency: the more consistent the style of the text, with proper and appropriate style
transitions. _/5
[10]Grammatical Diversity: the more varied and correct the grammatical structures used in the text,
showing a richer language expression ability. _/5
[11]Structural Standardization: the clearer the structure followed by the text and the more standardized
its format. _/5
[12]Originality: the fewer repetitions and similar content in the text. _/5
[13]Sensitivity: the more appropriately sensitive topics are handled in the text, with less inappropriate
content. _/5
[14]Overall Score: the better the comprehensive evaluation of the text, with superior performance in all
aspects._/5


为了让质量评估更加具有广泛性,研究人员引入15种数据常见的领域类型,按照如上的方式构建一套微调数据集。


学会LLM思维:语料质量的自评估-AI.x社区


最后利用这些质量评估的语料,微调小模型形成DataMan模型,DataMan主要用于质量评估打分。

学会LLM思维:语料质量的自评估-AI.x社区


通过上图可以观测到DataMan对于不同数据来源在不同质量评估项的打分情况。行代表着每种质量评估标准,而每一列代表着来源为“自然爬取”,质量的确较为一般。

最后为了证明DataMan的有效性,研究人员对Slimpajama语料库中的447B个标记进行了质量评分和领域类型标注,创建了DataPajama数据集。

学会LLM思维:语料质量的自评估-AI.x社区

通过DataMan对数据集的打分和分析可以观测出编码(Coding)由于其固定的语法格式,表现出最少的语法多样性和较高的结构标准化。来自专业领域的数据展示了较强的原创性和语义密度,具有较低的内容冗余和有意义的内容,提升了模型在垂直领域的表现。政府和娱乐领域表现出较低的敏感性,这可能与社交媒体上的言论自由和政治敏感话题有关,帮助模型过滤有害言论和敏感内容。总体而言,专业领域往往能获得更高的总体评分,而长尾领域和一般领域则相对较低。

从DataPajama中采样了一个30B标记的子集,并从头开始训练了Sheared-LLaMA-1.3B语言模型。在十个下游任务中,使用DataMan采样的13个质量标准训练的Sample-with-DataMan模型在上下文学习性能上超越了现有的最先进(SOTA)基准,提高了0.4%到4.3%,展示了这些标准的有效性。随着总体评分从1到5的提升,ICL性能和PPL都显著改善,验证了质量排序的必要性。

为了进一步测试成果,研究人员采样更大60B数据子集,并将构造出来的最强的Sample-with-DataMan模型(总体评分l=5)与现有的SOTA基准进行了比较。

  • PPL和ICL性能并不完全一致。
  • 在指令跟随任务,所有使用DataMan的Sample-with-DataMan模型的胜率都远远超过了现有的SOTA基准,胜率在67.1%到78.5%之间。
  • 继续使用DataMan注释的高评分、领域特定数据进行预训练最强的总体评分l=5模型,在特定领域取得了优越的ICL性能,从而验证了DataMan的领域混合能力。
  • 对DataPajama数据集进行了深入分析,探索了来自不同来源的DataMan质量评分的分布,并检查了每个质量评分1、2、3、4、5对应的原始文档。

PPL(Perplexity,困惑度)是一种衡量语言模型预测能力的指标,常用于评估语言模型在给定文本的条件下生成下一个单词的能力。具体来说,困惑度越低,表示模型在处理文本时更能准确预测下一个单词或字符,因此它的性能越好。反之表示模型的预测能力较差。在训练过程中,PPL用来评估模型的语言理解和生成能力,它反映了模型对于语言结构的理解和对未来单词预测的“困惑”程度。

ICL(上下文学习) 是指模型在推理或生成过程中,如何根据给定的上下文进行学习和适应。它不仅关注模型对语法或语义的理解,还强调模型根据上下文信息灵活地调整输出,比如根据任务中的提示、问题背景或用户的需求来生成更合适的内容。ICL 反映的是模型的下游泛化能力,即它在处理特定任务时如何灵活适应和推理。

小编认为这篇论文给出的几点重要提示:

  1. 充分利用“满血”大模型的逻辑推理和总结能力,让其在语料标注领域中扮演先锋的角色。大模型不是万能的,但是可以在知识密集型的业务领域中完成第一道初筛的工作,减轻后续人类介入和标注的工作量。
  2. 利用精校好的语料库,选择市面上优质的开源大模型(1B-7B)进行专业领域的子任务微调性价比最高,在资源和效果之间达到新的平衡点。

本文转载自​鲁班模锤​,作者:庞德公

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-4-22 09:33:54修改
收藏
回复
举报
回复
相关推荐