
大语言模型能否成为多语言仇恨言论检测的新利器?八种语言的实证研究
引言:仇恨言论检测的多语言挑战
在当今全球化的互联网环境中,仇恨言论已成为一个跨越语言和文化边界的普遍问题。随着社交媒体平台的普及,用户以多种语言创建和互动内容,这使得开发能够有效识别和减轻不同语言环境中仇恨言论的工具变得尤为重要。然而,目前的研究和技术发展主要集中在英语内容上,这导致对其他语言的关注度相对有限。
近年来,多语言指令调优的大型语言模型(LLMs)如LLaMA、Aya、Qwen和BloomZ展现出了跨语言处理文本的卓越能力。这些模型通过在多种语言的大规模文本语料库上进行预训练,再通过指令微调来增强对特定任务的理解能力,为多语言仇恨言论检测提供了新的可能性。特别是,这些模型的零样本(zero-shot)和少样本(few-shot)学习能力使其能够在没有或仅有少量标注数据的情况下执行复杂任务,这对于资源有限的语言尤为重要。
本文深入探讨了多语言指令调优LLMs在非英语仇恨言论检测中的有效性,特别关注了不同提示策略(prompting strategies)对模型性能的影响。通过对八种非英语语言的实证研究,我们旨在回答以下关键问题:(1)LLMs在各种非英语语言的仇恨言论检测中表现如何?(2)与零样本提示相比,少样本提示是否能提高性能?(3)LLM的性能与传统微调模型相比如何?
研究背景:多语言仇恨言论检测的现状与挑战
仇恨言论作为一种针对特定群体或个人的攻击性语言,不仅违反平台规则,还可能损害用户信任,影响公众舆论,并强化对目标群体的有害偏见。尽管自动化仇恨言论检测技术在近年来取得了显著进展,但这些进展主要集中在英语内容上,导致对其他语言的关注度不足。
传统的仇恨言论检测方法通常依赖于特定语言的训练数据集和语言模型,这使得它们难以适应多语言环境。这种局限性在处理资源匮乏的语言时尤为明显,因为这些语言通常缺乏足够的标注数据来训练有效的检测模型。
指令调优的大型语言模型(LLMs)为解决这一挑战提供了新的可能性。这些模型通过在多种语言的大规模文本语料库上进行预训练,再通过指令微调来增强对特定任务的理解能力,展现出了跨语言处理文本的卓越能力。特别是,这些模型的零样本和少样本学习能力使其能够在没有或仅有少量标注数据的情况下执行复杂任务,这对于资源有限的语言尤为重要。
然而,尽管这些模型在英语仇恨言论检测方面的有效性已得到广泛研究,但它们在非英语数据集上的表现仍未得到充分探索。一些研究已经开始探索LLMs在非英语仇恨言论检测中的应用,如Guo等人(2023)和Faria等人(2024)分别在中文和孟加拉语中测试了提示策略,Masud等人(2024)评估了LLMs在五种语言中对地理启动和人物角色属性的敏感性,但这些研究通常只关注少数语言或有限的提示策略。
本研究通过对八种非英语语言(西班牙语、葡萄牙语、德语、法语、意大利语、土耳其语、印地语和阿拉伯语)的全面评估,填补了这一研究空白,探索了多种提示策略在不同语言环境中的有效性,并将其与微调编码器模型进行了比较。
研究方法:多语言仇恨言论检测的实验设计
数据集选择与处理
本研究选择了具有明确仇恨言论标签的数据集,这些数据集遵循一致的定义:针对受保护群体或个人(因其属于该群体)的辱骂性语言。从每个数据集中随机选择2,000个样本作为测试集,用于评估提示和微调模型。对于阿拉伯语和法语,由于数据集规模较小,测试集分别限制为1,000和1,500个样本。剩余数据用于训练编码器模型。
使用的数据集包括:
- OUS19_AR (Ousidhoum等, 2019):包含3,353条阿拉伯语推文,其中22.5%被标记为仇恨言论。
- OUS19_FR (Ousidhoum等, 2019):包含4,014条法语推文,其中11.0%被标记为仇恨言论。
- BAS19_ES (Basile等, 2019):为SemEval 2019编制,包含4,950条西班牙语推文,其中41.5%被标记为仇恨言论。
- HAS21_HI (Modha等, 2021):为HASOC 2021收集,包含4,594条印地语推文,其中12.3%被标记为仇恨言论。
- SAN20_IT (Sanguinetti等, 2020):为Evalita 2020创建,包含8,100条意大利语推文,其中41.8%是仇恨言论。
- FOR19_PT (Fortuna等, 2019):包含5,670条葡萄牙语推文,其中31.5%被标记为仇恨言论。
- Gahd24_DE (Goldzycher等, 2024):一个德语对抗性数据集,包含10,996条推文,其中42.4%被标记为仇恨言论。
- Xdomain_TR (Toraman等, 2022):一个大规模、多领域的土耳其语数据集,包含38K个样本,类别不平衡率为74.4%。
对于功能性仇恨言论评估,研究使用了HateCheck基准测试(Röttger等, 2021),这是一个用于评估仇恨言论检测系统在多种语言中的鲁棒性的基准。它包括功能测试案例——设计用于测试特定能力的受控示例,如处理隐含仇恨、否定和非仇恨性的侮辱性词语。
模型选择
研究评估了四个指令调优的多语言LLMs用于八种语言的仇恨言论检测:
- LLaMA-3.1-8B-Instruct (Grattafiori等, 2024):Meta的指令调优解码器模型,针对推理任务进行了优化,主要为英语设计,但支持多语言。
- Qwen2.5-7B-Instruct (Qwen等, 2025; Yang等, 2024):阿里巴巴云的多语言解码器模型,支持30多种语言,具有强大的指令遵循能力。
- Aya-101 (Üstün等, 2024):Cohere的多语言模型,在100多种语言上进行了训练,针对公平的跨语言NLP(包括仇恨言论检测)进行了调优。
- BloomZ-7B1 (Muennighoff等, 2023):BigScience的解码器模型,通过多任务指令调优在46种语言上进行了微调,用于跨语言指令遵循。
作为编码器基线,研究微调了两个在分类任务上表现出色的多语言模型:
- XLM-T (Barbieri等, 2022; Conneau等, 2020):一个XLM-R扩展,在30多种语言的1.98亿Twitter帖子上进行了预训练。
- mDeBERTa (He等, 2021):一个覆盖100多种语言的多语言编码器,在零样本和低资源环境中有效。
提示策略设计
研究使用了一系列提示策略来评估指令调优的多语言LLMs在仇恨言论检测中的表现,如:
- 直接询问评论是否含有仇恨言论(vanilla)
- 提示模型作为分类器(classification)
- 思路链提示,引导模型进行逐步推理(CoT)
- 自然语言推理启发的提示(NLI)
- 考虑语言和文化背景的语言感知提示(multilingual)
- 将LLM分配为社区版主的角色(role-play)
- 先翻译后分类的提示(translate)
- 基于定义的提示,解释什么是仇恨言论(definition)
- 定义相关形式的辱骂性内容,帮助模型将它们与仇恨言论区分开来(distinction)等
研究还包括少样本提示,从训练集中检索并插入示例实例到提示中。此外,还探索了这些策略的组合。
研究结果:多语言仇恨言论检测的模型表现
研究在推理模式下使用各种提示类型评估了指令调优的LLMs,并报告了平均F1-macro分数。结果显示,提示设计对性能有显著影响。Aya101在使用基于定义和区分的提示时表现最佳,表明明确的定义可以提高其准确性。相比之下,Qwen在NLI和角色扮演提示中表现出色,表明对上下文和对话线索的敏感性。
在零样本设置中,Qwen和LLaMA3通常优于其他模型,总体性能相似。然而,Qwen在大多数真实世界测试案例中表现更好,而LLaMA3在功能基准测试中领先。少样本提示(通常是五样本)提高了性能,特别是在功能测试中,因为示例帮助模型更有效地应用上下文区分。在真实世界测试中,改进不那么一致——即使使用来自同一训练数据的示例。这表明少样本有效性不仅取决于数据质量,还取决于提示的清晰度和结构。
总体而言,指令调优的LLMs在不同语言的功能测试中表现显著,在真实世界测试中表现合理。然而,它们的有效性在很大程度上取决于提示设计和少样本示例的包含。
为了比较,研究使用五个随机种子在数据集的训练集上微调了两个编码器模型用于二元仇恨言论分类,并报告了平均宏F1分数。在真实世界数据集上,编码器模型通常在大多数语言中优于LLM提示,受益于特定任务数据的微调。然而,在功能测试中趋势相反,少样本提示通常产生更好的结果——突显了大型LLMs在受控评估环境中更强的泛化能力。
为了了解何时优先考虑提示,研究进行了额外的实验,比较了不同训练集大小的编码器模型性能与提示的性能。结果表明,根据语言的不同,当训练数据有限时,提示变得具有竞争力——例如,在西班牙语中使用100-200个示例,在印地语中使用300-400个,或在德语中使用600-700个。超过这些数量,微调通常会产生更好的性能。
讨论:提示策略在多语言仇恨言论检测中的作用
研究结果强调了提示设计在多语言仇恨言论检测中的重要性。不同的提示技术在不同语言中的效果各异,这表明在处理新语言时,尝试各种提示设计是有益的。在大多数语言中,少样本提示与其他技术相结合的效果优于零样本提示,这表明提供一些特定于任务的示例是有益的。
与微调编码器模型相比,在真实世界测试集上,提示LLMs的性能较低。然而,在功能测试案例中,提示通常表现更好。对提示在真实世界数据上表现不佳的语言的进一步分析表明,当只有有限的训练数据可用时,提示仍然是一个可行的选择。尽管如此,如果能够获得更大的训练集,微调编码器模型仍然是更有效的方法。
这些发现对于开发多语言仇恨言论检测系统具有重要意义。在资源丰富的语言中,微调特定任务的模型可能是最有效的方法。然而,对于资源有限的语言,或者当需要快速部署到新语言时,使用指令调优的LLMs与精心设计的提示可能是一个有效的替代方案。
此外,研究结果表明,不同的模型和提示策略在不同类型的测试中表现各异。在真实世界测试中,微调模型通常表现更好,可能是因为它们能够更好地适应特定数据集的特点。然而,在功能测试中,LLMs表现更好,表明它们具有更强的泛化能力,能够处理各种仇恨言论的表现形式。
实践应用:多语言仇恨言论检测的最佳实践
基于研究结果,我们可以提出一些在多语言环境中进行仇恨言论检测的最佳实践:
- 语言特定的提示设计:不同语言可能需要不同的提示策略。例如,在西班牙语中,"5 shot + CoT"提示效果最好,而在葡萄牙语中,"5 shot + multilingual"提示效果最好。
- 结合多种提示技术:将少样本提示与其他技术(如思路链、角色扮演或基于定义的提示)相结合通常会产生更好的结果。
- 考虑资源可用性:当训练数据有限时,使用指令调优的LLMs与精心设计的提示可能比微调模型更有效。然而,如果有足够的训练数据,微调特定任务的模型通常会产生更好的结果。
- 功能测试与真实世界测试的平衡:在评估模型性能时,应同时考虑功能测试和真实世界测试。功能测试可以评估模型处理各种仇恨言论形式的能力,而真实世界测试可以评估模型在实际应用中的表现。
- 语言和文化背景的考虑:在设计提示时,应考虑特定语言和文化的背景。语言感知提示和包含文化背景信息的提示可以提高模型在特定语言中的表现。
结论:多语言仇恨言论检测的未来方向
本研究探索了多语言指令调优LLMs在八种非英语语言中检测仇恨言论的能力。研究结果表明,不同的提示技术在不同语言中效果各异,这表明在处理新语言时,尝试各种提示设计是有益的。在真实世界场景中,由于数据更依赖文化,提示LLMs的效果不如使用特定任务数据训练编码器模型。然而,在功能性仇恨言论测试中,LLMs往往表现更好,并提供更大的灵活性。在这种情况下,将少样本示例纳入提示可能会进一步增强LLMs的性能。
尽管本研究提供了有关多语言仇恨言论检测的宝贵见解,但仍有一些局限性需要考虑。首先,由于资源和时间限制,研究只能包括有限数量的多语言指令调优LLMs。其次,大多数数据集只包含文本、标签和语言,缺乏更丰富的元数据,如仇恨言论的目标群体、发生的上下文或文本的领域。此外,研究将这些LLMs视为黑盒模型,没有尝试分析它们的内部参数或架构组件,也没有微调更大的模型以更好地适应数据集。最后,虽然研究纳入了各种精心设计的提示变体来探测模型行为,但提示配置集并不详尽。
未来的研究方向可能包括:
- 探索更多语言和更多样化的数据集,特别是资源有限的语言
- 开发更先进的提示技术,特别是针对特定语言和文化的提示
- 研究如何有效地将LLMs与其他技术结合,如微调和迁移学习
- 探索如何将仇恨言论检测系统集成到实际应用中,如社交媒体平台和内容审核系统
总的来说,本研究为多语言仇恨言论检测提供了宝贵的见解,特别是关于指令调优LLMs在不同语言和提示策略下的性能。这些发现对于开发更有效、更公平的多语言仇恨言论检测系统具有重要意义,可以帮助创建更安全、更包容的在线环境。
论文:https://arxiv.org/abs/2505.06149
本文转载自顿数AI,作者:小顿
