[ACL 2025] 清华&港中文提出 MorphMark:全新理论视角破解大模型水印效力与文本质量的两难困境

发布于 2025-5-23 06:39
浏览
0收藏


[ACL 2025] 清华&港中文提出 MorphMark:全新理论视角破解大模型水印效力与文本质量的两难困境-AI.x社区图片

论文:MorphMark: Flexible Adaptive Watermarking for Large Language Models

链接:https://arxiv.org/abs/2505.11541


[ACL 2025] 清华&港中文提出 MorphMark:全新理论视角破解大模型水印效力与文本质量的两难困境-AI.x社区图片

一、研究背景

随着大型语言模型(LLMs)在自然语言生成领域的广泛应用,AI 生成内容的可追溯性和版权保护已成为亟待解决的核心问题。基于红绿表(Red-Green List)机制的水印技术应运而生,通过嵌入可检测的独特模式来区分 AI 生成内容与人类创作内容。然而,现有方法普遍面临一个根本性矛盾:

提升水印有效性往往导致文本质量下降,而降低水印强度又削弱其鲁棒性。 

这种权衡限制了水印技术在实际应用中的效果。主流方法(如 KGW,Kirchenbauer et al., 2023)通常采用固定强度的水印策略,难以动态适应不同上下文中的文本质量需求,整体性能受限。

二、动机 / 切入点

本文作者从理论层面重新建模这一多目标优化问题,揭示了一个关键发现:

绿色列表 token 的累积概率(PG)是影响水印效果与文本质量平衡的关键因素。 

当 PG 较高时,增加水印强度可以带来更高的综合收益;而当 PG 较低时,继续增强水印则会损害文本质量。基于这一理论洞见,作者提出了 MorphMark,一种全新的自适应水印框架。该方法无需训练辅助模型,而是通过解析公式动态调整水印强度,在保证文本质量的前提下显著提升水印的检测能力和抗攻击能力。

基于此,作者提出了 MorphMark ——一种全新的自适应水印框架。该方法无需训练任何辅助模型,仅通过解析公式动态调整水印强度,在保证文本质量的同时显著提升了水印的检测能力和抗攻击能力。


[ACL 2025] 清华&港中文提出 MorphMark:全新理论视角破解大模型水印效力与文本质量的两难困境-AI.x社区图片

三、方法

MorphMark 的核心思想是根据 绿色列表 token 的累积概率 PG 动态调整水印强度 r:

1当 PG 较高 时,增强水印强度;

1当 PG 较低 时,减弱水印强度。

这一方法确保在高概率 token 区域有效嵌入水印,同时避免在低概率区域引入过度扰动,从而实现更优的水印-质量平衡。


[ACL 2025] 清华&港中文提出 MorphMark:全新理论视角破解大模型水印效力与文本质量的两难困境-AI.x社区图片

他的水印强度调整公式如下:


[ACL 2025] 清华&港中文提出 MorphMark:全新理论视角破解大模型水印效力与文本质量的两难困境-AI.x社区图片

MorphMark 支持三种变体:

1MorphMark_linear :线性增长函数;

1MorphMark_exp :指数增长函数;

1MorphMark_log :对数增长函数。

四、结果

4.1 主要结果

在多个大型语言模型(OPT-1.3B、OPT-2.7B、OPT-6.7B,Zhang et al., 2022)上,研究团队系统评估了 MorphMark 的性能。这些模型涵盖不同参数规模,有助于测试方法的泛化能力。实验基于 C4 数据集(Raffel et al., 2020)的 400 条样本,使用前 30 个 token 作为提示,生成至少 200、最多 230 个 token 的输出。

结果表明,MorphMark 在文本质量保持微优于其他方法的情况下,展现了显著的水印效力优势。


[ACL 2025] 清华&港中文提出 MorphMark:全新理论视角破解大模型水印效力与文本质量的两难困境-AI.x社区图片

4.2 鲁棒性结果

为了全面评估 MorphMark 的鲁棒性,本文实施了多种攻击手段模拟恶意篡改行为,具体包括:Word-S/ 攻击(随机替换词语为 WordNet 中的同义词,替换比例分别为 10%、30%、50%);Word-SC/ 攻击(基于上下文替换同义词);Word-D 攻击(随机删除 30% 的词语);Doc-P(GPT-3.5)攻击(使用 GPT-3.5-Turbo 对文本进行重写);以及 Doc-P(Dipper)攻击(使用专门的 paraphrasing 模型 Dipper(Krishna et al., 2024)进行文本重写)。

结果表明,MorphMark 在面对这些攻击时表现出远超其他方法的鲁棒性。


[ACL 2025] 清华&港中文提出 MorphMark:全新理论视角破解大模型水印效力与文本质量的两难困境-AI.x社区图片

4.3 下游任务结果

在机器翻译和摘要生成任务上,MorphMark 同样表现稳定。研究采用 BLEU(Papineni et al., 2002)、ROUGE(Lin, 2004)和 BERTScore(Zhang et al., 2019)等指标评估文本流畅性、准确性和语义一致性。结果显示,MorphMark 对下游任务的影响与其他方法相近(这是因为本文在实验中通过控制文本质量相近,以便更准确地评估水印效力),进一步验证了其在水印效力与文本质量之间的平衡能力。


[ACL 2025] 清华&港中文提出 MorphMark:全新理论视角破解大模型水印效力与文本质量的两难困境-AI.x社区图片

本文转载自​​​AI-PaperDaily​​​,作者:AI-PaperDaily

收藏
回复
举报
回复
相关推荐