万字长文解析:2024年的机器消除学习 原创 精华
随着我们今天的机器学习模型变得越来越庞大,(预)训练集的规模变得难以理解,人们对机器消除学习的概念越来越感兴趣,以便在不重新训练模型的情况下删除不需要的内容,例如私人数据、过时的知识、受版权保护的材料、有害/不安全的内容、危险的功能和错误信息。
机器消除学习可以广义地描述为从经过训练的模型中删除训练数据的影响。在其核心中,目标模型的消除学习旨在产生一个与重新训练模型等效或至少“行为类似”的消除学习模型,该重新训练模型是在与目标模型相同的数据上进行训练,但减去需要消除的信息。
上述描述中隐藏着许多问题。我们如何描述需要消除的信息?我们是否总是拥有重新训练的准确模型?如果没有,我们如何实际评估消除学习?我们是否能够验证和审计消除学习?像人类经常做的假装遗忘一样足够吗?消除学习是否是正确的解决方案?如果是的话,用于解决什么问题?
消除学习的精确定义、技术、保证和度量/评估将取决于:
- 机器学习任务(例如二元分类或语言建模);
- 需要消除的数据(例如一组图像、新闻文章或制作凝固汽油的知识);
- 消除学习算法(例如启发式微调与删除模型组件);
- 消除学习的目标(例如用户隐私或有害内容的移除)。
1. 历史背景与进行消除学习的动机
人们对消除学习问题已经思考了一段时间了。最初的研究探索主要是受到欧盟《通用数据保护条例》(GDPR)第17条的驱动(通常称为“被遗忘权”),该条例始于2014年。被遗忘权基本上是指用户有权要求服务提供商(例如删除您的Gmail帐户)删除其数据。
被遗忘权是出于善意的。当服务提供商以结构化方式存储用户数据时,这也是非常可行的,就像谷歌根据被遗忘权请求从其索引中删除了一些链接一样。
然而,被遗忘权在提出时并没有真正考虑到机器学习。在2014年,政策制定者不会预测到深度学习将成为数据和计算的巨大混合体,而解析和解释这个混合体会变得困难。从此以续的研究表明,从机器学习模型中删除数据的难度,进一步推动了所谓的“数据删除”和“机器消除学习”的研究。
十年后的2024年,用户隐私不再是消除学习的唯一动机。我们已经从对面部图像训练小型卷积网络转变为对付费、受版权保护、有害和其他有害内容进行巨型语言模型训练,这些内容我们可能希望从机器学习模型中“抹去” - 有时仅凭一小部分示例。模型的性质也发生了变化。人们不再使用许多在一个任务上表现良好的小型专用模型,而是开始使用一个单一的巨型模型,该模型几乎了解任何任务。
目前,研究消除学习的动机可以分为两类:
- 撤销访问权限(考虑消除私人和受版权保护的数据)。在理想的世界中,数据应该被视为“借用”(可能未经许可),因此可以“归还”,而消除学习应该使这种撤销成为可能。
从这个角度来看,消除学习具有挑战性。一个主要困难是,我们对深度学习本身的理解有限,使得训练到模型中的数据类似于“消耗品”(在消耗后不能简单地“退还”)。数据也可能是不可替代的(例如聊天记录),甚至可以被视为具有自身财务和控制利益的劳动力。另一个挑战是撤销访问权限可能需要证明消除学习;正如我们将在接下来的章节中探讨的,这并非总是可能的。
这些困难表明,也许值得修改《被遗忘权》等法律,并思考诸如数据市场之类的替代方案,在这些方案中,数据所有者能够得到适当的补偿,因此他们就不会首先要求进行消除学习。举例来说,假设鲍勃吃了爱丽丝的乳酪蛋糕(数据),爱丽丝宁愿鲍勃付款或归还等值物品(补偿),而不是鲍勃恢复到吃之前的状态(消除学习)。
在实践中,实现撤销访问权限的一种方法是通过对基础模型进行某种形式的定期重新训练。许多模型提供商已经在做这个,以保持他们的模型具有竞争力和最新性。例如,OpenAI可以收集一系列消除学习请求,并在每年的重新训练中批量满足这些请求(或者根据《被遗忘权》规定的“不合理延迟”期限来满足请求)。更广泛地说,这提示了消除学习的社会技术解决方案:政策制定者可以规定这种定期重新训练,并设定经济可行的截止日期,将成本转嫁给模型所有者。 - 模型修正和编辑(例如毒性、偏见、过时/危险知识的删除)。也就是说,模型是基于一些不可取的内容进行训练的,我们希望进行修正。这与模型编辑的文献密切相关。最近提出了“修正性机器遗忘”的概念,其中遗忘用于纠正不良数据的影响,以捕捉这种动机。从这个角度来看,遗忘也可以被视为用于AI安全问题的训练后风险缓解机制(在第4节中进一步讨论)。
与撤销访问权限不同,对模型进行修正时我们可以更加宽容,因为这种编辑更多是出于欲望,而不是法律所要求的必要性,就像图像分类的模型准确性或生成文本的毒性一样(当然,这些也可能造成真正的伤害)。在这种情况下,我们不一定需要正式的保证来使遗忘对实际有用;我们有很多例子,人们愿意部署被认为“足够安全”的模型。最近的WMDP基准测试对危险知识对模型进行了提问,是评估遗忘效果的良好示例。
2. 遗忘的形式
如果我们只是重新训练模型而不包含不需要的数据,那么遗忘就是微不足道的。然而,我们希望得到更好的结果,因为(1)重新训练可能很昂贵,而且(2)要找出需要从训练数据中删除的内容可能需要大量工作——想象一下在万亿个标记中找到所有《哈利·波特》的引用。遗忘技术主要旨在减轻或避免这种重新训练成本,同时产生相同或相似的结果。
遗忘的文献主要可以分为以下几种形式:
- 精确遗忘
- 通过差分隐私进行“遗忘”
- 经验遗忘,其中需要遗忘的数据已经明确知道(训练示例)
- 经验遗忘,其中需要遗忘的数据未明确指定(考虑“知识”)
- 只需要求遗忘?
第2至第4种形式有时被称为“近似遗忘”,因为遗忘的模型近似于重新训练模型的行为。第5种形式非常新颖且有趣,更具体适用于遵循指令的模型。
图1. 近似遗忘的示意图。来源:NeurIPS机器遗忘挑战
2.1. 精确遗忘
精确遗忘大致要求未遗忘模型和重新训练后的模型在分布上完全相同;也就是说,在固定的随机性下,它们可以完全相同。
精确遗忘的技术特点可以追溯到Cao和Yang以及SISA的早期工作。在SISA中,采用了一种非常简单的方案,将训练集划分为N个非重叠的子集,并为每个子集训练一个单独的模型。遗忘则涉及重新训练对应的模型,并排除需要遗忘的数据点。这样可以通过1/N的成本来减少与普通重新训练相比的开销(如果保留模型检查点,则成本更低)。然后,推断过程涉及模型集成1。
图2. SISA的示意图:只在数据分片上训练模型
更一般地说,精确遗忘的本质是希望学习算法中的模块化组件对应于不同(潜在不重叠)的训练示例集。
精确遗忘有几个优点:
- 算法本身就是证据。如果我们实现了类似SISA的方法,我们可以从设计上知道遗忘的数据从未对其他组件产生过贡献。事实证明,要正式证明模型已经遗忘了某些内容是相当具有挑战性的,否则会变得非常混乱。
- 这将遗忘问题转化为准确性/效率问题。由于遗忘评估的混乱和缺乏基准的问题,精确遗忘更容易实现。
- 设计上具有可解释性。通过提供学习结构,我们对某些数据点如何对性能产生影响有更好的理解。
主要缺点似乎很明显:大型模型的现代扩展定律反对像SISA中那样过分进行数据和模型分片。或者并非如此吗?在最近的模型合并文献中提出了在大型模型背景下重新审视分片的可能性,这表明了在权重空间合并大型模型的可行性。正如我们将在接下来的章节中了解到的,近似遗忘及其在大型模型背景下的评估的混乱性使精确遗忘非常有吸引力。
2.2. 通过差分隐私进行“遗忘”
这个研究方向大致上是这样说的:如果模型在有或没有特定数据点的情况下表现几乎相同,那么我们就没有必要从该数据点进行遗忘。更广义地说,我们要求未遗忘模型和重新训练后的模型在分布上接近。
对于不熟悉差分隐私(DP)在机器学习中的读者,DP定义了在不同单个训练示例的数据集上训练的两个模型M、M'之间的可量化的不可区分性保证。经典的DP-SGD过程通过裁剪每个示例梯度的L2范数,并向梯度注入一些每个坐标的高斯噪声来工作。其思想是噪声可以掩盖或模糊任何单个梯度(示例)的贡献,使得最终的模型对任何示例都不敏感。通常用(ε,δ)-DP来表示;噪声越强,标量(ε,δ)越小,保护性越强。
这样做的直觉是,如果攻击者无法(可靠地)区分这些模型,那么就好像这个数据点从未被学习过,因此就不需要进行遗忘。DP可以用来实现这种形式的遗忘,但由于遗忘是单向的(我们只关心数据的删除,而不是添加),DP是一个严格更强的定义。这种遗忘的概念有时被称为“(α,β)-遗忘”,其中(α,β)的作用类似于(ε,δ),用于衡量分布上的接近程度。
这个方向上的示例技术包括:(1)存储(DP)凸模型的检查点,遗忘是从这些检查点重新训练的;(2)在前一种技术的基础上,使用SISA进行自适应的遗忘请求(即在观察到发布的模型后提出的请求)。
基于差分隐私的遗忘方法的好处在于它提供了某种形式的统计保证。然而,有一些重要的考虑因素限制了它在大型模型中的适用性:
- 许多这样的遗忘结果仅适用于凸模型或损失函数。
- 什么水平的遗忘((ε,δ)-DP或(α,β)-遗忘的值)是足够的?由谁来决定?
- 对于大型模型,当前的机器学习系统与类似DP的每个示例的工作负载不太匹配。内存开销也会成为限制因素。
- 此外,像DP一样,随着遗忘请求的增加,保证会迅速减弱(根据DP组合定理,最多以O(√k)的速度下降,其中k是遵循DP组合的请求次数)。
- 类似DP的定义默认假设我们对所有数据点都一样关心。然而,某些示例更有可能收到遗忘请求,而某些示例根本没有对学习产生贡献。
- 类似DP的过程有时也可能会严重损害模型的准确性,有时会不公平地损害准确性。
特别是对于大型模型,值得区分取消预训练数据和取消微调数据的情况。后者更容易处理;例如,我们确实可以对大型模型进行差分隐私微调,但对于预训练来说可能不太容易实现。
2.2.1. 伪造及其对类似差分隐私取消的定义的影响
有时,取消学习过程可能需要外部审计,即我们希望证明取消学习程序确实已经发生。
“伪造”的主要思想是存在两个不同的数据集,当对其进行训练时,会产生相同的梯度(因此)相同的模型。这在直觉上是正确的:
- 考虑一下对一条完美直线上的点进行线性回归;删除任何一个点都不会改变拟合的直线;
- 考虑一下小批量梯度下降,用几个“伪造”的梯度的总和替换一个示例梯度会给出相同的批量梯度。
伪造意味着基于差分隐私的近似取消学习可能无法进行审计,即取消学习服务提供者无法正式证明遗忘集确实被遗忘。实际上,即使仅看模型权重,精确取消学习也可能无法进行审计。
虽然人们可以将此结果视为理论结果,但这确实意味着决策者应该仔细考虑未来版本的“被遗忘权”(如果有的话)应该是什么样子,以及类似的政策在法律和技术上是否可执行。
的确,什么样的“审计”可以是定义和应用相关的。如果审计员只关心取消学习模型在指定输入集(例如一组人脸图像)上的性能表现不佳,那么即使是经验性取消学习也是“可审计的”(见下一节)。
2.3. 已知示例空间的经验取消学习(“示例取消学习”)
这一研究方向本质上是“训练取消学习”或“通过微调进行取消学习”:只需采取更多启发式选择的梯度步骤,将原始模型的行为塑造成我们认为重新训练的模型会做的样子(同时还可以选择重置模型中的某些参数)。它也可以被称为“示例取消学习”,因为训练、保留和遗忘集通常是明确定义的。
NeurIPS 2023机器取消学习挑战在这个方向上收集了许多方法。挑战大致如下进行:
- 给定一个人脸图像数据集,其中训练集有指定的保留/遗忘示例拆分,一个在全部数据上训练的目标模型,以及一个仅在保留集上训练的秘密模型。
- 要求设计一个取消学习算法,从目标模型中产生“匹配”秘密模型的取消学习模型。
- “匹配”或评估指标使用512个种子的类似差分隐私输出空间相似性:对于每个遗忘示例,基于对手(由组织者提供)的真/假阳性率,计算512个取消学习模型的“经验ε”,并在示例间进行聚合。
- 所有模型都是一个小型卷积神经网络。
为了直观地了解经验取消学习的表现,而不完全解释度量标准:基准(重新训练的模型)约为0.19,获胜的提交约为0.12,基线(遗忘集上的简单梯度上升)约为0.06.2。
那么获胜的思路是什么样的?大致如下:
- 在遗忘集上进行梯度上升;
- 在保留集上进行梯度下降(希望灾难性遗忘能够处理取消学习);
- 在遗忘集上进行梯度下降,但使用均匀随机标签(以“混淆”模型);
- 在保留集上最小化取消学习模型和原始模型之间输出的KL散度(以调整取消学习模型在不相关数据上的性能);
- 重新初始化在保留集和遗忘集上具有相似梯度的权重,并在保留集上进行微调;
- 通过L1范数剪枝99%的权重,并在保留集上进行微调;
- 重置前/后k层,并在保留集上进行微调;和
- 上述方法的启发式/任意组合。
实际上,尽管这些方法是启发式的,但这是当前大多数经验取消学习算法(尤其是在大型(语言)模型上)所采用的方法。
人们探索经验方法是因为理论工具通常不切实际;例如,强制差分隐私会对准确性和效率造成过大的损失,即使对于计算能力丰富的GPU也是如此。另一方面,经验方法通常快速且易于实现,其效果通常在定性上可见。
经验取消学习的另一个关键动机是反事实的不明确性,特别是在大型语言模型上。在深度学习中,我们通常不知道重新训练的模型在未见数据上的行为会如何。如果不是政治家,LLM应该行为如何对待拜登?取消学习的图像分类器应该对取消学习的图像给出均匀随机的预测吗?它们是否具有泛化能力?还是它们自信地给出错误的预测?这些都是可能的,而且可以由从业者决定。这也意味着同样合理的行为可能导致截然不同的度量(例如,取消学习模型和重新训练模型之间输出分布的KL散度),从而使理论保证变得复杂。
2.4. 未知示例空间的经验取消学习(“概念/知识取消学习”)
如果训练、保留或遗忘集未被明确定义或根本未被定义,会怎样?在训练于互联网规模数据的基础模型中,我们可能会收到取消学习一个“概念”、“事实”或一段“知识”的请求,而这些请求很难与一组示例相对应。术语“模型编辑”、“概念编辑”、“模型手术”和“知识取消学习”与这种取消学习的概念密切相关。
取消学习请求的不明确性意味着我们现在必须处理“取消学习范围”(或“编辑范围”)和“蕴含”的概念。也就是说,取消学习请求可能提供规范性示例来指示要取消学习的内容,但相同的信息可能以许多不同形式存在于(预)训练集中,并具有许多不同的下游影响,因此仅仅在这些示例上实现取消学习,即使是完全实现,也是不够的。
例如:
- 关联“拜登是美国总统”分散在各种形式的文本中,包括新闻文章、书籍、非正式的短信,或者甚至是博客文章。我们能取消学习所有的出现吗?此外,取消学习乔·拜登是否意味着取消学习拜登猫的颜色?
- 艺术家可能会要求通过提供艺术样本来取消学习艺术风格,但他们无法收集到互联网上的所有内容及其衍生作品。
- 《纽约时报》可能会要求取消学习新闻文章,但他们无法列举这些文章的引用和二次转载。
这种模糊性还表明,从大型模型中取消学习预训练数据可能是经验性的必要条件:如果我们无法明确指定在数万亿个标记中取消学习什么(以及不取消学习什么),并在不同实体之间建立清晰的信息边界,那么很难获得形式上的保证。实现经验性取消学习的一个有趣含义是取消学习本身可以被取消学习。
那么,对于取消学习请求不明确的情况,现有的工作是如何处理的呢?大多数技术与之前或多或少相同,只是现在我们还需要找到用于微调的示例。例如,尝试取消学习《哈利·波特》系列就涉及要求GPT-4提供合理的替代文本完成(例如,波特先生学习烘焙而不是魔法);而尝试取消学习有害行为则涉及收集仇恨言论的示例。
另一组技术涉及将所需行为(或其相反)训练到任务/控制向量中,并利用大型模型进行权重空间合并或激活调整的能力。上述方法的基本思路或多或少相同,然而,获取这些编辑向量涉及(启发式地)设计梯度的选择以及在哪些数据上应用它们。也可以将取消学习问题框架化为一个对齐问题,并使用类似DPO的目标应用于遗忘示例。
2.5. 只是请求取消学习吗?
事实证明,像GPT-4这样的强大、遵循指令的语言模型是足够聪明的,可以假装取消学习。这意味着通过构建提示来诱导(足够)安全的行为,以实现目标的取消学习应用。
这是一种有趣的方法,因为没有涉及任何梯度(从系统的角度来看,这是一个巨大的优势),直观上最终的结果可能与现有的经验性取消学习技术一样好。在不同的提示方式中,过去的研究探索了以下两个方向。
直接请求假装取消学习。我们可以在系统提示中要求,比如,假装不知道哈利·波特是谁。从设计上来说,这对于常见的实体、事实、知识或行为(例如像特朗普那样说话的能力)效果最好,因为LLM需要充分了解它才能假装不了解。另一方面,现在假设我们想要取消学习一个不知名人物的地址;预训练集非常庞大,我们怀疑它是训练数据的一部分。我们现在面临的是一种斯特莱桑效应的变体:是否值得要求模型通过准确描述上下文来假装取消学习,并随后冒险在后续的模型回复中泄露它?
少样本提示或“上下文取消学习”。假设我们现在有一组明确定义的遗忘示例及其相应的标签。我们可以翻转它们的标签并将它们放入提示中,连同更多具有正确标签的保留示例,直觉上模型会将这些错误标记的遗忘示例视为真实并相应地行动,就像可以通过这种方式对模型进行越狱一样。的确,当遗忘示例和对应的反事实标签明确定义且(在某种程度上)有限时,这种方法效果最好。通过列举很多示例,它可能适用于事实关联(例如,巴黎是法国的首都),但不太可能适用于取消学习有害行为(其中可能的输出空间更大)。
从某种意义上说,这些方法是互补的,因为它们适用于不同类型的取消学习请求。
更广泛地说,我们可以想象一个通过提示进行取消学习的封装式LLM系统,其中:
- 只公开输入和输出接口(例如ChatGPT);
- 不同的强大LLM实例负责准确模仿所需取消学习行为的不同部分(例如,一个LLM实例专门处理通用的问答形式,而另一个处理序列完成);
- 一个编排器/路由器LLM根据输入决定调用哪个取消学习工作实例;和
- 一个作曲家/总结器LLM起草符合所需取消学习行为的最终输出;它还可以应用一些输出过滤。
一些读者可能会对基于提示的这种技术的启发性质表示不满,认为没有证据证明取消学习。我们应该记住,基于微调的经验性取消学习,正如最近的方法所做的那样,也许并没有根本区别。最终归结为以下几个问题:
- 微调或提示哪个可以更好地引导模型行为?
- 它们中哪个更不容受攻击(暴露的面更少和/或对于对手来说需要更多的努力来恢复取消学习)?
这两个问题都指向基于微调的取消学习,但这在很大程度上还有待讨论,并且随着我们获得更强大的模型和更好的防御机制,这种情况可能会发生变化。例如,最近提出的指令层次结构的概念可能有助于使这样的LLM系统对恶意提示更不容易受到攻击。
值得注意的是,人类实际上也不真正“取消学习”某个知识。事实上,通过声称已经取消学习某件事,我们通常已经:(1)充分学习它,以能够宣称我们已经取消学习它,并且(2)有意决定不再将这个知识应用于我们当前的世界状态,因为认为它不再有用/有益。有谁能说取消学习对于LLM来说应该有任何不同呢?
3. 评估取消学习
取消学习由于许多原因而变得混乱。但关于取消学习的最大问题之一就是评估。总体而言,我们关心以下三个方面:
- 效率:与重新训练相比,算法有多快?
- 模型效用:是否损害了对保留数据或正交任务的性能?
- 遗忘质量:实际上有多少“遗忘数据”被取消学习了?我们能多快地恢复(重新学习)它们?
评估效率和模型效用相对较容易;我们在训练过程中已经对它们进行了衡量。关键挑战在于理解遗忘质量。
如果遗忘示例是指定的,这也感觉很容易。例如,直观地说,取消学习特定的图像类别意味着在该类别的图像上达到接近机会准确率。评估协议可以测量准确性(在保留集和测试集上高,在遗忘集上低)或遗忘文本序列的可能性(越低越好)。
然而,这些直观的指标选择未必是基于原则的或适用于LLM中的知识取消学习等设置。期望模型在未学习的图像上表现不佳忽略了泛化能力,因为遗忘示例很可能是某些保留示例的插值/重复。而且我们并不总是拥有从未见过遗忘示例的神谕模型;例如,我们是否有从未阅读过《纽约时报》文章的LLM?
对LLM上取消学习的评估更多是一门艺术而非科学。例如,为了取消学习“哈利·波特”作为一个实体,人们会可视化标记概率如何衰减与哈利·波特相关的文本,然后其他人会展示模型仍然能够回答哈利·波特的问答题。关键问题在于缺乏数据集和用于取消学习评估的基准测试的严重不足。
然而自2024年以来,基准测试的危机有所改善。有两个值得关注的最近项目:
- TOFU:一个专注于取消学习个体(特别是书籍作者)的基准测试。它涉及要求GPT-4创建虚假的作者简介,对它们进行微调,并使用微调后的模型作为取消学习目标模型,将原始LLM作为神谕的“重新训练”模型。它提供了关于生成的虚假作者的问答对,以评估模型在应用取消学习之前/之后对这些作者的了解。
- WMDP:一个专注于取消学习危险知识的基准测试,特别是生物安全、网络安全和化学安全。它提供了4000多个多项选择问题,以测试模型在应用取消学习之前/之后对危险知识的了解。作为报告的一部分,作者还提出了基于激活指导的经验性取消学习方法。
TOFU和WMDP不同于先前的取消学习评估,它们都是“高级”评估,关注模型的知识保留和理解,而不是像遗忘序列困惑度这样的示例级指标。对于LLM来说,这一点尤为重要,因为它们通常能够以许多不同的方式给出相同的答案,而示例级指标无法捕捉到这一点。
展望未来,像TOFU和WMDP这样的面向应用的取消学习基准测试,相对于类似NeurIPS取消学习挑战的基于实例的评估,对于评估基础模型更有用,这是由于这些模型的多任务性质和每个任务的“取消学习成功”的不同定义。确实,可以想象针对取消学习个人识别信息(PII)、受版权保护的内容、语音毒性甚至模型后门等的单独基准测试。例如,对于取消学习PII,我们可能关心准确记忆的标记,而对于毒性,取消学习指标将是由ToxiGen分类器报告的分数。
4. 取消学习的实践、陷阱和前景
取消学习是一个棘手的问题,尤其是在基础模型的背景下。在我们积极研究如何使取消学习在实践中起作用的同时,对取消学习的真正含义以及它是否是我们当前问题的正确解决方案进行一些思考是有帮助的。
4.1. 取消学习难度的谱系
直观地说,取消学习LLM中罕见的文本出现,比如Palo Alto的车祸,应该比取消学习频繁出现的情况,比如“拜登是美国总统”容易,而后者又比取消学习“太阳每天升起”这样的基本事实更容易。
取消学习难度的谱系出现是因为随着一个知识变得更基础,它与其他知识的关联会更多(例如作为前提或推论),取消学习的范围也会呈指数级增长。事实上,一个知识可以在模型的隐式知识图中嵌入得如此之深,以至于不可能取消学习它而不引入矛盾并损害模型的效用。
这种直觉意味着某些取消学习请求要么更难,要么根本无法满足(任何尝试都注定有缺陷)。确实,人类的经验形成了他们后续行动和世界模型的基础;对于人类能以何种能力取消学习他们形成的过去记忆,这是主观、模糊和哲学性的。
更广泛地说,取消学习难度的问题适用于所有类型的模型,且原因不限于嵌入于知识/蕴涵图中。让我们考虑取消学习难度的另外两个看似矛盾的直觉:
- 后期训练中出现的示例应该容易取消学习,因为模型在权重空间中只会略微移动(例如由于衰减的学习率),可以简单地恢复梯度或返回到先前的检查点(如果有存储)。相比之下,早期出现的示例会被后来的示例“建立”(以课程学习的意义),使它们更难取消学习。
- 后期出现的示例应该更难取消学习,因为早期出现的示例会在训练过程中逐渐(或灾难性地)被遗忘;对于LLM而言,这可能特别真实。
无法解决这些直觉之间的矛盾将表明在记忆/遗忘、示例重要性(在数据选择和核心集方面的意义)、学习难度(在预测翻转的意义上)和取消学习难度之间的相互作用仍不清楚。
以下是一些有趣的研究问题:
- 取消学习“易”数据(例如地方新闻事件)和“难”数据(例如猫有四条腿)之间是否存在定性/基本的差异?
- 如果存在取消学习难度的谱系,是否存在一个阈值来区分什么是“容易”和“困难”,从而确定哪些是不可取消学习的或不应取消学习的?是否存在或可以训练这样一个神谕分类器?人类能否判断?
- 这与影响函数和数据归因有何关系?如果某个特定知识(如其在模型输出中的体现)可以归因于训练数据的较大部分,那么是否会使取消学习变得更难?
- 我们能够评估取消学习某个内容的难度有多大吗?
4.2. 版权保护
表面上看,取消学习似乎是解决版权保护的一个有前途的解决方案:如果模型侵犯了某些内容的版权,我们可以尝试取消学习这些内容。可以想象,要通过取消学习来解决版权侵权问题,可能需要可证明和准确的取消学习(可能是足够的);另一方面,近似取消学习,没有保证且可能被攻击,显然是不够的,也可能是不必要的。
然而,在实践中,由于当前取消学习方法的可行性受到质疑以及AI与版权交叉领域的法律环境不明确,存在着更多的细微之处。由于我不是法律专家(显然,本节的内容不构成法律建议),我们将主要关注提出问题。核心问题似乎是:取消学习是否是版权保护的正确解决方案?
回想一下,公平使用原则允许有限地使用受版权保护的材料,前提是满足四个因素:(1)使用的目的和性质("创造性"),(2)受版权保护作品的性质,(3)使用的数量和重要性,以及(4)对作品价值的影响。如果模型中使用的受版权保护内容符合公平使用原则,那么从模型中取消学习这些内容是不必要的。
假设模型是在某些受版权保护的内容上进行训练的,并且存在侵犯版权的风险,就像New York Times v. OpenAI案件中的情况一样。OpenAI是否应该在ChatGPT上投入(经验性的)取消学习算法?还是应该专注于公平使用原则的"创造性"轴,并投入部署经验性的约束措施,如提示、内容管理和定制对齐,以防止模型重复训练数据?实践中似乎更多是采用后者。
更广泛地说,还可能存在经济解决版权侵权问题的替代方案。例如,模型所有者可以提供准确的取消学习服务(例如定期重新训练),同时提供对版权侵权进行赔偿的保障,就像OpenAI的"版权保护"一样。人们还开始探索如何使用Shapley值为受版权保护的数据定价。总的来说,目前还不清楚取消学习在解决与版权相关的问题中将发挥多大的作用(如果有)。准确的取消学习(扩展到基于检索的系统,见下一节)确实有潜力,因为删除是干净且可证明的,但似乎首先需要建立具有法律约束力的审计程序/机制。
4.3. 基于检索的AI系统
一个明显的取消学习替代方案是根本不进行学习。对于LLM来说,这种方式可能是将可能收到取消学习请求的所有预训练集内容(例如,纽约时报的文章)放入外部数据/向量存储。在推理过程中,所有与这些内容相关的问题将通过RAG(Retrieval-Augmented Generation)进行回答,任何取消学习请求都可以通过从数据库中删除数据来轻松满足。Min等人证明了这种方法在最终困惑度方面可以与(但不完全匹配)训练基线相竞争。
基于检索的解决方案很有前途,因为基础模型在推理上的能力越来越强。然而,在将检索系统作为取消学习的不加思考的解决方案之前,需要考虑以下几点:
- 从预训练语料库中删除受保护内容可能是一个难以解决的去重问题。与去除数据污染一样,我们如何确保受保护内容的改写、引用/引证或其他改编被删除?
- 如果要取消学习的数据无法检索怎么办?今天,我们对模型进行了许多非文档或知识项的微调;例如,尚不清楚人类偏好和期望行为(例如,写作简洁性)是否可以从数据库中"检索"出来。
- 将内容放入上下文中可能会开放新的攻击面。许多基于RAG的LLM方法通过将相关内容放入上下文中,并要求模型对其进行推理。将受保护数据放入上下文意味着它们现在更容易受到数据提取的影响(简单的提示攻击可能仍然有效)。
- 检索和训练之间的效用差距。虽然有证据表明基于检索的解决方案可以与竞争的训练解决方案相媲美,但并没有普遍共识认为仅依靠检索就可以取代微调工作负载;事实上,它们可以是互补的。更广泛地说,如果不可取消学习的数据空间太大,以至于如果所有数据都存储在外部存储中,基础模型将不再那么有用,那该怎么办?
4.4. AI安全性
随着模型变得更加强大并被赋予代理能力,取消学习在AI安全性方面成为一个具体的应用领域,正在引起人们的关注。
粗略地说,安全性问题源于模型的知识(例如,制作凝固汽油的配方)、行为(例如,展示偏见)和能力(例如,黑客攻击网站)。通过检查当前的AI系统并推演未来,我们可以想象以下例子来应用取消学习并提高AI安全性:
- 删除危险知识,例如WMDP基准测试中的情况;
- 删除模型中的污染和后门,其中模型对对手植入的输入触发器做出反应;
- 删除操纵行为,例如进行不道德的说服或欺骗的能力;
- 消除偏见和有害性;甚至消除追求权力的倾向。
对于以安全为导向的应用,值得注意的是,取消学习应被视为训练后的风险缓解和防御机制,与现有的工具(如对齐微调和内容过滤器)一起使用。与其他工具相比,我们应该通过与工具箱中其他工具(例如,取消学习比内容过滤器更具适应性但更昂贵)的权衡来看待取消学习,而不是因为可能缺乏保证和效果而将其抛在一边。
译自(有删改):https://ai.stanford.edu/~kzliu/blog/unlearning
本文转载自公众号AIGC最前线