AdaptiVocab：使用轻量级框架自适应降低LLM Token数！

石映飞云

发布于 2025-5-21 07:34

浏览

0收藏

一种叫做AdaptiVocab方法，通过词汇表适配，在垂直领域显著提升LLM效率，且不损失生成质量与知识能力。其轻量级特性为实际部署提供了可行方案，尤其在资源受限场景下具有重要应用价值。

AdaptiVocab：使用轻量级框架自适应降低LLM Token数！-AI.x社区

1. 研究背景与动机

问题提出：大型语言模型（LLM）在通用领域表现出色，但计算成本高，尤其在自回归解码中每一步都需要前向传播。
领域特定需求：在专业领域（如地球科学、物理史），通用词汇冗余，导致效率低下。传统领域适应方法关注性能而非效率。
核心思路：通过调整词汇表（Vocabulary Adaptation），用领域相关的n-gram替换通用token，减少输入和生成的token数量，从而提升效率。

2. 方法：AdaptiVocab框架

AdaptiVocab：使用轻量级框架自适应降低LLM Token数！-AI.x社区

2.1 词汇修改（Vocabulary Modification）

目标：用领域高频n-gram替换低效token。
算法流程：

候选n-gram生成：从领域语料中提取n-gram（n≤5）。

节省分数计算：基于频率和覆盖范围迭代选择能最大减少token的n-gram。

替换策略：逐步替换原词汇表中低频token，避免冗余（如覆盖重叠的n-gram）。

示例：在物理史领域，将“electrodynamics”合并为一个token，减少分段。

2.2 Tokenization修补算法

步骤：

原tokenizer处理：先用原tokenizer分词。

分解被替换token：将被移除的token递归拆分为子token。

最长匹配合并：按最长优先原则将子token合并为新的n-gram token。

优势：兼容任何tokenizer（如BPE），无需重新训练分词器。

2.3 嵌入初始化（Exponential Initialization）

输入嵌入：指数加权（末词权重更高），因自回归生成中后续处理依赖末词。
输出嵌入：指数衰减（首词权重更高），因生成时需优先预测完整n-gram。
公式：

AdaptiVocab：使用轻量级框架自适应降低LLM Token数！-AI.x社区

其中，输入用正号，输出用负号。

2.4 轻量微调（Lightweight Fine-Tuning）

参数选择：仅微调输入/输出嵌入层及首尾Transformer层，减少计算开销。
训练成本：单GPU（RTX A6000）4小时完成，成本低廉。

3. 实验与结果

3.1 数据集与模型

数据集：M2D2中的地球科学（8.3M tokens）、物理史（8.3M tokens）、游戏与玩具（2.9M tokens）。
模型：Mistral-7B-v0.3和Llama-2-7B。

3.2 评估维度

效率：输入/输出token减少量。
生成质量：LLM-as-Judge（Gemini-1.5-Pro）评分（逻辑、连贯性、语言可接受性）。
人工评估：9名标注者对比生成结果。
领域问答：构建开放书多选数据集（900题），评估知识保留。

3.3 主要结果

效率提升：平均减少25%的token使用（输入22.9-27.9%，输出24.9-35.8%）。
生成质量：轻量微调后与原始模型相当（如Mistral在物理史领域评分3.16 vs. 3.15）。
问答性能：AdaptiVocab+FT与Vanilla+FT准确率相近（62% vs. 64%），验证知识保留。

消融实验

在n-gram长度测试中，n=3的词汇片段替换效率最优，长n-gram因出现频率低导致增益受限；嵌入初始化方法中，指数加权策略（逻辑评分2.95）显著优于均值初始化（2.73）和随机初始化，验证了其基于生成任务特性的权重设计合理性；微调策略对比显示，仅调整输入输出嵌入层及首尾Transformer层的轻量微调效果最佳，而LoRA适配器因参数适配位置偏差表现较差（准确率下降约5%）。

AdaptiVocab：使用轻量级框架自适应降低LLM Token数！-AI.x社区

贡献与创新

方法层面提出首个覆盖词汇修改、嵌入初始化与轻量微调的端到端词汇适配框架，解决了传统领域适应方法忽视效率的问题；实践层面通过单GPU低成本适配（4小时训练）降低部署门槛，适用于低资源场景；数据层面公开构建的地球科学、物理史、游戏与玩具领域问答数据集（900题）填补了领域评测空白。

局限与未来方向

模型规模受限，仅验证7B参数模型（如Mistral、Llama-2-7B），未探索更大模型（如70B）的适配规律；领域泛化能力待验证，当前实验局限于单一领域，跨领域迁移需进一步测试；技术融合潜力未充分挖掘，未来可与模型剪枝（减少参数量）、知识蒸馏（提升推理速度）等压缩技术结合，形成效率优化组合方案。

原文链接：https://arxiv.org/pdf/2503.19693

本文转载自沐白AI笔记，作者：杨沐白

标签

LLM

Token数

参数模型