微软LongRoPE v2:几乎无损的上下文扩展!
论文笔记,LongRoPE2:NearLosslessLLMContextWindowScaling,https:arxiv.orgpdf2502.20082。longropev1的升级工作,应对长度外推的。longropev1简单回顾,核心思想是非均匀插值+渐进式微调:对比NTK、YaRN之类的插值方式,LongROPE的每个频率都有自己的缩放因子。所以先进行基于困惑度的进化搜索,得到每个rope维度的最佳缩放因子。在应用当前阶段的RescaledRoPE后,对模型进行微调,让模型权重适应新的上下文窗口大小和位置编...