
回复
我觉得LLaMA4最值得看的技术就是iRoPE,他们自己没出说说明,所以我试着解读了一下:
简单来说,iRoPE 技术是对标准 RoPE 位置编码方式的升级,主要解决了在处理超长文本时出现的问题。
交错式应用 (Interleaved Application):
标准 RoPE 在模型的每一层Q和K都用旋转操作来编码PI页就是位置编码。
iRoPE 的做法是“交替进行”——有些层用带 RoPE 的注意力机制,有些层不用(或者用其他方法)。
这样做的目的是为了防止在处理很长的文本时,位置信息因为连续旋转而变得混乱或丢失,从而让模型更好地理解长距离的关联。
动态尺度调整 (Dynamic Scale Adjustment):
标准 RoPE 使用固定的频率参数θ。
当处理的文本长度超过模型训练时设定的最大长度时,这些频率参数可能会超出模型能有效处理的范围,影响效果。
iRoPE 可能(我猜的)会使用动态调整尺度或改进频率计算的方法,确保旋转角度在处理超长文本时仍然在合理的范围内。
通过上面2个改进,iRoPE 能够处理非常长的文本(比如 10M token),而标准 RoPE 根本打不上去,现在市面上最狠的夜就是Gemini的2M了,我觉得llama4就这么一个值得说的,对了还有一个就是因为搞多模态了,所以pretrain的数据一下翻番了,30T,这对卖卡的是个好消息。
本文转载自熵减AI,作者:周博洋