8种LLM架构设计大比拼:从 DeepSeek-V3 到 Kimi K2,究竟有啥不同
精华
自从GPT2(2019)开启Decoderonly模型以来,到今天DeepSeekV3和Llama4(20242025),大家会觉得这些模型在结构上仍然相似。当然,位置嵌入已经从绝对到旋转(RoPE)发展,多头注意力在很大程度上让位于GroupedQueryAttention,更高效的SwiGLU已经取代了像GELU这样的激活函数。接下来,将重点介绍一下,模型的变迁。1.DeepSeekV3R1DeepSeekR1在2025年1月发布时产生了巨大影响。DeepSeekR1是一个基于DeepSeekV3架构构建的推理模型,该模型于2...