
回复
就在大家准备开启假期模式时,DeepSeek 果然又祭出了祖传的假日突袭技能,这次不是网传的R2,而是推理核弹级模型——DeepSeek-Prover-V2-671B。
核心参数:
✅ 671B参数巨无霸,MoE架构火力全开
✅ 每层都是MoE!256专家阵列+共享专家
✅ 单token激活8专家,中间层2048宽
✅ 逆天163k上下文窗口,直接改写长文档认知边界
升级版刚上线HuggingFace,就狂揽100+星,技术宅们怕不是已经组队开始压力测试了。
所以问题来了: