
回复
这几天AI圈的热点几乎被DeepSeek V3.1包揽了。相比性能本身的提升——比如在编程基准上超越Claude 4 Opus,更让众多网友在意的是技术细节中藏着的彩蛋:它采用了一种叫UE8M0 FP8的浮点格式,而官方明确说,这是为“下一代国产芯片”设计的机制。
FP8并不是新概念,NVIDIA、Meta早就布局,但DeepSeek这次用的UE8M0变体非常特别——8 bit全分给指数,无符号、无尾数,只支持非负数,数值范围极大但精度极低。看起来有点极端,但它可能正是针对国产AI芯片的存储和计算特性所做的深度定制。通过外挂缩放因子补偿精度,这种格式很可能在华为昇腾或寒武纪等芯片上,实现更高效的推理计算。
虽然目前V3.1大概率还不是用国产芯片训练,但这次官方主动点出“国产芯片”适配,显然是一次明示。接下来,如果看到DeepSeek针对昇腾、寒武纪做全链路优化,或许大家一点也不会意外。
软硬件协同一直是AI竞争的核心战场。以前我们谈国产替代,多少有点被迫的意思,但现在看来,DeepSeek似乎正在主动构建一套基于国产硬件的技术栈。FP8或许只是一个开始,但它的意义远不止于压缩和加速——更可能成为国产AI生态从“可用”走向“高效可用”的关键一步。
未来如果真有一款国产芯片,能凭借定制格式+开源模型的组合打出竞争力,那格局就有意思了。