
鲶鱼效应:DeepSeek打开了AI大模型新序幕,未来大模型技术的方向选择
从2024年12月份DeepSeek发布了DeepSeek V3开始,整个AI圈内就掀起了一波技术创新式浪潮,核心的因素在于一家在2023年刚注册成立的初创企业所发布的第一个正式版本模型就直接对标了OpenAI闭源的GPT-4o以及Claude-3.5-Sonnet,更重要的是其训练阶段的成本只有不到600万美元,是什么概念?
在这之前,普遍的训练成本都在千万甚至于上亿美元的成本支出,突然出现预训练大模型在性能上比肩目前最强的GPT-4o,成本上比GPT-4o要节约十几倍,关键在于它还是完全开源的,而GPT-4o的是收费且技术是闭源的,并且目前还没有哪一个模型能够做到类似于GPT-o1的推理能力,2025年1月20日DeepSeek-R1的发布无疑是打破了这一技术壁垒,让整个AI技术领域重新点燃的了新的希望。
在GPT-4上线的时候,当时大模型领域内众多的大语言模型都在做预训练模型,也就是说需要不断的采集数据,从各方收集数据,然后将数据“喂给”大模型,以达到大模型在多种领域内实现相关的思维能力,在预训练阶段需要依赖源源不断的超大规模数据,以及大模型的开发基本上是以CUDA编程来进行实现的。
在此之前几乎没有人挑战过说绕开CUDA的高级编程方式,而从更加底层的角度来重写CUDA的很多低级API(也就是PTX编程),放在编程领域内可以理解为:在编写应用程序时有很多高级编程语言例如Java、Python、C#、Golang,但是考虑到很多高级语言所带来的性能损耗,例如内存管理、通信机制、CPU调度等等方面的问题,而选择使用原始的C语言或者二进制编程的方式来重新实现一套语言之下的内存、CPU、通信管理机制。
一出道就站在C位,核心要素算法创新、性能表现、开源属性
DeepSeek可以说一出道就直接站在了C位,受到了整个行业甚至于全球关注,春节期间无论是在那个地方,都能看到关于AI DeepSeek的种种报道,国家官方媒体也频频的发文宣传对于DeepSeek的推广,普罗大众从不知道AI,到了解并使用AI,大家再一次的感受到了AI所带来的不仅仅是一个趋势性问题而是一场彻彻底底的社会变革,这种变革所带来的影响力比移动互联网的普及程度都更高更快。
相信在过去两年作为互联网圈内的朋友都接触过很多不同的AI产品,在这两三年中整个全球AI技术的风向标一直是以GPT为首,无论是最开始的GPU-3发布,还是GPT-4o或者sora的发布,都对整个行业带来了极大的影响,但DeepSeek这波可以说是引领级别的,什么概念?但凡DeepSeek的技术创新是在GPT其他产品中,都不足以撼动那么大的波浪,而由于中国本地技术创新所带来的AI前沿科技能力,在如今的形势下,毫无疑问是一场阶段性的胜利,当然,技术是无国度的,但是,身为国人就是自豪。
推理模型的技术瓶颈被拉开了新的序幕
在目前的大模型种类可以分为三类:基座大模型、推理模型、多模态模型,而DeepSeek-V3是DeepSeek最先发布的一个大模型,V3是一个基座大模型,而后续发布的DeepSeek R1则是在DeepSeek V3基础上的推理模型,DeepSeek-R1-Zero 与 DeepSeek-R1 均基于 DeepSeek-V3-Base 训练,DeepSeek-R1-Distill 版本的模型基于开源模型进行微调,使用 DeepSeek-R1 生成的样本。
推理模型是OpenAI发布o1、o3模型开创的新范式,在去年 OpenAI推出o1推理模型预览版的时候,推理模型就成为了行业热门话题,它和以往问答直接给出答案不同,推理模型会将问题进行分解,然后划分为几个步骤来解决,这个过程会花费几秒甚至几十秒来分析回答问题,通过思维链的方式来反思自己的分析,本质上是自我问答和检验,基于思考的思考,认知能力会有一定的提升(这点在最后再聊),这里参考DeepSeek-reasoner会更加直观。
正如上所说,GPT-o1发布了推理模型之后,OpenAI对外并没有公布相关的技术细节和实现原理,对于外界来说推理模型的技术是一个瓶颈口,而DeepSeek可以说是第一个打破了推理模型瓶颈的技术创新点,它跳过了监督微调,直接从强化学习开始训练。
选择开源模型,硬刚ChatGPT 4-o1模型,引起国内外科技圈的关注
很多媒体都讲到说这是中国人自己研发的大模型,从各方面都比美国所主导的AI技术都先进一些,是中美之间科技竞赛的胜利,但是,我更想说它是开源技术所带来的成果,DeepSeek选择开源其各项数据以及相关论文的理论内容,让原本在预训练模型中遇到技术挑战的人找到了不同的解法,让原本做AI应用的企业的商业运营成本直线下降,大家可能没有这种体感,列举个简单例子:
很多app产品内部集成了不同的AI大模型应用,其实这里有很多都是调用其它AI大模型的接口,自己产品外部包装了一层展示界面,然后很多企业都希望有一个足够好且精准的AI大模型来提升产品的质量,于是很多都会选择调用OpenAI的开放API,但由于OpenAI是按照Token和调用次数来收费的,这部分收费要么用户出,要么是企业自己来出,一年少则几百万多则几千万的投入,而DeepSeek不一样啊,技术本身是开源的,并且接口调用的价格也极低,很多企业接入了DeepSeek之后,一年节约了几百上万千,甚至由此盈利了。
这里多插一句,在过去的几十年里,从信息化时代,到互联网时代,再到移动互联网我们基本都是跟随的态度,底层的核心技术都是引入的国外厂商或者是国外开源的技术底座,我们更多的是做应用层产品的研发和技术运营的角色,但近几年从国家战略上就提出自主创新、国产化的主张,从芯片制造、数据库技术、操作系统等等都主张自主研发,这也是为什么很多高科技企业会受到了西方抵制?他们肯定不希望也接受不了我国的核心技术能力超过他们,但事实无数次证明,抵制是没有用的,面对13亿人口,人才辈出的大国,总有不甘平凡,勇于超越的时代弄潮儿。
未来AI技术有哪些可能性?
1. 计算量级和模型性能之间存在幂律关系可能会被打破
在过去大家都认为大模型的训练和所需要的计算量(也就是GPU的算力和内存大小)是有幂律关系的,也就是说通过增加计算量,无论是使用更强悍的GPU还是增加更长的训练时间,都可以提高模型的性能,但是事实证明现在可能不需要那么大的计算量也可以训练出比较高性能的大模型来。
2. 基于思维链的推理模型会越来越多,也就是提示词工程会弱化
使用过DeepSeek之后就会发现,当我们组织一下语言问DeepSeek问题的时候,它不像过去其它的大语言模型直接回答问题,而是基于我们的问题,它自己站在不同的维度来阐述这个问题,再将进一步组织之后的问题去问模型本身,过去,大模型回答问题的精准度很大程度上依赖于提问者的问题,提问的问题越细化、全面、标准,那么回答的就越好,而DeepSeek可以基于我们的问题来发散思考,这样得到的答案的精准度是非常高的。
3. 基于第二点,进一步联网并进行全网搜索之后再深度思考能力,也会在今年应用落地
在OpenAI新推出的Deep Research模型已经具备了联网并深度思考能力,但是目前只针对付费订阅以及Web版本进行开放,其官网的评测结果中,准确率达到了26%的历史新高,同时,国内的一些大模型也在发力联网深度思考能力,目前看到阿里的通义千问也已经具备了联网搜索,但是无论是OpenAI或者通义千问 对于联网深度思考能力上都处于初期阶段。
4. 小模型的性能会越来越好,大模型和小模型会交替学习
很多大模型由于训练参数过多,数据集难以维持较大的训练量,可能会出现小模型在大模型上面不断迭代,会促进小模型的性能越来越强,而反之,大模型也可能会跟着小模型来学习。
5. 特定领域的专有模型将得到飞速发展,场景落地能力将加快
在过去AI快速发展的两年,很多企业也意识到做大语言模型的成本实在太高昂,而且整个训练周期以及效果都存在诸多的风险,倒不如转入做专用模型,例如做金融领域、医疗领域、法律领域、教育领域等为中心的专用模型,通过以高度专业化的方式来实现更好的商业化落地。
6. DeepSeek V3所带来的架构创新或许会成为未来主流:MoE、MLA(多头潜在注意力)、辅助无损负载均衡和多标记预测训练
在GPT的训练大语言模型过程中,会将所有的资源算力全部调度起来,全部都用来跑模型训练,这样模型本身就会变得更“聪明”,但是需要特别巨大的GPU算力资源,而且需要花费很多的时间和费用成本,而DeepSeek V3 的MoE架构则不是,MoE全称是Mixture of Experts,它是一种“混合专家”模型。
对比GPT而言,它不需要所有的GPU资源全部运作起来,而是将任务切分为很多小的算力需求,而这些任务整个组合之后就是一个大语言模型所需的整体能力,对于任务而言,有的专注于语言,有的专注于数学,有的专注于文学等等,在训练过程中每个专家都负责某几个任务的执行,其它专家经过排序组合之后可以进行休息,这样GPU算力资源就能够节省很多,而最终的训练效果也非常不错(后面单独解读训练部分的逻辑)。
上面基于专家和任务的分配机制,内部还有一个专用名词叫MLA(Multi-Head Latent Attention)(多头潜在注意力),类似于它在阅读大量的资料之后,首先会归纳重点内容,再从多个不同视角去理解内容,这样即节约时间效率又高。
本文转载自DataForAI,作者:易程Date
