
半年复盘,AI迎来预训练后的新瓶颈
2025年上半年结束了,AI领域持续加速。Claude 4、Gemini 2.5 Pro、OpenAI o3系列…… 编码能力一个比一个猛,多模态应用更是遍地开花。
今天给大家分享一个半年度的复盘。这里不只有欢呼,似乎也存在一些不对劲的味道。当模型越来越写代码,它们的综合能力似乎遇到了第二波瓶颈。
本文很多参考信息来源于公开信息整理,非公开信息部分不保证信息的严谨性。
AI按下加速键的上半年!
简单概括下这半年,“卷”出了新高度 (第一部分的观察来源于Artificial Analysis报告):
观察一: 头部“神仙打架”,新势力紧追不舍
OpenAI虽强,但Google、Anthropic、xAI,还有咱国内的DeepSeek、阿里,国外的Mistral,基本上保持了2月一更的节奏。开源模型跟专有模型的智能差距也在肉眼可见地缩小,甚至DeepSeek-R1-0528有追平的趋势。
观察二: 推理成本“打骨折”
高智能模型的推理成本,从去年9月到现在降了差不多32倍!达到GPT-4初版那种智能水平的成本,降了超过1000倍!
观察三: “先思考再回答”成标配
啥叫“推理模型”?就是模型在回答你之前,会先自己叨叨咕咕输出一堆中间步骤(思维链)。这招确实能让答案更准,但代价嘛,就是可能得多花10倍的Token。
观察四 : 智能体(Agent)和多模态“起飞”
AI自己干活的能力越来越强,什么编码智能体、研究智能体、帮你P图的、剪视频的,都来了。
多模态原生处理能力也大升级,文本、图像、音频一把抓,言出法随、用嘴改图。甚至Google Veo 3支持了原生的带音频的视频输出。
观察五 : 中国在AI竞赛排行前列
US在推理模型上继续处于领先地位,但是DeepSeek-v3-0324成了国人之光,引领了全球的非推理模型的性能。 (本文写于DeepSeek-R1-0528 发布前,0528版本以接近o3性能开源,休假了暂未体验~)
通用能力去哪儿了?
就在大家感慨AI写代码越来越6的时候,一个让人“脑壳疼”的问题浮出水面。
因为暂未成为共识,没有太多人探讨,本文中称之为“第二轮瓶颈”。
简单来说,就是AI在编码这种专业技能上突飞猛进,但在其他通用认知能力,比如复杂推理、创造性表达、细致理解这些方面,是不是有点“拉胯”了?
现象:编码越强,其他越“菜”?
最典型的就是Anthropic的Claude 4系列。 在编码基准SWE-Bench上那是嘎嘎乱杀,号称“世界最好编码模型”。但另一边,OpenAI的o3模型在通用推理基准Humanity's Last Exam (HLE)上又领先了。这种“各领风骚”的局面,本身就很说明问题。
红杉最近发布了一个榜单,排在榜首的还是o3。甚至没有Claude4的影子,反而看到了Claude 3.7 Sonnet。
看到过不止一个吐槽,Claude 4 Sonnet虽然写代码很牛,但在文档理解(比如OCR、手写体识别)、世界知识和创造性写作方面,好像有时候还不如它上一代Claude 3.7 Sonnet。这就有点尴尬了。
瓶颈的本质: 这倒不是说模型整体不进步了,而是能力图谱可能出现了分化或者失衡,AI的画像可能变得更尖锐了,成了个“偏科生”。
所以,一个问题来了:精通一项复杂技能(比如写代码),就代表AI在其他领域也能一样牛吗?这对AGI的实现路径打上了一个大大的问号。
第二轮瓶颈
这“偏科”的锅,难道要甩给 RL 阶段过度使用AI编程数据(比如从cursor等编程软件带来的用户实际训练数据)吗?
灾难性遗忘 是一个在算法领域很古老的一个词,意思是,在一个特定领域对大模型搞微调,很可能把它预训练时学到的一般知识给覆盖掉或者搞丢了,通用逻辑推理能力自然就受影响。
所以是否是因为用了过多的编程数据搞RL训练,模型可能就更喜欢输出那种结构化、逻辑化的东西,创造性、流畅性可能就下降了。
在去年,我们经历了第一轮的AI瓶颈。
主要是因为高质量、多样化的预训练数据稀缺。更大规模参数的模型带来的效果收益递减。
在这基础上,OpenAI的o1系列模型提出了通过测试时间推理,通过引导模型生成复杂逻辑结构(如思维链CoT、思维树ToT)解决问题,无需重训基础模型。
在2024 Q3后的半年,“推理模型”成为主流,各家都在尝试如何通过使用更多Token进行“思考”实现。
如何从已训练模型中提取更多智能,更敏捷提升能力。
当前,我们面临的更多是针对特定高级技能(如编码)进行微调和RL所带来的后果。
这是一个在更成熟发展阶段出现的关于控制和平衡的问题。为推理/智能体技能进行的训练,如何影响基础模型的广度?
本文转载自探索AGI,作者:猕猴桃
