半年复盘,AI迎来预训练后的新瓶颈

发布于 2025-6-4 05:56
浏览
0收藏

2025年上半年结束了,AI领域持续加速。Claude 4、Gemini 2.5 Pro、OpenAI o3系列…… 编码能力一个比一个猛,多模态应用更是遍地开花。

今天给大家分享一个半年度的复盘。这里不只有欢呼,似乎也存在一些不对劲的味道。当模型越来越写代码,它们的综合能力似乎遇到了第二波瓶颈。

本文很多参考信息来源于公开信息整理,非公开信息部分不保证信息的严谨性。

AI按下加速键的上半年!

简单概括下这半年,“卷”出了新高度 (第一部分的观察来源于Artificial Analysis报告):

观察一: 头部“神仙打架”,新势力紧追不舍

OpenAI虽强,但Google、Anthropic、xAI,还有咱国内的DeepSeek、阿里,国外的Mistral,基本上保持了2月一更的节奏。开源模型跟专有模型的智能差距也在肉眼可见地缩小,甚至DeepSeek-R1-0528有追平的趋势。

半年复盘,AI迎来预训练后的新瓶颈-AI.x社区

观察二: 推理成本“打骨折”

高智能模型的推理成本,从去年9月到现在降了差不多32倍!达到GPT-4初版那种智能水平的成本,降了超过1000倍!

半年复盘,AI迎来预训练后的新瓶颈-AI.x社区

观察三:  “先思考再回答”成标配

啥叫“推理模型”?就是模型在回答你之前,会先自己叨叨咕咕输出一堆中间步骤(思维链)。这招确实能让答案更准,但代价嘛,就是可能得多花10倍的Token。

半年复盘,AI迎来预训练后的新瓶颈-AI.x社区

观察四 :  智能体(Agent)和多模态“起飞”

AI自己干活的能力越来越强,什么编码智能体、研究智能体、帮你P图的、剪视频的,都来了。

半年复盘,AI迎来预训练后的新瓶颈-AI.x社区

多模态原生处理能力也大升级,文本、图像、音频一把抓,言出法随、用嘴改图。甚至Google Veo 3支持了原生的带音频的视频输出。

半年复盘,AI迎来预训练后的新瓶颈-AI.x社区

观察五 :  中国在AI竞赛排行前列

US在推理模型上继续处于领先地位,但是DeepSeek-v3-0324成了国人之光,引领了全球的非推理模型的性能。  (本文写于DeepSeek-R1-0528 发布前,0528版本以接近o3性能开源,休假了暂未体验~)

半年复盘,AI迎来预训练后的新瓶颈-AI.x社区

通用能力去哪儿了?

就在大家感慨AI写代码越来越6的时候,一个让人“脑壳疼”的问题浮出水面。

因为暂未成为共识,没有太多人探讨,本文中称之为“第二轮瓶颈”。

简单来说,就是AI在编码这种专业技能上突飞猛进,但在其他通用认知能力,比如复杂推理、创造性表达、细致理解这些方面,是不是有点“拉胯”了?

现象:编码越强,其他越“菜”?

最典型的就是Anthropic的Claude 4系列。 在编码基准SWE-Bench上那是嘎嘎乱杀,号称“世界最好编码模型”。但另一边,OpenAI的o3模型在通用推理基准Humanity's Last Exam (HLE)上又领先了。这种“各领风骚”的局面,本身就很说明问题。

半年复盘,AI迎来预训练后的新瓶颈-AI.x社区

红杉最近发布了一个榜单,排在榜首的还是o3。甚至没有Claude4的影子,反而看到了Claude 3.7 Sonnet。

半年复盘,AI迎来预训练后的新瓶颈-AI.x社区

看到过不止一个吐槽,Claude 4 Sonnet虽然写代码很牛,但在文档理解(比如OCR、手写体识别)、世界知识和创造性写作方面,好像有时候还不如它上一代Claude 3.7 Sonnet。这就有点尴尬了。

瓶颈的本质: 这倒不是说模型整体不进步了,而是能力图谱可能出现了分化或者失衡,AI的画像可能变得更尖锐了,成了个“偏科生”。

所以,一个问题来了:精通一项复杂技能(比如写代码),就代表AI在其他领域也能一样牛吗?这对AGI的实现路径打上了一个大大的问号。

第二轮瓶颈

这“偏科”的锅,难道要甩给 RL 阶段过度使用AI编程数据(比如从cursor等编程软件带来的用户实际训练数据)吗?

灾难性遗忘 是一个在算法领域很古老的一个词,意思是,在一个特定领域对大模型搞微调,很可能把它预训练时学到的一般知识给覆盖掉或者搞丢了,通用逻辑推理能力自然就受影响。

所以是否是因为用了过多的编程数据搞RL训练,模型可能就更喜欢输出那种结构化、逻辑化的东西,创造性、流畅性可能就下降了。

在去年,我们经历了第一轮的AI瓶颈。

主要是因为高质量、多样化的预训练数据稀缺。更大规模参数的模型带来的效果收益递减。

在这基础上,OpenAI的o1系列模型提出了通过测试时间推理,通过引导模型生成复杂逻辑结构(如思维链CoT、思维树ToT)解决问题,无需重训基础模型。

在2024 Q3后的半年,“推理模型”成为主流,各家都在尝试如何通过使用更多Token进行“思考”实现。

如何从已训练模型中提取更多智能,更敏捷提升能力。

当前,我们面临的更多是针对特定高级技能(如编码)进行微调和RL所带来的后果。

这是一个在更成熟发展阶段出现的关于控制和平衡的问题。为推理/智能体技能进行的训练,如何影响基础模型的广度?

本文转载自​​​​​​探索AGI​​​​​​,作者:猕猴桃

收藏
回复
举报
回复
相关推荐