聊聊理解&生成多模态大模型的「技术难点」和「技术突破」思路

发布于 2025-7-22 06:48
浏览
0收藏

你有没有过这种经历?让AI画一只"戴红围巾的黑猫",出来的却是只"穿红衣服的黑猫"。明明AI已经能写论文、编代码,怎么看个图、画个画还这么不靠谱?

最近突然想通了这个问题,未来2-3年,多模态领域会迎来两个堪比GPT-4的"大爆发"时刻——这可能意味着,过不了多久,AI不仅能看懂你的图、听懂你的话,甚至能像人一样"边想边画"、"自主学习"。

为什么多模态理解生成难突破?

先从一个奇怪的现象说起:现在的AI,语言能力和视觉能力像是"两条平行线"。

比如你让大模型写一篇"如何养多肉"的文章,它能把浇水频率、光照需求说得头头是道;但你让他“生成养殖多肉的教程图片”,却发现最后只是生成了一盆多肉的图片,根本没有教程。

这不是因为AI"笨",而是它的"语言脑"和"视觉脑"没打通。团队做过一个实验:训练一个能同时处理文字和图片的模型,结果发现一个尴尬的事——模型的"理解模块"(看懂图片)和"生成模块"(画出图片)几乎互不影响。就像一个人左眼看书、右眼画画,左眼看到的内容,右眼完全用不上。

为什么会这样?打个比方:语言就像精准的坐标,每个词都有明确的含义("红色"就是波长620-750nm的光);但视觉更像一团模糊的印象,你说"夕阳红",有人想到橘色,有人想到粉色。AI想用语言精准控制视觉,就像用筷子夹水里的鱼——总差那么一点。

更麻烦的是数据问题。互联网上的图文数据看似多,实则"水分"很大。比如一篇讲"猫咪减肥"的文章,配的可能是一张猫咪睡觉的图;一个"如何修自行车"的教程,图片和步骤完全对不上。AI学了这些"错位数据",自然容易"说一套、画一套"。

大模型越大,数学越差?问题出在"跳步"

如果说多模态的问题是"协调能力差",那语言模型自身的问题就更有意思了:模型越大,数学越差。

团队做过一个极端实验:训练了一个万亿参数的大模型,发现它写散文、答常识题的能力远超小模型,但做数学题时,正确率居然比70亿参数的小模型还低。

这就像班里的"学霸",背课文、写作文样样第一,偏偏做数学题总跳步——3+5×2,他直接写16(其实正确答案是13)。不是不会,而是懒得写步骤,觉得"反正差不多"。

为什么会这样?核心问题出在大模型的"生存逻辑"上。现在的大模型都靠"Next Token Prediction"(下一个词预测)工作,简单说就是"猜下一个词最可能是什么"。这种逻辑本质是"压缩信息",就像记笔记时总爱简写——能少写一个字,绝不多写。

但数学题偏偏需要"一步都不能少"。比如算1234×5678,你必须一步步拆开来算,跳过任何一步都可能错。大模型为了"压缩信息",天生就爱跳步,遇到需要精确推理的任务,自然容易掉链子。

o1模型为什么突然变聪明了?因为它会"反悔"

今年OpenAI的o1模型横空出世,突然把数学题正确率提了一大截。很多人以为是参数更大了,其实是因为它学会了"反悔"。

就像做数学题时,你写着写着发现"这步算错了",于是划掉重写——o1就有这能力。传统大模型推理时像"单行道",一旦写错一个词,后面全跟着错;o1却能在关键节点"拐回头",换条路重新走。

这叫做"Meta CoT思维链"或是“觉醒时刻”。打个比方:传统模型像只会"直走"的导航,哪怕前面是死胡同,也硬着头往前冲;o1则像会"掉头"的司机,发现走错了就倒回来,换条路再试。

更妙的是,o1不是瞎试。它会在"关键岔路口"多停留一会儿——比如解几何题时,先想"要不要做辅助线",想不清楚就先试一条,不对再换一条。这种"试错-修正"的模式,其实和人类解难题的思路一模一样。

多模态的下一个爆发点:让AI"边想边画"

o1的突破给了多模态一个重要启发:要让AI"看懂图、画对图",光靠"语言指挥视觉"不够,还得让它在视觉空间里"慢慢想"。

你有没有发现,人看复杂图片时,总会"动手动脚"?比如数图片里有几只鸟,会用手指着数;走迷宫时,会在纸上画路线。这些动作不是多余的,而是"视觉思考"的一部分——就像算数学题要打草稿。

但现在的AI看图片,就像被绑住手脚的人在做题——只能"盯着看",不能做标记、画辅助线。团队做过一个尝试:给AI加了"在图片上圈点、连线"的能力,结果它数数、走迷宫的正确率一下子提高了30%。

这还只是开始。真正的"多模态推理时刻",应该是AI能像设计师一样"边想边画":比如你让它设计一个"带书架的书桌",它会先画个草图,自言自语"这里书架太矮了",然后擦掉重画,直到满意为止。

这个时刻可能一年内就会到来。可以挖掘教学视频里的"宝藏"——那些老师用激光笔指重点、在黑板上打草稿的画面,恰恰是AI最需要的"视觉思考教材"。

比"看懂图"更重要的:AI能自己"找东西学"

如果说多模态推理是"让AI会思考",那另一个"关键时刻"就是"让AI爱思考"——自主学习。

现在的AI就像被家长盯着写作业的孩子:你给它一套题,它会做;但你不给题,它就坐着发呆。想让它学新知识?必须人工整理好数据、定好目标,否则它根本不知道"该学什么"。

但人类的学习不是这样的。小孩看到蚂蚁搬家,会蹲在地上看一下午,自己琢磨"它们去哪";你第一次用新手机,会自己点点戳戳,摸索功能。这种"自己找目标、自己总结经验"的能力,才是智能的核心。

自主学习的关键是让AI有"内生动力"。现在的AI学习靠"外部奖励"(比如做对题给高分),就像孩子靠"考100分买玩具"驱动;未来的AI应该像成年人"为了成长而学习",自己判断"这件事有没有价值",自己调整学习方向。

比如一个自主学习的AI,看到你总在晚上查菜谱,可能会自己去学"如何根据季节推荐菜谱";发现自己画动物总比例失调,会主动找解剖学资料补课。这听起来有点像"AI有了好奇心",但本质是它能从环境中"提炼目标",而不是等着人类给指令。

最后说点实在的:这对我们意味着什么?

可能不用等太久,你手机里的AI助手会发生几个明显变化:

它看图片会更"仔细"——你拍张家电故障图,它能圈出"这里的电容烧了";你让它画"公司年会海报",它会先问你"要突出抽奖还是表演",改几版直到你点头。

它会更"主动"——你说"想给孩子做科学小实验",它不仅会列材料,还会自己查最近的天气,提醒你"今天有风,不适合做气球实验"。

当然,AI还会犯错。但就像GPT-4的出现让我们重新定义"智能",这两个"多模态时刻"可能会让我们重新思考:当AI能"看懂世界、自主学习",人和机器的边界会在哪里?

参考资料:​​​专访张祥雨:多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻​

本文转载自​​​旺知识,作者:旺知识

收藏
回复
举报
回复
相关推荐