ICML'25南洋理工+阿里:反事实RL实现VLM智能体高效在线调优,成功率涨12%

发布于 2025-9-25 06:54
浏览
0收藏

你有没有过这样的经历?让手机助手帮你在购物APP里搜个耳机,它却反复点错广告弹窗;想让智能音箱联动灯光,它要么没反应,要么把空调也打开了。明明这些AI能看懂图片、听懂文字,怎么一到“动手做事”就掉链子?

我们解读最新技术,文末有相关信息。

ICML'25南洋理工+阿里:反事实RL实现VLM智能体高效在线调优,成功率涨12%-AI.x社区

最近在研究视觉语言模型(VLM)做智能体(Agent)的论文时,发现了一个让我眼前一亮的解法——来自南洋理工和阿里巴巴团队发表在ICML2025的新方法CoSo。它就像给AI装了个“智能导航仪”,能精准分辨哪些操作关键、哪些是无用功,彻底告别“瞎摸索”。今天我们讲讲这个让AI从“新手”变“老手”的核心逻辑。

一、先搞懂:AI“做事”难,难在哪?

首先得说清楚,我们让AI做的“大事”,比如控制手机、玩卡牌、机器人做家务,本质上是让VLM当“决策者”:它要先看环境(比如手机屏幕截图)、读指令(比如“搜罗技鼠标”),再输出文字指令(比如“点击搜索框,输入‘罗技g903’”),最后这些文字会被转成实际操作(比如手机屏幕上的点击动作)。

但这里有两个大麻烦,也是我们团队之前做类似研究时卡了很久的痛点

1. 动作空间大到“离谱”

传统AI比如玩游戏的RL智能体,动作就那几个:“上、下、左、右、攻击”。但VLM输出的是文字,比如一句话有100个词,每个词从3万个常用词里选,可能的组合就是“3万的100次方”——这数字大到能让全宇宙的原子来当计数器都不够用。AI要在这么多组合里找“有用的操作”,跟在撒哈拉沙漠里找一粒特定的沙子没区别。

2. 很多文字是“废话”,不影响最终操作

更坑的是,VLM输出的文字里,很多内容是“凑数的”。比如“我现在要点击搜索框,这个搜索框在屏幕顶部,颜色是白色的,然后输入‘罗技g903’”——这里“颜色是白色的”就是纯废话,删掉也不影响“点击+输入”的操作。但传统强化学习(RL)会把所有文字当“重点”,花大量精力琢磨“白色”要不要改、改成“黑色”会怎样,纯属浪费时间。

简单说,传统方法就是“眉毛胡子一把抓”,既没效率,又容易走歪。

二、CoSo的核心魔法:先分清“有用”和“没用”

CoSo的全称是Counterfactual Soft Reinforcement Learning(反事实软强化学习),名字听着玄乎,核心思路却特别接地气:先搞清楚哪些文字(token)真正影响操作,再重点优化这些“关键文字”

ICML'25南洋理工+阿里:反事实RL实现VLM智能体高效在线调优,成功率涨12%-AI.x社区

这就像你写工作报告时,会先把“结论”“数据”标红重点改,而不会在“尊敬的领导”这种套话上反复纠结——CoSo就是给AI装了个“标红器”。

ICML'25南洋理工+阿里:反事实RL实现VLM智能体高效在线调优,成功率涨12%-AI.x社区

魔法第一步:用“反事实推理”找关键文字

怎么判断一段文字是不是“关键”?CoSo用了个特别聪明的方法——反事实推理,说白点就是“假如没有它,会怎么样?”

举个生活例子:你做番茄炒蛋,放了番茄、鸡蛋、盐、糖。想知道“盐”是不是关键,就试试不放盐——炒出来没味道,说明盐很重要;要是不放“糖”(有些人不爱放),味道差别不大,说明糖不是必须的。

CoSo对AI输出的文字也这么干:

1. 先看原始文字对应的操作(比如“点击搜索框”);

2. 然后把文字里的某一个词换成“无效词”(比如把“点击”换成“看看”),其他词不变;

3. 对比新文字对应的操作有没有变——如果变了(比如从“点击”变成“没操作”),说明这个词是“关键词”;如果没变,就是“废话词”。

我第一次看到这个设计时特别佩服:不用复杂模型,就用这种“排除法”,精准量化了每个词的“影响力”。比如在手机控制任务里,他们发现只有不到10%的词是关键的,剩下80%以上都是“废话”——这一下就把AI的探索范围从“撒哈拉”缩小到了“一个篮球场”。

魔法第二步:给“关键词”多“镜头”,让AI重点探索

找到关键词后,CoSo又做了一件事:给关键词的“探索权”加权

这就像拍电影,主角(关键词)的镜头要多,配角(废话词)的镜头少。传统强化学习里,所有词的“探索机会”是一样的——AI可能花80%精力改“废话词”,20%改关键词;CoSo反过来,让AI把80%精力放在关键词上,比如琢磨“点击”要不要换成“滑动”,而不是纠结“白色”要不要改成“灰色”。

具体怎么实现?它在强化学习的“熵正则化”(鼓励AI探索新动作)里加了个“因果权重”:关键词的“熵权重”高,AI会多尝试不同可能性;废话词的“熵权重”低,AI基本不折腾。

这么一改,AI的探索就从“瞎逛”变成了“精准探店”——每一次尝试都大概率能带来有用的变化,效率自然就上去了。

ICML'25南洋理工+阿里:反事实RL实现VLM智能体高效在线调优,成功率涨12%-AI.x社区

三、实验说话:CoSo到底有多好用?

光说原理不够,得看实际效果。团队在三个完全不同的任务里测试了CoSo,结果都挺让人惊喜的

1. 手机控制:成功率从64.9%涨到72.9%

在Android-in-the-Wild(真实手机任务集)里,比如“打开亚马逊APP,搜罗技鼠标,选第一个商品”,传统方法DigiRL的平均成功率是64.9%,而CoSo直接提到了72.9%,提升了12.3%。

ICML'25南洋理工+阿里:反事实RL实现VLM智能体高效在线调优,成功率涨12%-AI.x社区

更关键的是“纠错能力”。比如AI不小心点进了“分享页面”,传统方法会反复点“搜索按钮”(哪怕按钮不可点),或者乱改“颜色”“位置”这种废话词;而CoSo能快速找到“返回”“Home”这些关键操作词,很快纠正错误。

2. 卡牌游戏:算术推理能力提升9.3%

在Gym Cards(比如24点、 Blackjack)里,VLM需要做算术和决策。传统方法RL4VLM的平均正确率是45.1%,CoSo提到了49.3%。比如24点任务里,CoSo能更精准地调整“加减乘除”这些关键符号,而不是在“我现在要算24点”这种描述上浪费时间。

ICML'25南洋理工+阿里:反事实RL实现VLM智能体高效在线调优,成功率涨12%-AI.x社区

3. 机器人做家务:成功率提升16.7%

在ALFWorld(机器人做家务环境)里,比如“找个杯子,加热后放在餐桌上”,传统方法的成功率是22.7%,CoSo提到了26.5%。这里最明显的是,CoSo能快速定位“加热”“放”这些关键动作词,而不会在“杯子是玻璃的”这种描述上纠结。

更难得的是,CoSo的“额外成本”特别低——只加了0.01B参数(相当于主模型的0.2%),GPU内存多占0.7GB,训练时间多0.5小时。用这么小的代价换这么大的提升,在工业界落地的潜力很大。

四、未来可期,但还有个小遗憾

CoSo的思路其实能延伸到很多场景:比如让智能车的VLM更精准地判断“刹车”“加速”指令,让家居机器人更高效地完成“扫地”“擦桌子”任务。它的核心价值不是“发明了新算法”,而是“用简单的因果推理,解决了复杂的探索效率问题”——这给我们做AI研究提了个醒:有时候不用追求复杂模型,回归问题本质反而能找到突破。

不过它也有个小局限:目前处理的文字序列还不到300个词,如果遇到更长的“思考过程”(比如AI要写一段1000词的计划再操作),现在的方法可能不够用。未来或许可以加个“分层推理”,先找关键段落,再找关键词,就像我们读长文章先看小标题再看正文一样。

最后:AI的“精准”,才是真的“智能”

其实我们对AI的期待,从来不是“会说复杂的话”,而是“能做精准的事”。就像好的助理不会跟你扯一堆废话,而是直接把事办到位——CoSo做的,就是让VLM从“话多不办事”的助理,变成“话少效率高”的能手。

如果你也被AI“瞎操作”坑过,或者对智能体的未来有想法,欢迎在评论区聊聊:你最希望AI帮你精准完成什么事?是控制家电,还是处理工作流程?

参考资料

标题:Towards Efficient Online Tuning of VLM Agents via Counterfactual Soft Reinforcement Learning

作者:Lang Feng, Weihao Tan, Zhiyi Lyu, Longtao Zheng, Haiyang Xu, Ming Yan, Fei Huang, Bo An

单位:南洋理工大学;阿里巴巴集团

链接:https://openreview.net/pdf?id=H76PMm7hf2

本文转载自旺知识,作者:旺知识

已于2025-9-25 09:28:24修改
收藏
回复
举报
回复
相关推荐