社区编辑申请
注册/登录
AI自己写代码让智能体进化!OpenAI的大模型有“人类思想”那味了
人工智能
搞事情!AI“看”了一眼GitHub上人类都是怎么提交更新(commit)的,然后就模仿人类程序员修改代码……

搞事情!

AI“看”了一眼GitHub上人类都是怎么提交更新(commit)的,然后就模仿人类程序员修改代码……

最终,这个AI还成功“调教”出了个智能体机器人:

图片

没开玩笑,这种细思极恐的事情,在OpenAI最新发布的一项研究中,就真真的发生了……

图片

原本呢,研究人员要解决的是一个遗传程序设计(GP)问题——让一个智能体机器人学会移动。

(GP是演化计算中的一个特殊领域,它主要针对自动构建程序去独立解决问题。)

但OpenAI剑走偏锋,把自家的大规模语言模型(LLM)放了进来,结果就是一个大大的“万万没想到”。

以前在智能体演进的过程中,人类研究员是需要参与进来做一些细节调整、确定演进方向等工作,让智能体往好的方向发展。

现在好了,这些活儿都让大模型给包揽了,自己学、自己写代码、自己去“调教”:

图片

这事一经论文一作Joel Lehman在网络曝光,瞬间引发了网友们的大量关注:

图片

一位程序员网友在看完后直呼“跟不上(技术)发展的步伐”了:

图片

甚至OpenAI自己都在研究中说:

弥合了进化算法在人类思想水平运行的鸿沟。

那么这件“魔幻”的事情,AI到底是怎么办到的?

看一眼GitHub,AI自己动手敲代码

在虚拟环境中设计可移动的机器人,是遗传算法研究中很火的一个项目。

特别是Sodarace竞赛因为需要的计算量少,过程方便可视化很受欢迎。

图片

规则很简单,由“关节”和“肌肉”组成的机器人在各种地形上赛跑。

OpenAI还特意把整个竞赛程序从专用的遗传编码改写成了Python版本,为了展示新方法对现代编程语言的通用性。

比如这样一段Python代码,就可以作为初始种子机器人。

图片

定义好一个正方形的四个顶点关节、终点关节,相互之间都用“肌肉”连接好后,结果如下。

图片

不过这样方方正正的结构一动都不能动,接下来就需要靠遗传算法对代码做修改。

研究团队认为,用传统遗传算法修改代码VS人类程序员自己动手,在效率上还有两点差距:

一个是软件越来越复杂,人类可以搞模块化的代码复用来应对,而目前最先进的遗传算法也无法在人类使用的编程语言上做到这一点。

另一个是几乎所有遗传算法靠的都是随机突变(mutation),而人类程序员每一次修改代码都带有目的,或者是增加功能、或者是改进效率、又或者是修复bug。

那么有没有办法让AI学习到人类是如何修改代码的呢?

还真有,所需的训练数据都存在GitHub上。

优秀的程序员每次提交代码都会写好commit描述,说清楚这一次提交修改了什么内容。

图片

commit描述配合上提交前后代码对比的diff数据,就是AI绝佳的学习材料。

图片

研究人员筛选出一些描述意图明确、修改的代码量不大的提交数据来训练一个GPT-3架构的AI模型。

相当于让AI向人类程序员学习了如何有目的的修改一段代码。

这篇论文所用的模型也不需要完全版GPT-3的1750亿参数那么大,最高7.5亿参数就足以。

图片

由此得到了基础的AI模型,将在遗传算法中扮演变异算子的角色。

接下来让AI自己设计新机器人的流程总共分三步。

图片

第一步,先用经典的MAP-Elites算法生成一组初始机器人。

图片

这是一种QD(质量多样性)算法,可以保证机器人行为不同且质量都很高。

图片

第二步,用第一步产生的初始数据做预训练,让AI先学会设计出训练数据分布内的机器人。

也就是开头处那张在网上惊艳了众人的动图,展示了AI如何一步步把无法移动的“方块”改造成双腿交替弹跳移动机器人。

图片

第三步,再结合上强化学习算法做微调,让AI能根据不同地形条件生成能适应环境的机器人。

图片

图片

最终,研究人员选取了从最初的三个种子进化而来的机器人做效果展示。

可以看出它们的结构和移动方式都完全不同。

图片

网友惊呼“思路清奇”

这项研究一经公布,可谓是一石激起千层浪。

许多网友都惊叹于这种“大模型+演进算法”结合的新奇方式:

图片

做过与之相关工作的研究人员也表示,从未想过能用大模型以diffs的形式来学习突变:

图片

而除了对研究形式和本身的讨论之外,也有网友配上了这样图:

图片

Emmm……是有点那种味了。

团队介绍

这项研究的团队成员均来自OpenAI。

论文一作是Joel Lehman,是一位机器学习科学家。其聚焦的领域包括人工智能安全、强化学习和开放式搜索算法。

图片

与此同时,Joel Lehman此前基于对人工智能发展的思考合写过一本科学读物《为什么伟大不能被计划出来:客观的秘密》:

图片

而对于这项研究的下一步,Joel Lehman本人表示:

还有一个重要问题,就是模型能够多大程度上应用到其它环境中。

GP中的突变功效现在可以通过ELM大幅提高,这将激发出一系列广泛的新应用和研究方向。

那么这项研究是否也对你产生了新的启发呢?

参考链接:

[1]https://arxiv.org/abs/2206.08896

[2]https://twitter.com/joelbot3000/status/1538770905119150080?s=21&t=l8AASYjgC6RAEEimcQaFog

责任编辑:未丽燕 来源: 量子位
相关推荐

2022-06-07 10:09:42

新技术人工智能5G

2022-06-28 14:01:42

MITOpenAI预训练模型

2022-06-24 10:52:47

人工智能作业帮T前线

2022-06-07 11:01:56

人工智能AI技术大会

2022-06-10 07:45:09

CentOS国产操作系统

2022-05-05 08:25:22

模型OpenAI代码

2022-06-20 06:27:58

Meta人工智能AI模型

2022-05-31 10:30:16

元宇宙数字人高清渲染

2022-06-15 18:57:43

人工智能

2022-05-25 07:11:13

2022-06-30 11:03:27

DDoS攻击WAF

2022-06-06 14:29:20

图像模型任务

2022-06-08 14:17:57

网络安全人工智能加密流量

2022-06-24 11:14:00

美团开源

2022-06-07 14:31:09

K8S网络模型容器网络

2022-06-21 14:22:08

云计算混合云人工智能

2022-06-27 15:25:08

架构模型治理

2022-06-15 16:16:21

分布式数据库鸿蒙

2022-06-13 15:35:53

计算

2022-06-09 10:12:01

网络安全人工智能威胁监测

同话题下的热门内容

LeCun预言AGI:大模型和强化学习都是斜道!我的「世界模型」才是新路李飞飞划重点的「具身智能」,走到哪一步了?聊聊七个常见的智能汽车技术新出生的机器狗,打滚1小时后自己掌握走路,吴恩达大弟子成果华为发布两大昇腾计划 推动AI人才发展和科研创新自动驾驶的未来——4D毫米波雷达利用机器学习发起攻击的九种方式监督学习有哪些常见算法?都是如何应用的

编辑推荐

转转公司架构算法部孙玄:AI下的微服务架构Facebook开源相似性搜索类库Faiss,超越已知最快算法8.5倍运维:对不起,这锅,我们不背快消品图像识别丨无人店背后的商品识别技术最全面的百度NLP自然语言处理技术解析
我收藏的内容
点赞
收藏

51CTO技术栈公众号