视觉版ChatGPT来了!吸收AI画画全技能,MSRA全华人团队打造,微软16年老将领衔

人工智能 新闻
这项工作一发出来就火了,GitHub揽星已超过1.5k。

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

ChatGPT会画画了!

问它:能生成一张猫片给我吗?

立刻连文带图全有了。

图片

还能根据新的文字指令调整图片:把猫换成狗。

图片

同时也看得懂图、有理解能力。

比如发一张图给它,然后问摩托是什么颜色?它能回答出是黑色。

图片

如上,就是由MSRA资深研究人员们提出的视觉版ChatGPT(Visual ChatGPT)。

通过给ChatGPT结合多种视觉模型,并利用一个提示管理器(Prompt Manager),他们成功让ChatGPT可以处理各种视觉任务。

这项工作一发出来就火了,GitHub揽星已超过1.5k。

简单总结一下,就是把GPT和Dall-E合并的感觉~

图片

又懂文字又会画图……有人就说:

这不是终极meme图制造机?

图片

诀窍在于提示工程?

Visual ChatGPT,其实就是让ChatGPT可以处理多模态信息。

但是从头训练一个多模态模型,工作量非常大。

研究人员想到可以在ChatGPT的基础上,结合一些视觉模型

而想要达到这一目的,关键需要一个中间站。

由此他们提出了提示管理器(Prompt Manager)的概念。

图片

它的作用主要有3方面:

第一、明确告诉ChatGPT,每个视觉模型的作用,并指定好输入输出格式。

第二、转换不同的视觉信息,如将PNG图像、深度图像、掩码矩阵等转换为语言格式,方便ChatGPT理解。

第三、处理视觉模型的历史生成结果,以及不同模型的调用优先级、规避冲突等,让ChatGPT能够以迭代的方式接收视觉模型的生成内容,直到输出用户满意的结果。

图片

这样一来,Visual ChatGPT的工作流大概长这样:

图片

假如用户输入了一张图,模型会先将内容发送给提示管理器,然后转换成语言给ChatGPT判断,当它发现这个问题不需要调用视觉模型,就会直接给出输出(第一个回答)。

第二个问题时,ChatGPT分析问题内容需要使用视觉模型,就会让视觉模型开始执行,然后一直迭代,直到ChatGPT判断不再需要调用视觉模型时,才会输出结果。

论文介绍,Visual ChatGPT中包含了22个不同的视觉模型。包括Stable Diffusion、BLIP、pix2pix等。

为了验证Visual ChatGPT的能力,他们还进行了大量零次试验(zero-shot experiments)。

结果如开头所示,Visual ChatGPT具备很强的图像理解能力。

可以一直按照人的需求不断生成、修改图片。

图片

当然,研究人员也提到了这项工作目前还存在一些局限性

比如生成结果的质量,主要取决于视觉模型的性能。

以及使用大量的提示工程,会一定程度上影响生成结果的速度。而且还可能同时调用多个模型,也会影响实时性。

最后,在输入图片的隐私安全上,还需要做进一步升级保护。

MSRA老将出马

本项研究成果来自微软亚洲研究院的团队。

通讯作者是段楠

他是MSRA首席研究员,自然语言计算组研究经理,中国科学技术大学兼职博导,天津大学兼职教授,CCF杰出会员。

主要从事自然语言处理、代码智能、多模态智能、机器推理等研究。

2006年加入MSRA,任职已超16年。

第一作者Chenfei Wu,同样是一位资深研究人员了。

据领英资料显示,他于2012年加入微软,任职11年,目前是一位软件工程师。

论文地址:https://arxiv.org/abs/2303.04671

责任编辑:张燕妮
相关推荐

2023-06-12 10:04:12

微软技术

2023-05-10 15:30:34

自动驾驶

2023-10-05 12:16:37

2012-11-02 09:29:11

惠普CTO创新

2023-02-25 22:12:25

AI

2023-08-14 13:29:37

2023-03-10 13:11:12

ChatGPTAI微软

2023-02-28 19:49:55

AIChatGPT马斯克

2017-05-15 11:27:35

华为

2024-02-26 12:48:28

ChatGPT人工智能论文

2014-10-27 14:09:01

华为

2013-06-25 10:48:57

微软辞职信

2013-03-05 10:15:28

微软职场

2020-10-18 18:02:32

AI机器学习微软

2021-01-06 13:34:17

AIAI未来

2023-07-29 13:17:53

AI模型

2023-09-24 14:44:15

2024-02-23 08:32:59

Wi-Fi 7Windows 11微软

2023-03-01 13:49:20

模型AI

2023-04-10 15:52:57

模型样本
点赞
收藏

51CTO技术栈公众号