Grok多模态大模型Grok-1.5V来了! 原创

发布于 2024-4-15 14:55
浏览
0收藏

Grok-1.5V是下xAI第一代多模态大模型,除了其强大的文本能力外,Grok现在还可以处理各种各样的视觉信息,包括文档、图表、示意图、截图和照片。Grok-1.5V即将提供给早期测试人员和现有的Grok用户使用。

能力

Grok-1.5V在多个领域与现有多模态大模型具有竞争力,从多学科推理到理解文档、科学图表、截图和照片。Grok在新RealWorldQA基准测试中表现优异,该测试衡量了对现实世界空间理解的能力。对于下面的所有数据集,在零提示的情况下评估Grok,不使用思维链的提示

Grok多模态大模型Grok-1.5V来了!-AI.x社区

示例1:看图表写代码

Grok多模态大模型Grok-1.5V来了!-AI.x社区


示例2:计算卡路里

Grok多模态大模型Grok-1.5V来了!-AI.x社区


示例3:从一幅图画到一个睡前故事

Grok多模态大模型Grok-1.5V来了!-AI.x社区


示例4:解释一个网络迷因

Grok多模态大模型Grok-1.5V来了!-AI.x社区


示例5:将表格转换为 CSV 格式

Grok多模态大模型Grok-1.5V来了!-AI.x社区


示例6:帮助处理露台上腐烂的木材

Grok多模态大模型Grok-1.5V来了!-AI.x社区


示例7:解决编程问题

Grok多模态大模型Grok-1.5V来了!-AI.x社区


实现真实世界理解

为了开发出有用的真实世界人工智能助手,提升模型对物理世界的理解至关重要。为了实现这一目标,研究人员引入了一个新的基准测试,RealWorldQA。该基准旨在评估多模式模型的基本真实世界空间理解能力。尽管当前基准测试中的许多示例对人类来说相对容易,但它们常常对前沿模型构成挑战。

Grok多模态大模型Grok-1.5V来了!-AI.x社区

RealWorldQA的初始发布包含超过700张图像,每张图像都附带一个问题和易于验证的答案。该数据集包含了从车辆中获取的匿名图像,以及其他真实世界的图像。后续xAI将随着多模态模型的改进而扩展它。RealWorldQA在CC BY-ND 4.0下发布。

译自(有删改):https://x.ai/blog/grok-1.5v


什么是Grok?

Grok是由xAI开发的生成式人工智能聊天机器人,基于大语言模型(LLM)。它是由埃隆·马斯克发起的一项倡议,作为对OpenAI的ChatGPT的直接回应而开发的,而马斯克是ChatGPT的联合创始人之一。该聊天机器人被宣传为“具有幽默感”,并直接接入Twitter(X)。

时间线

  • 2024年3月11日,马斯克在X上发布消息称语言模型将在一周内开源,六天后,即3月17日,Grok开始开源。
  • 2024年3月17日,Grok-1以Apache-2.0许可证的形式开源。
  • 2024年3月26日,马斯克宣布Grok将对所有高级订阅用户开放,而不仅仅是高端层级的Premium+。
  • 3月29日,Grok-1.5发布,具有“改进的推理能力”和128,000个token的上下文长度。


本文转载自公众号AIGC最前线 

原文链接:​​https://mp.weixin.qq.com/s/-EAuLUPqWVjbyaKgizL7vA​


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2024-4-16 10:14:44修改
收藏
回复
举报
回复