Grok多模态大模型Grok-1.5V来了! 原创
Grok-1.5V是下xAI第一代多模态大模型,除了其强大的文本能力外,Grok现在还可以处理各种各样的视觉信息,包括文档、图表、示意图、截图和照片。Grok-1.5V即将提供给早期测试人员和现有的Grok用户使用。
能力
Grok-1.5V在多个领域与现有多模态大模型具有竞争力,从多学科推理到理解文档、科学图表、截图和照片。Grok在新RealWorldQA基准测试中表现优异,该测试衡量了对现实世界空间理解的能力。对于下面的所有数据集,在零提示的情况下评估Grok,不使用思维链的提示。
示例1:看图表写代码
示例2:计算卡路里
示例3:从一幅图画到一个睡前故事
示例4:解释一个网络迷因
示例5:将表格转换为 CSV 格式
示例6:帮助处理露台上腐烂的木材
示例7:解决编程问题
实现真实世界理解
为了开发出有用的真实世界人工智能助手,提升模型对物理世界的理解至关重要。为了实现这一目标,研究人员引入了一个新的基准测试,RealWorldQA。该基准旨在评估多模式模型的基本真实世界空间理解能力。尽管当前基准测试中的许多示例对人类来说相对容易,但它们常常对前沿模型构成挑战。
RealWorldQA的初始发布包含超过700张图像,每张图像都附带一个问题和易于验证的答案。该数据集包含了从车辆中获取的匿名图像,以及其他真实世界的图像。后续xAI将随着多模态模型的改进而扩展它。RealWorldQA在CC BY-ND 4.0下发布。
译自(有删改):https://x.ai/blog/grok-1.5v
什么是Grok?
Grok是由xAI开发的生成式人工智能聊天机器人,基于大语言模型(LLM)。它是由埃隆·马斯克发起的一项倡议,作为对OpenAI的ChatGPT的直接回应而开发的,而马斯克是ChatGPT的联合创始人之一。该聊天机器人被宣传为“具有幽默感”,并直接接入Twitter(X)。
时间线
- 2024年3月11日,马斯克在X上发布消息称语言模型将在一周内开源,六天后,即3月17日,Grok开始开源。
- 2024年3月17日,Grok-1以Apache-2.0许可证的形式开源。
- 2024年3月26日,马斯克宣布Grok将对所有高级订阅用户开放,而不仅仅是高端层级的Premium+。
- 3月29日,Grok-1.5发布,具有“改进的推理能力”和128,000个token的上下文长度。
本文转载自公众号AIGC最前线
原文链接:https://mp.weixin.qq.com/s/-EAuLUPqWVjbyaKgizL7vA