大模型竞技场全面测评结果出炉:Llama3 70B成开源模型中最强王者! 原创

发布于 2024-4-24 14:46
浏览
0收藏

近日,大模型系统组织发布旗下大模型竞技场全面测评结果,Llama3 70B成开源模型中性能最强的模型,而未发布的Llama3 400B着实令人期待!PyTorch创始人Soumith Chintala感叹这几乎是不可能完成的任务!以下是译文:

Llama3-70B 已经稳居第五位。接下来还有 405B...

我还记得 2023 年三月 GPT-4 发布时,看起来几乎不可能达到相同的性能。

从那时起,我看到Ahmad Al-Dahle和Meta AI的其他成员经历了一段混乱的崛起,专注于工作,每周工作 100 多个小时才取得了这些成果,得到了许多团队的支持,他们建立了 GPU 集群、优化了 PyTorch、进行了数据基础设施、注释,并且在这一切中迅速行动,尽管存在大公司的开销。

最棒的部分?我们已经让这种大模型这种魔法成为您可以轻松使用的开源工具! 我觉得这简直不可思议!为我的Meta AI同事们能够实现这一点感到无比自豪。向着第一名前进吧!


大模型竞技场全面测评结果出炉:Llama3 70B成开源模型中最强王者!-AI.x社区

以下是大模型系统组织发布的大模型竞技场测评译文:

大模型竞技场全面测评结果出炉:Llama3 70B成开源模型中最强王者!-AI.x社区

激动人心的更新——Llama-3的完整结果已经发布,现在在Arena排行榜上进入了前五🔥

我们获得了稳定的置信区间,有超过12,000票的支持。现在毫无疑问,Llama-3的70B版本是开源模型的新王者。其强大的8B变体也超越了许多更大规模的模型。这是一个令人难以置信的发布!

衷心祝贺Meta AI的Llama团队,对开放社区做出了如此宝贵的贡献!迫不及待地期待看到400B版本的发布。

大模型竞技场全面测评结果出炉:Llama3 70B成开源模型中最强王者!-AI.x社区


此外,在英语类别中,我们观察到了更强的性能,Llama 3的排名跃升至约第一名,和GPT-4-Turbo旗鼓相当!

它在人类偏好方面对抗顶级模型的表现一直很强(请参阅胜率矩阵)。它已经针对具有大量指令数据的对话场景进行了后训练优化。

关于主题分布和一致性研究的更多分析仍在进行中。我们也期待着Llama-3技术报告中的详细内容。

大模型竞技场全面测评结果出炉:Llama3 70B成开源模型中最强王者!-AI.x社区

大模型竞技场全面测评结果出炉:Llama3 70B成开源模型中最强王者!-AI.x社区

大模型竞技场全面测评结果出炉:Llama3 70B成开源模型中最强王者!-AI.x社区

大模型竞技场全面测评结果出炉:Llama3 70B成开源模型中最强王者!-AI.x社区


谁是大模型系统组织?

大模型竞技场全面测评结果出炉:Llama3 70B成开源模型中最强王者!-AI.x社区

大模型系统组织(LMSYS Org)是由加州大学伯克利分校的学生和教师与加州大学圣地亚哥分校以及卡内基梅隆大学合作成立的开放式研究组织。

大模型系统组织的目标是通过共同开发开放模型、数据集、系统和评估工具,使大型模型对所有人都可访问。我们的工作涵盖了机器学习和系统方面的研究。我们训练大型语言模型并使其广泛可用,同时还开发分布式系统以加速它们的训练和推理过程。

大模型系统组织成员包括学生Lianmin Zheng, Ying Sheng, Wei-Lin Chiang, Shiyi Cao, Tianle Li, Christopher Chou, Dacheng Li, Zhuohan Li, Zi Lin, Zhanghao Wu, Shuo Yang, Siyuan Zhuang, Yonghao Zhuang等,教师Joseph E. Gonzalez, Ion Stoica, Eric P. Xing, Hao Zhang等。


本文转载自公众号AIGC最前线   

原文链接:​​https://mp.weixin.qq.com/s/A3BdprYfLdqml7-mjg6bTg​

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐