ChatGPT最强对手,实测却输给了文心一言!

原创 精选
人工智能
据悉,Claude系列刚被推出时就被给予厚望,由于创始团队都在Open AI任职过,技术过硬,呈现出的效果相当完美,意图理解也非常优秀。而且还推出了Claude Chat网页版,完全免费!

整理 | 王瑞平

审校 | 言征

侵犯版权、隐私、遭遇轮番起诉,ChatGPT访问量直线下降,市场竞争力暴跌!

就在此时,Open AI的最强竞争对手Anthropic趁虚而入,推出Claude 2,杀它个措手不及。一批网友抢先体验过后,铺天盖地一片好评。

据悉,Claude系列刚被推出时就被给予厚望,由于创始团队都在Open AI任职过,技术过硬,呈现出的效果相当完美,意图理解也非常优秀。而且还推出了Claude Chat网页版,完全免费!

在性能方面,Claude 2正式支持10万tokens的输入,并且可以一次性输出4000个tokens。

此外,由于使用了2023年的数据训练模型,Claude 2“了解时事”,输出内容更具时效性。这些性能的改进都大大提升了Claude 2在用户心目中的分量。

(来源:Anthropic)(来源:Anthropic)

Anthropic官网上描述说:“我们很高兴发布Claude 2新模型,不仅改进了性能,还延长了响应时间,可通过API及面向公众的测试版网站Claude.ai进行访问。”

1、性能提升:文理通吃、为安全保驾护航

相较ChatGPT,Claude 2有如下优势:

首先是token:GPT-4的下限默认为8k个token,上限32k个token,而Claude 2是100k个token,与GPT-4根本不是一个量级!

然后是费用,GPT-4每月支付20美元,而Claude 2是完全免费的!

由于Claude 2具有更长的token,长文本处理能力更强,在文科方面发挥出了优势。

图片图片

在美国律师资格考试的多选题部分可以取得76.5%的正确率,前代Claude 1.3仅为70%。在GRE阅读和写作测试中,得分超过90%应届毕业生。而在美国医师执照考试中,Claude 2在3个科目中的分数都超过了60%,获得ALL PASS佳绩。

不仅如此,Claude 2还文理通吃,在编程、数学和推理方面准确率大大提升。

在迭代的过程中,Claude 2的安全性变得更强、受模型的约束,很难产生具有攻击性或危险的输出。研发团队内部特设评估团队,针对大量有害提示对模型评分和自动化测试。团队也会定期亲自上手检查结果,确保万无一失!

结果表明,在整个评估环节中,Claude 2在给出无害反馈方面比Claude 1.3强2倍。

鉴于安全、功能及性能有所提升,Anthropic宣布Claude 2在美国及英国开放全面公测,他们也计划未来几个月内再扩大测试对象。

2、生态强:多领域、跨学科合作

Anthropic的理念是多领域、跨学科合作,与数千家使用Claude API的企业建立了合作关系。

其中之一是AIGC独角兽公司Jasper。Claude 2能够在各种用例中与其它最先进模型齐头并进,在长时间、低延迟使用方面具有特别的优势,为客户生成独具创意的广告文案内容。

Jasper工程副总裁Greg Larson表示:“我们很高兴能够成为首批向客户提供Claude 2的公司之一。它增强了语义、带来最新知识培训、能够对复杂提示进行推理改进。”

Sourcegraph是AI代码平台,可帮助客户编写、修复和维护代码。编码助手Cody使用Claude 2改进的推理能力为客户提供更准确答案,同时,还通过token高达100K的上下文窗口传递更多代码库。此外,Claude 2的训练数据更新,可获取新框架和库的知识。

Juni Learning是在线教育解决方案的领先提供商,使用Anthropic为其Discord Juni Tutor Bot提供支持,帮助学生完成学业。

图片图片

首席执行官Vivian Shen表示:“对我们来说,Claude 提供的对话体验就像真正的导师或老师水平,而不是表面答案。”

法律领域最困难的问题之一是阅读和理解复杂的法律文本。因此,法律基础设施企业Robin AI也正在利用Claude 2拟定合同。

3、Open AI内忧外患,挑战者的好时机

近日,据外媒报道称,OpenAI的核心员工正在流失到谷歌。其中一些员工已经辞职并与谷歌签订了合同,另外一部分人也将在近期离开OpenAI。

虽然此次核心员工离职潮看起来是OpenAI爆炸式增长引发的一系列管理问题,但深究其本质原因,或许是员工对CEO管理的不满以及对ChatGPT技术举步不前的失望造成的。

凭借着微软100亿美元的资金,OpenAI似乎满足于追逐他们最大的摇钱树 ChatGPT,但对于ChatGPT进一步开发计划却迟迟没有下文。如此看来,3月份亮相的Claude正朝初心方向发展,而ChatGPT却中途停滞。

不仅是内忧、外患也一并袭来。马斯克虎视眈眈,又有大动作!其旗下又一家公司问世!当地时间7月12日,马斯克在推特上宣布:人工智能公司——xAI正式成立。

图片图片

xAI的官网已上线。据介绍,该公司由马斯克本人亲自带队,而其他成员则来自DeepMind、OpenAI、谷歌研究院、微软研究院、特斯拉、多伦多大学等,曾参与过DeepMind的AlphaCode和OpenAI的GPT-3.5和GPT-4聊天机器人等项目。

从成员组成看,如此高端,马斯克或将xAI定位为与OpenAI、Google和Anthropic等公司同台竞技,他们多是知名聊天机器人的推手。

xAI公司号称宗旨是“了解宇宙的真实本质”。7月14日,该公司团队将在推特空间举行发布会,进一步解答网友的问题。

4、版本评测

官网消息显示,今年3月,Claude被正式推出,当时发布了两个版本,即,Claude1.3和Claude Instant1.1,各司其职、特性各异。

在基本的评测中,研究者也比较了三个版本。数据证明,新版本功能提升极大,主要表现在如下方面:

图片图片

如上表所示,在Python函数合成(Codex P)、GSM8k(小学数学问题)、MMLU(多学科问答)、QuALITY(长故事问答测试)、ARC-Challenge(科学问题)、TriviaQA(阅读理解)和RACE-H(高中阅读理解和推理)上,Claude 2的大部分得分都更高了。

图片

官网上也透露说:“Claude具有高性能,而Claude Instant更便宜、更快。”

5、鸡兔同笼,输给了文心一言

为实测Claude 2的能力,我们尝试用“鸡兔同笼”问题测试文心一言和Claude 2,并进行了对比。

图片图片

如图所示,Claude 2的中英文都输出了错误的答案...

图片图片

而用文心一言进行测试,竟然算对了,看来还是文心一言靠谱!

图片图片

图片图片

有趣的是,ChatGPT中文版算对而英文版算错了!实测有点打脸!看来,Claude 2数学能力提升任重而道远。

6、用户:Claude比ChatGPT更健谈

再来看看用户反馈如何,Claude生成的对话文字似乎比ChatGPT更灵活!

“Claude比ChatGPT更健谈,在讲故事时更具互动性和创造性。”一位用户留言说。

“我个人喜欢Claude的答案呈现方式,深入而简单,”一位用户评价说,他对Claude的语言技能和专业知识问答印象深刻。

图片图片

主要合作伙伴之一Quora通过AI聊天工具Poe也向用户展示了Claude。“用户普遍认为Claude的回答详细且易于理解,交流时感觉像普通交流对话,”Quora的人员和通信主管Autumn Besselman说。

用户应明确,Claude与所有当前模型一样,会输出不合理内容。但是,这并不妨碍你与Claude 交谈。用开放、包容的心去使用吧,体验地址在这里:https://claude.ai/chats,祝你玩得愉快!

参考资料:

1.https://www.anthropic.com/index/claude-2

2.https://www.ithome.com/0/705/362.htm

责任编辑:武晓燕 来源: 51CTO技术栈
相关推荐

2023-06-07 20:40:51

AI高考作文

2023-03-29 15:28:35

百度文心一言

2023-02-08 07:14:51

文心一言ChatGPT机器人

2023-05-12 13:13:37

百度文心模型

2023-03-17 07:25:16

李彦宏百度文心一言

2023-12-28 15:09:58

文心一言百度飞桨

2023-03-24 12:55:13

文心一言百度模型

2023-03-17 07:56:41

AI模型

2023-03-17 07:12:24

2023-02-22 20:20:23

AI文心一言百度

2023-04-05 19:33:14

文心一言ChatGPT人工智能

2023-03-22 10:02:41

2023-03-17 21:59:37

2023-03-02 12:32:36

2024-01-11 13:28:59

点赞
收藏

51CTO技术栈公众号