一手实测:文心开源全新思考模型,让老外惊掉下巴 精华

发布于 2025-9-26 00:21
浏览
0收藏

开源的风,终于吹到了百度,力度还挺大。

上周百度开源了一个轻量级的思考模型:文心思考模型ERNIE-4.5-21B-A3B-Thinking,一款 MoE 架构的开源思考模型。它的总参数规模为 21B,但每个 token 仅激活 3B,实现了轻量高效。

这款模型已在星河社区、HuggingFace 等平台开源,旨在支持开发者进行二次开发和创新。

值得注意的是,9 月 12 日当天,文心思考模型 ERNIE-4.5-21B-A3B-Thinking在 HuggingFace 全球模型总趋势榜和文本模型趋势榜均排名第一。

一手实测:文心开源全新思考模型,让老外惊掉下巴-AI.x社区

海外的Reddit社区,很多人都在热火朝天的讨论着, ERNIE-4.5-21B-A3B-Thinking的表现非常令人印象深刻,是他们使用过的中文模型中最好的一个。

一手实测:文心开源全新思考模型,让老外惊掉下巴-AI.x社区

HuggingFace研究员等X上的AI博主,也都在讨论这款模型。

一手实测:文心开源全新思考模型,让老外惊掉下巴-AI.x社区

究竟强不强,我们一试便知。

ERNIE-4.5-21B-A3B-Thinking:开源思考模型,轻量高效

相较于刚发布的文心 X1.1 深度思考模型,这款模型会适合轻量级场景、对独立开发者更加友好。

该模型专注于提升推理的质量和深度,在逻辑推理、数学、科学、编码和文本生成等任务上性能显著提升。

一手实测:文心开源全新思考模型,让老外惊掉下巴-AI.x社区

此外,它还增强了 128K 的长上下文理解能力。

接下来将以几个实际的例子带大家来看一下这款模型的效果。

首先我用它帮我做了一个VR游戏模拟器,看起来非常逼真。

提示词:设计一个VR游戏模拟器吧

一手实测:文心开源全新思考模型,让老外惊掉下巴-AI.x社区

还能帮我设计出五行属性的卡牌游戏。

提示词:搞一个角色扮演的卡牌类游戏网页,金木水火土五种属性

一手实测:文心开源全新思考模型,让老外惊掉下巴-AI.x社区

还能做MBTI这种,直接推断当天的气运。

提示词:搞一个MBTI (不同人格)x 玄学 x 不同文化 结合的H5网页

一手实测:文心开源全新思考模型,让老外惊掉下巴-AI.x社区

一手实测:文心开源全新思考模型,让老外惊掉下巴-AI.x社区

逻辑推理能力

题目1:请解决以下逻辑谜题:在一个小镇上有三个人,分别是医生、律师和教师。已知:①医生不是A;②B不是律师;③C不是教师。请推断出A、B、C各自的职业,并详细说明你的推理过程。

一手实测:文心开源全新思考模型,让老外惊掉下巴-AI.x社区

数学问题解决能力

题目2:求解以下数学问题:已知一个直角三角形的两条直角边分别为3和4,求斜边的长度,并给出解题步骤。

一手实测:文心开源全新思考模型,让老外惊掉下巴-AI.x社区

  • 题目3

已知函数 ( f(x) = x^3 - 6x^2 + 11x - 6 ),请完成以下任务:

  1. 求函数的导数 ( f'(x) )。
  2. 利用导数求函数的极值点,并判断这些极值点是极大值还是极小值。
  3. 求函数在 ( x = 2 ) 处的切线方程。

请给出详细的解题步骤和结果。

一手实测:文心开源全新思考模型,让老外惊掉下巴-AI.x社区

科学知识理解与应用

题目4

在化学反应 ( 2H_2 + O_2 =2H_2O ) 中,已知氢气(( H_2 ))和氧气(( O_2 ))的摩尔质量分别为2 g/mol和32 g/mol。现在有8 g的氢气和32 g的氧气进行反应,请回答以下问题:

  1. 计算反应物的摩尔数。
  2. 判断反应物中哪一个是限制性试剂,并说明原因。
  3. 计算反应完成后生成的水(H2O)的质量。
  4. 从能量守恒的角度解释为什么这个反应是放热反应。 请给出详细的解题步骤和结果。

一手实测:文心开源全新思考模型,让老外惊掉下巴-AI.x社区

编程辅助能力

题目5

题目:请用Python编写一个程序,实现一个简单的任务调度系统。该系统需要满足以下功能:
任务定义:
定义一个Task类,包含以下属性:
task_id(任务ID,唯一标识一个任务,类型为整数)。
name(任务名称,类型为字符串)。
priority(任务优先级,类型为整数,数字越大优先级越高)。
execution_time(任务执行时间,单位为秒,类型为浮点数)。
为Task类添加一个方法__str__,用于返回任务的基本信息,格式为"Task ID: {task_id}, Name: {name}, Priority: {priority}, Execution Time: {execution_time}s"。
任务调度器:
定义一个TaskScheduler类,包含以下功能:
使用一个列表存储所有任务。
提供一个方法add_task(task),用于向调度器中添加一个任务。
提供一个方法remove_task(task_id),根据任务ID从调度器中移除一个任务。
提供一个方法schedule_tasks(),按照任务的优先级从高到低调度任务。如果优先级相同,则按照任务添加的顺序进行调度。调度时,打印出每个任务的信息,并模拟任务的执行时间(可以使用time.sleep()函数来模拟)。
提供一个方法get_task_info(task_id),根据任务ID获取任务的详细信息,如果任务不存在,则返回"Task not found"。
测试代码:
创建一个TaskScheduler对象。
添加以下任务:
Task(1, "Task A", 2, 3.0)
Task(2, "Task B", 1, 2.0)
Task(3, "Task C", 3, 1.0)
调用schedule_tasks()方法,观察任务是否按照优先级正确调度。
调用get_task_info(2),获取任务2的详细信息并打印。
调用remove_task(1),移除任务1。
再次调用schedule_tasks()方法,观察任务1是否被正确移除。

一手实测:文心开源全新思考模型,让老外惊掉下巴-AI.x社区

一手实测:文心开源全新思考模型,让老外惊掉下巴-AI.x社区

长文本理解和生成能力评测

题目6:阅读以下段落,并根据要求完成任务:

“在当今数字化时代,大数据技术已经渗透到我们生活的方方面面。从电子商务平台通过用户行为数据进行精准营销,到金融机构利用大数据分析评估信用风险,再到智慧城市项目中通过交通流量数据优化城市交通管理,大数据的应用场景无处不在。然而,大数据的收集、存储和处理也面临着诸多挑战。数据安全问题首当其冲,数据泄露可能导致个人隐私泄露和企业商业机密被窃取。此外,数据的质量和准确性也直接影响到数据分析结果的可靠性。如何确保数据的质量、保护数据安全,同时充分发挥大数据的价值,成为企业和政府亟待解决的问题。”

  1. 总结这段文字的主要内容,包括大数据的应用场景、面临的挑战以及需要解决的问题。
  2. 根据这段文字,生成一篇800字左右的评论文章,探讨大数据技术在现代社会中的重要性以及应对挑战的策略。要求文章结构清晰,观点明确,论据充分,语言流畅。请给出总结和生成的文章内容。

最终的结果:

一手实测:文心开源全新思考模型,让老外惊掉下巴-AI.x社区

ERNIE X1.1:全能型选手,能力再攀高峰

还有一个文心 X1.1 深度思考模型也给上线了,在智能体、工具调用、指令遵循、事实性等方面有了很大的提升。

而且,它是在文心4.5模型基础之上训练的深度思考模型,采用了全新的迭代式混合强化学习训练框架,不仅仅提升了通用任务和智能体任务的效果,做到既能干活、又能人机协作,模型整体的效果提高了一个档次。

一手实测:文心开源全新思考模型,让老外惊掉下巴-AI.x社区

在官方评测中,ERNIE X1.1 的整体效果领先于 DeepSeekR1-0528,并与 GPT-5 和 Gemini 2.5 Pro 表现持平。

现在普通用户可以在文心一言官网、文小言APP、百度智能云千帆平台都可以使用到。

一手实测:文心开源全新思考模型,让老外惊掉下巴-AI.x社区

文心一言官网:https://yiyan.baidu.com/X1

接下来会有几个好玩的case。

1、穿越剧剧本创作

穿越剧一直是影视作品中的热门题材,充满了奇幻和趣味性。如果让X1.1创作一个穿越剧剧本,可以检验其在构建奇幻情节和融合不同历史时期元素方面的能力。

请以“一个程序员意外穿越到古代成了皇帝”为情节创作一个短剧本,要求包含程序员的现代思维与古代宫廷生活的冲突和趣事。

一手实测:文心开源全新思考模型,让老外惊掉下巴-AI.x社区

X1.1创作的剧本中,程序员皇帝会用代码来管理国家事务,引发大臣们的困惑;或者用现代的科学知识解决古代的难题,却闹出一系列笑话;也可能因为不适应古代的礼仪而闹出许多乌龙,整个剧本充满了幽默和奇幻色彩,同时又能巧妙地融合现代与古代的元素。

2、为动漫角色写“失忆后的生活”故事

动漫角色失忆后会发生什么有趣的事情呢?这个测试可以展现X1.1在构建二次元世界和角色性格扮演方面的能力。

请以《海贼王》中的路飞为主角,写一段他失忆后误入现代都市生活的故事,要求突出他的性格特点和由此引发的搞笑事件。

一手实测:文心开源全新思考模型,让老外惊掉下巴-AI.x社区

X1.1可能会写出路飞失忆后把城市的高楼当成山峰去攀爬,或者误把餐厅的菜单当成了藏宝图,引发一系列啼笑皆非的事件。

同时,他乐观、直爽的性格在现代都市环境中会制造出很多有趣的冲突和笑料,整个故事既保留了角色的核心特点,又充满了现代生活的趣味性。

3、“如果动物会说话”系列故事

请以“如果猫会说话,它会如何吐槽它的主人”为主题创作一段幽默故事。

一手实测:文心开源全新思考模型,让老外惊掉下巴-AI.x社区

X1.1创作的故事中,猫可能会用优雅而傲娇的语气吐槽主人的种种行为,比如吐槽主人的起床时间太晚耽误了它的早餐,或者吐槽主人的发型像被老鼠啃过一样。整个故事通过猫的视角展现日常生活的点滴,充满了幽默和诙谐,同时也体现了猫的独特性格和视角。

4、“如果历史人物开直播”互动脚本

这个测试可以检验X1.1在构建互动场景和历史人物性格展现方面的能力,同时也充满了趣味性和现代感。


请以诸葛亮为主角,写一段他如果开直播讲解《三国演义》的互动脚本,要求包含他与观众的互动和幽默讲解。

一手实测:文心开源全新思考模型,让老外惊掉下巴-AI.x社区

X1.1创作的脚本中,诸葛亮用他那深沉而有智慧的语气开场:“各位观众,今日我诸葛亮在此开讲三国之事,尔等可要仔细听好。”

然后在讲解过程中,他会用现代的语言和例子来解释复杂的三国战略,比如把赤壁之战比作一场大型的团队对抗赛,还会与观众互动,回答他们关于三国的各种奇奇怪怪的问题,甚至可能会用一些幽默的网络梗来解释历史事件,让整个直播既有趣又富有知识性。

再来一个高难度的case,直接让它帮我制作图表。

请为我设计一个符合企业级标准的三维可视化数据大屏,参照现代科技感的紫色与橙色渐变风格,创建一个尖端科技风格的企业级数据可视化大屏HTML/CSS/JS完整应用,基于我提供的数据[这里可以描述您的具体数据],遵循以下规范: 
## 设计风格 
- 使用深色背景(深蓝/黑色)作为基底,创造沉浸式数据体验 
- 采用紫色、粉色、蓝色渐变作为主色调,配以橙色/珊瑚色作为强调色 
- 所有图表和界面元素应有发光边缘效果,增强科技感和立体感 
- 设计布局应采用三维空间感,让数据图表悬浮于不同层级 

## 核心功能需求 
1. 多维度数据可视化
- 包含折线图、柱状图、面积图、散点图、热力图等多种图表类型
- 所有图表需支持3D效果和悬浮式设计
- 图表间需有联动效果,一个图表的数据变化会影响其他相关图表 
2. 实时数据交互 
- 所有图表支持鼠标悬停显示详细数据信息
- 图表支持缩放、旋转等交互操作 
3. 动态效果 
- 数据加载和更新时的流动动画效果
- 数据变化时的平滑过渡动效
- 背景元素(如粒子、光线)的微妙流动效果
- 3D空间中的数据元素漂浮动效 
4. 移动端适配 - 设计移动端控制面板,如参考图下方所示的手机界面 - 移动端界面应保持与大屏相同的设计语言 - 支持通过移动设备远程控制大屏展示内容 

## 技术实现 
- 纯前端实现:HTML5 + CSS3 + 现代JavaScript 
- 基于Three.js或Echarts-GL实现3D可视化效果 
- 使用WebGL处理大量数据渲染 
- 支持多种数据源接入(API、CSV、数据库等) 

## 适配性要求 
- 设计应具有灵活的数据模型,能适应不同行业的数据结构
- 提供模板配置系统,允许用户自定义布局和图表组合 
- 支持多种分辨率(16:9、21:9、4:3等)屏幕比例 

## 交付成果:完整的可视化大屏前端代码

一手实测:文心开源全新思考模型,让老外惊掉下巴-AI.x社区

写在最后

ERNIE X1.1 和 ERNIE-4.5-21B-A3B-Thinking 的发布,不仅展示了文心大模型在技术上的领先地位,更体现了百度对开发者生态的重视。

  • ERNIE-4.5-21B-A3B-Thinking则以其高效的 MoE 架构和开源属性,为广大开发者提供了触手可及的顶尖推理模型。
  • ERNIE X1.1凭借其全面的能力和强大的“思考”深度,为企业级应用提供了坚实的基础。

通过“技术领先 + 开源友好 + 开发者友好”的战略,百度文心大模型正在构建一个充满活力的技术生态,让每一位开发者都能利用前沿的 AI 技术,创造出无限可能。

本文本文转载自​​​AIGC新知​​​,作者:绛烨

收藏
回复
举报
回复
相关推荐