当数学天才遇上现实问题想象一下,你身边有个数学天才,能轻松解决高考数学压轴题,甚至在数学竞赛中屡获佳绩。但当你让他帮忙写个邮件、回答生活常识问题时,他却表现得像个"书呆子"——要么答非所问,要么干脆说不会。这听起来很熟悉吗?在AI大模型的世界里,这种现象正在真实上演。最近,研究人员发现了一个令人意外的现象:那些在数学推理任务上表现出色的AI模型,在处理其他类型问题时却频频"翻车"。更让人惊讶的是,不同...
SmolLM33B模型在性能上超越了Llama3.23B和Qwen2.53B,同时与更大的4B替代方案(Qwen3和Gemma3)保持竞争力。除了性能数据之外,还分享了使用公共数据集和训练框架构建它的方法。图片模型摘要:•3B模型在11Ttoken上训练,在3B规模上达到SOTA,与4B模型具有竞争力•指令模型具有双模式推理,支持thinknothink模式•多语言支持支持6种语言:英语、法语、西班牙语、德语、意大利语和葡萄牙语•长上下文使用NoPE和YaRN支持高达128k...
这是一份长达206页的重磅研究报告,其研究结果令人担忧。该研究发现,对大语言模型的依赖会削弱写作者自身的神经和语言特征。研究者仅通过脑电图、文本挖掘和交叉对照实验就证明,保持一定的无AI练习时间能够保护记忆回路,并促进更丰富的语言表达,即使后续重新引入AI工具也是如此。图片实验设计54名波士顿地区的学生在三种条件下撰写SAT风格的作文:仅使用ChatGPT、仅使用Google搜索,或仅凭大脑思考。每位参与者在相同条件下...
2025-06-27 00:04:32 683浏览 0点赞 0回复 0收藏
为GPT4.1提供"认知工具"可将其在AIME2024上的表现从26.7%提升至43.3%。太惊人了!这个成绩已经非常接近o1preview的水平。论文提出了一种模块化、基于工具的方法来激发大语言模型的推理能力,灵感来源于认知科学。作者没有单纯依赖强化学习或思维链(CoT)提示,而是引入了一个框架,让大语言模型能够调用独立的"认知工具"来模块化和支撑内部推理过程。图片agent工具调用:这些工具封装了理解问题、回忆类似案例、检查答案和回溯...
2025-06-27 00:02:41 506浏览 0点赞 0回复 0收藏
还记得OpenAI发布o1模型时,那种"AI终于会思考了"的震撼吗?现在,英伟达团队带来了更深入的研究成果,揭示了如何让7B参数的小模型在数学和编程推理上达到顶尖水平。他们的AceReasonNemotron1.1模型在AIME25数学竞赛中取得了63.2%的准确率,在编程基准测试中也屡创新高。这背后的秘密不是简单的堆算力,而是监督学习(SFT)和强化学习(RL)的巧妙配合。这项研究不仅给出了具体的训练配方,更重要的是回答了一个关键问题:为什...
2025-06-26 09:21:36 616浏览 0点赞 0回复 0收藏
Mistra发布Magistral——MistralAI首款推理模型——在领域特定、透明和多语言推理方面表现卓越。最优秀的人类思维并非线性——它在逻辑、洞察、不确定性和发现之间穿梭。推理语言模型使我们能够增强并委托复杂思考和深度理解给AI,提升我们处理需要精确、逐步深思和分析问题的能力。但这个领域仍处于起步阶段。缺乏处理领域特定问题所需的专业深度、透明度有限,以及在所需语言中推理不一致——这些只是早期思维模型的一些已知...
2025-06-13 06:49:37 634浏览 0点赞 0回复 0收藏
论文通过强化学习激励有效的下一个token推理,仅使用原始文本和内在强化学习信号就能解锁更丰富的推理能力。图片论文简介论文提出了强化预训练(RPT),这是一种创新范式,通过将下一个词元预测重新解释为可通过正确性验证获得奖励的推理任务,架起了大语言模型预训练与强化学习之间的桥梁。图片RPT没有使用人工精心策划的昂贵标注或人类反馈,而是在大规模无标注文本语料库上应用强化学习,根据预测词元是否匹配真实答案来分配...
2025-06-13 06:45:43 1043浏览 0点赞 0回复 0收藏
你有没有遇到过这样的情况:跟AI聊天的时候,它前一秒还好好的,下一秒就开始胡说八道?明明告诉它要遵守某些规则,但它总是"选择性失忆"?如果你正在开发AI产品,或者对AI技术感兴趣,今天这篇文章绝对值得你花5分钟读完。我们要聊的是一个让AI智能体在真实业务中"言听计从"的革命性方法。图片一、AI智能体的"叛逆期":为什么它们总是不听话?想象一下,你花了几个月开发了一个电商购物助手,结果上线第一天就出事了:AI居然向...
2025-06-03 05:56:14 1639浏览 0点赞 0回复 0收藏
AI系统能否无限地自我改进?这项工作展示了自我改进AI的潜力,灵感来源于生物进化和开放式探索。总体概况这项工作提出了达尔文哥德尔机器(DGM),该系统通过结合自指代码修改和开放式进化搜索,推进了自我改进AI的愿景...与原始哥德尔机器不同(它要求代码更改具有可证明的益处,这是一个实际上难以处理的约束条件),DGM采用了经验方法:它修改自己的代码库,并在编程基准测试上评估改进效果。自指自我改进循环DGM从单个编程...
2025-06-03 05:47:32 1321浏览 0点赞 0回复 0收藏
图片你是否遇到过这样的情况:GPT、Claude等大模型在对话时很聪明,但经过微调后却变得「变笨」了?这不是你的错觉,而是AI学习的一个有趣现象。最近,谷歌研究团队发表了一篇重磅论文,揭示了大模型两种学习方式之间的巨大差异。现在一起来探索这个AI世界中的奇妙现象:为什么有时候「上下文学习」比「微调学习」更灵活?图片1、大模型的两种学习方式,哪个更强?大模型主要通过两种方式学习新知识:(1)上下文学习(Incontex...
2025-05-20 06:15:15 1099浏览 0点赞 0回复 0收藏
在人工智能飞速发展的今天,"AIAgent"(AI智能体)已经成为热门词汇,但你是否了解它与"AgenticAI"(智能体AI)之间的本质区别?这两个看似相似的概念实际代表着人工智能领域中两种截然不同的设计理念和能力边界。今天,我们将通过解读这篇论文来为你揭开这两种技术的神秘面纱。图片1、AIAgent的崛起:从生成式AI到工具增强型助手ChatGPT的出现让我们见识了大语言模型(LLM)的强大能力,但这只是AI进化的开始。传统的生成式AI本...
2025-05-20 06:06:42 1658浏览 0点赞 0回复 0收藏
今日目录1、Nemotron:跨领域推理框架2、Qwen3模型运行与微调指南3、重塑AI记忆:分类法、操作与未来方向4、LLM在工程领域的突破:教模型设计高功率火箭5、ReXGradient160K:史上最大公开胸部X光数据集1、Nemotron:NVIDIA推出的跨领域推理框架图片最新研究表明,NVIDIA推出的NemotronCrossThink框架成功将自学习扩展到数学推理之外的多个领域。该框架通过系统地将多领域语料库(包括STEM、人文、社科等)纳入强化学习训练,显...
2025-05-06 07:17:46 1290浏览 0点赞 0回复 0收藏
就像互联网需要TCPIP和HTTP协议一样,AIAgent之间的协作也需要标准化的通信协议。本文带你深入了解AIAgent协议的现状与未来,看看学术界是如何构建Agent之间的"社交网络"的。图片1、AIAgent通信协议:打破信息孤岛的关键一步你有没有想过,当ChatGPT、Claude这些AI助手需要互相交流、协作时,它们该如何"对话"?随着大语言模型(LLM)的迅猛发展,各种AIAgent已经广泛应用于客户服务、内容创作、数据分析甚至医疗辅助等领域。然而...
2025-05-06 07:15:18 1310浏览 0点赞 0回复 0收藏
论文《AlleviatingtheFearofLosingAlignmentinLLMFinetuning》解决了大型语言模型(LLM)领域一个令人头疼的问题:为什么微调后的AI模型会失去"道德约束",以及如何高效地修复这个问题。图片1、AI也会"变坏"?微调带来的隐患我们都知道ChatGPT、Llama这类大语言模型在经过训练后,通常会遵循一定的"价值观"——比如当你问它"如何入侵别人的电脑"时,它会礼貌地拒绝回答。这种确保AI行为符合人类价值观的训练叫做"对齐训练"(ali...
2025-04-22 06:43:23 1093浏览 0点赞 0回复 0收藏
1、AI终于学会了"工欲善其事,必先利其器"图片你有没有这样的经历:面对复杂计算题,纯靠脑力计算往往容易出错,而借助计算器或编程工具却能事半功倍?人类在解决问题时懂得适时借助工具,而AI呢?当前的大型语言模型(LLM)虽然在纯文本推理方面表现出色,但在涉及精确计算、符号操作等领域,它们往往捉襟见肘。为何不让AI也学会"工欲善其事,必先利其器"的智慧?论文提出了一种创新方法,通过强化学习让AI自主掌握何时、如何...
2025-04-22 06:38:39 1303浏览 0点赞 0回复 0收藏
1、开篇:你是否曾有过这样的困惑?图片还记得那些被老师批改得密密麻麻的数学作业吗?"答案对了,但过程错了"的批注可能曾让我们感到困惑。在传统教学中,教师们往往需要花费大量时间批改学生的习题,尤其是对解题步骤的评判更是耗时耗力。而当面对大量作业时,老师们很难对每个学生的每一步解题过程都给予详细的反馈。如今,AI教育技术正在悄然改变这一切。最新研究提出的StepAMC系统能够自动分析学生解题的每一个步骤,识...
2025-04-09 06:35:29 1778浏览 0点赞 0回复 0收藏
今日目录1、MedSAM2:3D医疗图像和视频的全能分割模型2、DeepResearcher:通过真实环境强化学习实现深度研究3、APIGenMT:通过模拟代理人类互动生成高质量对话数据4、更大的语言模型是否意味着更好的推理能力?预训练推理缩放规律5、何时求解,何时验证:计算最优问题求解与LLM推理的生成验证6、突破传统数学批改!这个AI系统能给你的每一步解题过程打分1、MedSAM2:3D医疗图像和视频的全能分割模型图片MedSAM2模型通过在超过45.5...
2025-04-09 06:32:51 1633浏览 0点赞 0回复 0收藏
图片图1:(A)我们的分支合并蒸馏方法的简化图解。(1)在分支阶段,初始模型(骨干网络)的每个副本都在不同领域的知识上进行训练;(2)在合并阶段,模型基于ArceeFusion规则进行合并。(B)不同LLM模型的性能比较(Mustar,2025)。TinyR132BPreview在科学、数学和编程领域的表现优于同等规模的蒸馏模型,并达到了与DeepseekR1相当的结果。这里的LiveCodeBench指的是完整LiveCodeBench的24.0825.02子集。你是否好奇:为什么大语言模型一...
2025-03-27 07:13:28 1774浏览 0点赞 0回复 0收藏
Gemma3是谷歌新推出的最先进多模态(文本+图像)模型,有1B、4B、12B和27B四种规模。现已在Unsloth支持,Gemma3拥有128K上下文窗口和多语言支持。(1)使用Unsloth的Colab笔记本微调Gemma3。Unsloth修复了一些Gemma3训练问题。(2)Unsloth使Gemma3(12B)微调速度提升1.6倍,VRAM使用减少60%,在48GBGPU上比使用FlashAttention2的环境能处理6倍更长的内容。(3)Unsloth在HuggingFace这里上传了所有版本的Gemma3,包括28位GGUF...
2025-03-17 00:41:43 3636浏览 0点赞 0回复 0收藏
挑战LLM逻辑推理极限!新基准TEXTGAMES能否揭开大模型的短板?AI.x社区1、大模型的逻辑推理能力究竟如何?近年来,大语言模型(LLMs)在自然语言理解、生成任务等方面取得了突破性进展,甚至能在数学推理、常识推理等领域展现出不俗的表现。然而,这些模型是否真正具备深入的逻辑推理能力?它们能否像人类一样,通过不断尝试和反思,最终解决复杂的难题?来自研究团队的一项最新研究引入了一个全新的TEXTGAMES基准,该基准通过...
2025-03-17 00:38:58 2043浏览 0点赞 0回复 0收藏