Deepcogito发布了4个混合推理模型,参数规模分别为70B、109BMoE、405B、671BMoE,均采用开源许可证。这些模型是世界上最强大的大语言模型之一,并作为一种全新AI范式的概念验证——迭代自我改进(AI系统自我提升)。其中最大的671BMoE模型位列全球最强开源模型之列。它在性能上匹配甚至超越了最新的DeepSeekv3和DeepSeekR1模型,并接近o3和Claude4Opus等闭源前沿模型的水平。这些模型基于在使用迭代蒸馏与放大(IDA)构建超级智...
2025-08-04 00:21:37 1055浏览 0点赞 0回复 0收藏
Anthropic最新研究揭示了如何在AI"大脑"中追踪特定的"人格"特征(称为"人格向量"),并展示了如何识别和控制可能导致大模型表现出恶意或不安全行为的因素。1、大模型内部发生了什么?有时在与大模型对话时,它会突然表现异常——过度奉承、事实错误,甚至恶意行为。这项研究旨在理解这种现象的原因并找到解决方案。虽然AI模型并不像人类那样真正拥有人格,但在特定提示或训练数据影响下,它们有时会表现得像有人格一样。核心发...
2025-08-04 00:15:50 874浏览 0点赞 0回复 0收藏
此模型采用循环架构,实现了分层推理能力。核心创新•提出了一种受大脑启发的新颖架构,用循环模型取代了思维链(CoT)提示,专为深度潜在计算设计•摆脱了token级推理,采用两个耦合模块:慢速高层规划器和快速底层执行器,两个循环网络在不同时间尺度上协作解决任务图片性能•仅用2700万参数且无需预训练即可实现更深层的推理和更高效率•尽管模型小巧、训练数据极少(约1000个样本),但在ARC、极端数独、30×30迷宫导航等复...
2025-08-04 00:10:32 1542浏览 0点赞 0回复 0收藏
谷歌在扩散技术领域持续发力。这次,他们将扩散技术应用于深度研究agent,专门用于优化研究报告生成过程。该方法在长篇研究任务中对比OpenAIDeepResearch取得了69.1%的胜率。图片论文提出了测试时扩散深度研究员(TTDDR),重新思考了深度研究agent生成长篇报告的方式。TTDDR没有依赖传统的静态推理策略(如思维链或最优N选择采样),而是将报告生成过程构建为扩散过程——从噪声草稿开始,通过检索增强的去噪过程进行迭代优化,...
2025-08-01 07:13:11 1532浏览 0点赞 0回复 0收藏
GLM4.5核心特性概览:•MoE架构•混合推理模型•总参数355B(激活参数32B)•GQA+部分RoPE•多Token预测•Muon优化器+QK归一化•22TToken训练语料•SlimeRL基础设施•原生工具调用图片图片模型架构与预训练:GLM4.5总参数规模达355B(激活参数32B),采用更深但更窄的模型设计,通过增加层数和96个注意力头来优化推理能力。轻量版GLM4.5Air为106B参数(激活参数12B)。图片训练语料库规模达22TToken,其中包含15T通用数据和7T代...
2025-08-01 07:05:04 2802浏览 0点赞 0回复 0收藏
GraphR1:全新RAG框架,融合智能体、图RAG和强化学习技术。图片该框架提出了一种创新的RAG架构,突破了传统单次检索或基于文本块检索的局限,巧妙整合了图结构化知识、智能体多轮交互和强化学习技术。GraphR1是一个能够在知识超图环境中进行推理的智能体,通过迭代发出查询并检索子图,采用多步骤的"思考检索再思考生成"循环机制。与先前执行固定检索的图RAG系统不同,GraphR1能够根据智能体状态的演变动态探索图结构。图片检索...
2025-08-01 07:00:01 4921浏览 0点赞 0回复 0收藏
GoogleDeepMind发布的递归混合(MoR):(1)推理速度提升2倍,因为token可以提前退出共享循环(2)训练时减少了大量计算,每层的注意力机制FLOP减少约一半,相同预算可以训练更多数据论文展示了一种全新的方法,让大语言模型在自己的推理循环中学会规划步骤,而不是硬编码单一的推理链。其次,它证明了混合器理念的可扩展性。通过混合多个小型递归专家,让模型选择下一个调用哪个专家,团队在数学和编程基准测试中提升了准确性...
2025-07-17 12:58:24 2731浏览 0点赞 0回复 0收藏
Voxtral在语音转录方面超越了Whisperlargev3。它在所有任务中都优于GPT4omini和和Gemini2.5Flash转录功能,并在英语短文本和MozillaCommonVoice上取得了最先进的成果,超越了ElevenLabsScribe,展现出强大的多语言处理能力。Voxtral3B和Voxtral24B模型不仅能够转录,还具备以下功能:长文本上下文处理:32ktoken的上下文长度,可处理长达30分钟的音频转录,或40分钟的音频理解内置问答和摘要功能:支持直接对音频内容提问或生成...
2025-07-17 06:29:38 1861浏览 1点赞 0回复 0收藏
论文提出了一个卓越的记忆框架——MemOS,它将记忆功能提升为系统级调用。大语言模型遗忘速度快,重新训练成本高昂。MemOS将记忆视为操作系统中的文件,让模型能够在运行时动态地写入、移动和淘汰知识,而不仅仅是在训练期间。它将每个事实或状态封装在一个记忆立方体(MemCube)中,标记创建者和时间戳,然后调度器根据使用情况将该立方体在纯文本、GPU缓存或微型权重补丁之间移动。在LOCOMO基准测试中,该系统达到73.31分的LL...
2025-07-15 08:56:48 1872浏览 0点赞 0回复 0收藏
微软刚刚发布了Phi4miniflashreasoning模型:•基于全新的混合架构构建•吞吐量提升10倍,延迟降低23倍•在不牺牲推理性能的前提下显著加速推理微软将大部分繁重的计算工作转移到精简的SambaY架构上,配合小型门控模块,让同样的38亿参数模型思考更快、响应更迅速。Phi4miniflashreasoning保持了38亿参数的紧凑规模,但重新设计了信息流动方式。全新的解码器混合解码器架构SambaY让轻量级循环组件处理上下文,单个全注意力层负...
2025-07-15 08:53:42 1095浏览 0点赞 0回复 0收藏
当数学天才遇上现实问题想象一下,你身边有个数学天才,能轻松解决高考数学压轴题,甚至在数学竞赛中屡获佳绩。但当你让他帮忙写个邮件、回答生活常识问题时,他却表现得像个"书呆子"——要么答非所问,要么干脆说不会。这听起来很熟悉吗?在AI大模型的世界里,这种现象正在真实上演。最近,研究人员发现了一个令人意外的现象:那些在数学推理任务上表现出色的AI模型,在处理其他类型问题时却频频"翻车"。更让人惊讶的是,不同...
2025-07-11 06:51:00 928浏览 0点赞 0回复 0收藏
SmolLM33B模型在性能上超越了Llama3.23B和Qwen2.53B,同时与更大的4B替代方案(Qwen3和Gemma3)保持竞争力。除了性能数据之外,还分享了使用公共数据集和训练框架构建它的方法。图片模型摘要:•3B模型在11Ttoken上训练,在3B规模上达到SOTA,与4B模型具有竞争力•指令模型具有双模式推理,支持thinknothink模式•多语言支持支持6种语言:英语、法语、西班牙语、德语、意大利语和葡萄牙语•长上下文使用NoPE和YaRN支持高达128k...
2025-07-11 06:48:24 1174浏览 0点赞 0回复 0收藏
这是一份长达206页的重磅研究报告,其研究结果令人担忧。该研究发现,对大语言模型的依赖会削弱写作者自身的神经和语言特征。研究者仅通过脑电图、文本挖掘和交叉对照实验就证明,保持一定的无AI练习时间能够保护记忆回路,并促进更丰富的语言表达,即使后续重新引入AI工具也是如此。图片实验设计54名波士顿地区的学生在三种条件下撰写SAT风格的作文:仅使用ChatGPT、仅使用Google搜索,或仅凭大脑思考。每位参与者在相同条件下...
2025-06-27 00:04:32 1159浏览 0点赞 0回复 0收藏
为GPT4.1提供"认知工具"可将其在AIME2024上的表现从26.7%提升至43.3%。太惊人了!这个成绩已经非常接近o1preview的水平。论文提出了一种模块化、基于工具的方法来激发大语言模型的推理能力,灵感来源于认知科学。作者没有单纯依赖强化学习或思维链(CoT)提示,而是引入了一个框架,让大语言模型能够调用独立的"认知工具"来模块化和支撑内部推理过程。图片agent工具调用:这些工具封装了理解问题、回忆类似案例、检查答案和回溯...
2025-06-27 00:02:41 1009浏览 0点赞 0回复 0收藏
还记得OpenAI发布o1模型时,那种"AI终于会思考了"的震撼吗?现在,英伟达团队带来了更深入的研究成果,揭示了如何让7B参数的小模型在数学和编程推理上达到顶尖水平。他们的AceReasonNemotron1.1模型在AIME25数学竞赛中取得了63.2%的准确率,在编程基准测试中也屡创新高。这背后的秘密不是简单的堆算力,而是监督学习(SFT)和强化学习(RL)的巧妙配合。这项研究不仅给出了具体的训练配方,更重要的是回答了一个关键问题:为什...
2025-06-26 09:21:36 1097浏览 0点赞 0回复 0收藏
Mistra发布Magistral——MistralAI首款推理模型——在领域特定、透明和多语言推理方面表现卓越。最优秀的人类思维并非线性——它在逻辑、洞察、不确定性和发现之间穿梭。推理语言模型使我们能够增强并委托复杂思考和深度理解给AI,提升我们处理需要精确、逐步深思和分析问题的能力。但这个领域仍处于起步阶段。缺乏处理领域特定问题所需的专业深度、透明度有限,以及在所需语言中推理不一致——这些只是早期思维模型的一些已知...
2025-06-13 06:49:37 1360浏览 0点赞 0回复 0收藏
论文通过强化学习激励有效的下一个token推理,仅使用原始文本和内在强化学习信号就能解锁更丰富的推理能力。图片论文简介论文提出了强化预训练(RPT),这是一种创新范式,通过将下一个词元预测重新解释为可通过正确性验证获得奖励的推理任务,架起了大语言模型预训练与强化学习之间的桥梁。图片RPT没有使用人工精心策划的昂贵标注或人类反馈,而是在大规模无标注文本语料库上应用强化学习,根据预测词元是否匹配真实答案来分配...
2025-06-13 06:45:43 1573浏览 0点赞 0回复 0收藏
你有没有遇到过这样的情况:跟AI聊天的时候,它前一秒还好好的,下一秒就开始胡说八道?明明告诉它要遵守某些规则,但它总是"选择性失忆"?如果你正在开发AI产品,或者对AI技术感兴趣,今天这篇文章绝对值得你花5分钟读完。我们要聊的是一个让AI智能体在真实业务中"言听计从"的革命性方法。图片一、AI智能体的"叛逆期":为什么它们总是不听话?想象一下,你花了几个月开发了一个电商购物助手,结果上线第一天就出事了:AI居然向...
2025-06-03 05:56:14 2247浏览 0点赞 0回复 0收藏
AI系统能否无限地自我改进?这项工作展示了自我改进AI的潜力,灵感来源于生物进化和开放式探索。总体概况这项工作提出了达尔文哥德尔机器(DGM),该系统通过结合自指代码修改和开放式进化搜索,推进了自我改进AI的愿景...与原始哥德尔机器不同(它要求代码更改具有可证明的益处,这是一个实际上难以处理的约束条件),DGM采用了经验方法:它修改自己的代码库,并在编程基准测试上评估改进效果。自指自我改进循环DGM从单个编程...
2025-06-03 05:47:32 1843浏览 0点赞 0回复 0收藏
图片你是否遇到过这样的情况:GPT、Claude等大模型在对话时很聪明,但经过微调后却变得「变笨」了?这不是你的错觉,而是AI学习的一个有趣现象。最近,谷歌研究团队发表了一篇重磅论文,揭示了大模型两种学习方式之间的巨大差异。现在一起来探索这个AI世界中的奇妙现象:为什么有时候「上下文学习」比「微调学习」更灵活?图片1、大模型的两种学习方式,哪个更强?大模型主要通过两种方式学习新知识:(1)上下文学习(Incontex...
2025-05-20 06:15:15 1487浏览 0点赞 0回复 0收藏