sbf_2000
LV.4
这个用户很懒,还没有个人简介
声望 680
关注 0
粉丝 1
私信
主帖 87
回帖
Mistra发布Magistral——MistralAI首款推理模型——在领域特定、透明和多语言推理方面表现卓越。最优秀的人类思维并非线性——它在逻辑、洞察、不确定性和发现之间穿梭。推理语言模型使我们能够增强并委托复杂思考和深度理解给AI,提升我们处理需要精确、逐步深思和分析问题的能力。但这个领域仍处于起步阶段。缺乏处理领域特定问题所需的专业深度、透明度有限,以及在所需语言中推理不一致——这些只是早期思维模型的一些已知...
2025-06-13 06:49:37 411浏览 0点赞 0回复 0收藏
论文通过强化学习激励有效的下一个token推理,仅使用原始文本和内在强化学习信号就能解锁更丰富的推理能力。图片论文简介论文提出了强化预训练(RPT),这是一种创新范式,通过将下一个词元预测重新解释为可通过正确性验证获得奖励的推理任务,架起了大语言模型预训练与强化学习之间的桥梁。图片RPT没有使用人工精心策划的昂贵标注或人类反馈,而是在大规模无标注文本语料库上应用强化学习,根据预测词元是否匹配真实答案来分配...
2025-06-13 06:45:43 806浏览 0点赞 0回复 0收藏
你有没有遇到过这样的情况:跟AI聊天的时候,它前一秒还好好的,下一秒就开始胡说八道?明明告诉它要遵守某些规则,但它总是"选择性失忆"?如果你正在开发AI产品,或者对AI技术感兴趣,今天这篇文章绝对值得你花5分钟读完。我们要聊的是一个让AI智能体在真实业务中"言听计从"的革命性方法。图片一、AI智能体的"叛逆期":为什么它们总是不听话?想象一下,你花了几个月开发了一个电商购物助手,结果上线第一天就出事了:AI居然向...
2025-06-03 05:56:14 1431浏览 0点赞 0回复 0收藏
AI系统能否无限地自我改进?这项工作展示了自我改进AI的潜力,灵感来源于生物进化和开放式探索。总体概况这项工作提出了达尔文哥德尔机器(DGM),该系统通过结合自指代码修改和开放式进化搜索,推进了自我改进AI的愿景...与原始哥德尔机器不同(它要求代码更改具有可证明的益处,这是一个实际上难以处理的约束条件),DGM采用了经验方法:它修改自己的代码库,并在编程基准测试上评估改进效果。自指自我改进循环DGM从单个编程...
2025-06-03 05:47:32 955浏览 0点赞 0回复 0收藏
图片你是否遇到过这样的情况:GPT、Claude等大模型在对话时很聪明,但经过微调后却变得「变笨」了?这不是你的错觉,而是AI学习的一个有趣现象。最近,谷歌研究团队发表了一篇重磅论文,揭示了大模型两种学习方式之间的巨大差异。现在一起来探索这个AI世界中的奇妙现象:为什么有时候「上下文学习」比「微调学习」更灵活?图片1、大模型的两种学习方式,哪个更强?大模型主要通过两种方式学习新知识:(1)上下文学习(Incontex...
2025-05-20 06:15:15 891浏览 0点赞 0回复 0收藏
在人工智能飞速发展的今天,"AIAgent"(AI智能体)已经成为热门词汇,但你是否了解它与"AgenticAI"(智能体AI)之间的本质区别?这两个看似相似的概念实际代表着人工智能领域中两种截然不同的设计理念和能力边界。今天,我们将通过解读这篇论文来为你揭开这两种技术的神秘面纱。图片1、AIAgent的崛起:从生成式AI到工具增强型助手ChatGPT的出现让我们见识了大语言模型(LLM)的强大能力,但这只是AI进化的开始。传统的生成式AI本...
2025-05-20 06:06:42 1197浏览 0点赞 0回复 0收藏
今日目录1、Nemotron:跨领域推理框架2、Qwen3模型运行与微调指南3、重塑AI记忆:分类法、操作与未来方向4、LLM在工程领域的突破:教模型设计高功率火箭5、ReXGradient160K:史上最大公开胸部X光数据集1、Nemotron:NVIDIA推出的跨领域推理框架图片最新研究表明,NVIDIA推出的NemotronCrossThink框架成功将自学习扩展到数学推理之外的多个领域。该框架通过系统地将多领域语料库(包括STEM、人文、社科等)纳入强化学习训练,显...
2025-05-06 07:17:46 1119浏览 0点赞 0回复 0收藏
就像互联网需要TCPIP和HTTP协议一样,AIAgent之间的协作也需要标准化的通信协议。本文带你深入了解AIAgent协议的现状与未来,看看学术界是如何构建Agent之间的"社交网络"的。图片1、AIAgent通信协议:打破信息孤岛的关键一步你有没有想过,当ChatGPT、Claude这些AI助手需要互相交流、协作时,它们该如何"对话"?随着大语言模型(LLM)的迅猛发展,各种AIAgent已经广泛应用于客户服务、内容创作、数据分析甚至医疗辅助等领域。然而...
2025-05-06 07:15:18 1084浏览 0点赞 0回复 0收藏
论文《AlleviatingtheFearofLosingAlignmentinLLMFinetuning》解决了大型语言模型(LLM)领域一个令人头疼的问题:为什么微调后的AI模型会失去"道德约束",以及如何高效地修复这个问题。图片1、AI也会"变坏"?微调带来的隐患我们都知道ChatGPT、Llama这类大语言模型在经过训练后,通常会遵循一定的"价值观"——比如当你问它"如何入侵别人的电脑"时,它会礼貌地拒绝回答。这种确保AI行为符合人类价值观的训练叫做"对齐训练"(ali...
2025-04-22 06:43:23 926浏览 0点赞 0回复 0收藏
​1、AI终于学会了"工欲善其事,必先利其器"图片你有没有这样的经历:面对复杂计算题,纯靠脑力计算往往容易出错,而借助计算器或编程工具却能事半功倍?人类在解决问题时懂得适时借助工具,而AI呢?当前的大型语言模型(LLM)虽然在纯文本推理方面表现出色,但在涉及精确计算、符号操作等领域,它们往往捉襟见肘。为何不让AI也学会"工欲善其事,必先利其器"的智慧?论文提出了一种创新方法,通过强化学习让AI自主掌握何时、如何...
2025-04-22 06:38:39 1096浏览 0点赞 0回复 0收藏
​1、开篇:你是否曾有过这样的困惑?图片还记得那些被老师批改得密密麻麻的数学作业吗?"答案对了,但过程错了"的批注可能曾让我们感到困惑。在传统教学中,教师们往往需要花费大量时间批改学生的习题,尤其是对解题步骤的评判更是耗时耗力。而当面对大量作业时,老师们很难对每个学生的每一步解题过程都给予详细的反馈。如今,AI教育技术正在悄然改变这一切。最新研究提出的StepAMC系统能够自动分析学生解题的每一个步骤,识...
2025-04-09 06:35:29 1475浏览 0点赞 0回复 0收藏
​今日目录1、MedSAM2:3D医疗图像和视频的全能分割模型2、DeepResearcher:通过真实环境强化学习实现深度研究3、APIGenMT:通过模拟代理人类互动生成高质量对话数据4、更大的语言模型是否意味着更好的推理能力?预训练推理缩放规律5、何时求解,何时验证:计算最优问题求解与LLM推理的生成验证6、突破传统数学批改!这个AI系统能给你的每一步解题过程打分1、MedSAM2:3D医疗图像和视频的全能分割模型图片MedSAM2模型通过在超过45.5...
2025-04-09 06:32:51 1378浏览 0点赞 0回复 0收藏
图片图1:(A)我们的分支合并蒸馏方法的简化图解。(1)在分支阶段,初始模型(骨干网络)的每个副本都在不同领域的知识上进行训练;(2)在合并阶段,模型基于ArceeFusion规则进行合并。(B)不同LLM模型的性能比较(Mustar,2025)。TinyR132BPreview在科学、数学和编程领域的表现优于同等规模的蒸馏模型,并达到了与DeepseekR1相当的结果。这里的LiveCodeBench指的是完整LiveCodeBench的24.0825.02子集。你是否好奇:为什么大语言模型一...
2025-03-27 07:13:28 1540浏览 0点赞 0回复 0收藏
Gemma3是谷歌新推出的最先进多模态(文本+图像)模型,有1B、4B、12B和27B四种规模。现已在Unsloth支持,Gemma3拥有128K上下文窗口和多语言支持。(1)使用Unsloth的Colab笔记本微调Gemma3。Unsloth修复了一些Gemma3训练问题。(2)Unsloth使Gemma3(12B)微调速度提升1.6倍,VRAM使用减少60%,在48GBGPU上比使用FlashAttention2的环境能处理6倍更长的内容。(3)Unsloth在HuggingFace这里上传了所有版本的Gemma3,包括28位GGUF...
2025-03-17 00:41:43 3223浏览 0点赞 0回复 0收藏
挑战LLM逻辑推理极限!新基准TEXTGAMES能否揭开大模型的短板?AI.x社区1、大模型的逻辑推理能力究竟如何?近年来,大语言模型(LLMs)在自然语言理解、生成任务等方面取得了突破性进展,甚至能在数学推理、常识推理等领域展现出不俗的表现。然而,这些模型是否真正具备深入的逻辑推理能力?它们能否像人类一样,通过不断尝试和反思,最终解决复杂的难题?来自研究团队的一项最新研究引入了一个全新的TEXTGAMES基准,该基准通过...
2025-03-17 00:38:58 1745浏览 0点赞 0回复 0收藏
想象一下,如今的AI世界里,大模型如GPT4、Claude动辄上百亿参数,能力惊人却耗资巨大,像是一辆辆豪华跑车,虽快却烧油无数。普通人或中小企业想用AI解决问题时,常常被高昂的成本挡在门外。可就在这时候,微软扔出了一颗“重磅炸弹”——Phi4Mini和Phi4Multimodal。这两个小巧的模型,参数量仅3.8亿,却在语言、数学、编码甚至多模态任务上表现出色,堪称“小身躯,大能量”。这不禁让人好奇:微软是怎么让“小个子”打败“大...
2025-03-05 10:00:26 3187浏览 0点赞 0回复 0收藏
图片在大模型训练领域,显存一直是一个让研究者和开发者头疼的问题。特别是在进行长文本上下文训练时,动辄需要几百GB的显存需求,这让很多研究者望而却步。不过最近,AI基础设施优化团队Unsloth带来了一个重大突破他们推出的新算法可以让GRPO训练所需显存减少高达90%!文章公布了Llama3.1(8B)GRPO在Colab上notebook,见:https:colab.research.google.comgithubunslothainotebooksblobmainnbLlama3.1(8B)GRPO.ipynb1、从510GB...
2025-02-24 11:15:23 3096浏览 0点赞 0回复 0收藏
图片想知道ChatGPT这样的大语言模型是如何炼成的吗?今天带你揭开大模型训练的神秘面纱,看看在数百个GPU上协同训练大语言模型的技术秘密。为什么这很重要?曾几何时,训练大语言模型是少数顶级研究实验室的专利。虽然现在我们可以下载Llama或DeepSeek这样的开源模型,但最具挑战性的部分——训练代码、知识和技术仍然隐藏在复杂性之后。这些关键知识分散在众多论文和私有代码库中,让大多数开发者和研究者望而却步。图片图片深...
2025-02-24 11:12:54 2140浏览 0点赞 0回复 0收藏
图片1、为什么我们需要更强大的AI推理能力?在当今时代,人工智能不仅要能够处理简单的对话和生成任务,更要具备像人类一样的推理能力。无论是解决复杂的数学问题,还是编写高质量的代码,甚至是进行科学推理,这些都需要AI具备强大的推理能力。而今天要介绍的OpenThinker32B,正是在这个方向上取得的重要突破。图片2、OpenThinker32B:开源推理的新标杆这个模型最令人兴奋的地方在于它的开放性和强大性能。研究团队通过三个关...
2025-02-14 14:02:30 1909浏览 0点赞 0回复 0收藏
图片RLHF的规模化之谜:真的值得无限投入算力吗?强化学习自人类反馈(RLHF)已成为大语言模型(LLM)后训练的关键步骤,帮助ChatGPT、Llama等模型更符合人类偏好。然而,RLHF是否像预训练那样,能通过增加算力和数据带来持续提升?清华大学与知乎AI的最新研究对此进行了系统性分析,揭示了RLHF的规模化极限,并提出优化策略。图片研究方法:三大核心变量的深入探究研究团队围绕模型规模、数据多样性、推理计算预算三大因素,训...
2025-02-06 15:15:36 1935浏览 0点赞 0回复 0收藏
获得成就
已积累 5.3w 人气
获得 1 个点赞
获得 0 次收藏