sbf_2000
LV.5
这个用户很懒,还没有个人简介
声望 836
关注 0
粉丝 1
私信
主帖 108
回帖
Meta发布的REFRAG(REFRAG:RethinkingRAGbasedDecoding)在解码时将大部分检索到的token替换为预计算的块嵌入,然后选择性地只扩展少数重要的块。这利用了RAG提示中的块对角注意力模式来减少延迟和内存,同时在RAG、多轮对话和长文档摘要中保持准确性。这是一种用于RAG系统的即插即用解码策略,能够大幅降低延迟和内存使用。REFRAG实现了高达30.85倍的TTFT(首字符生成时间)加速。图片核心思想将检索到的上下文分块,用轻量级编...
7天前 781浏览 0点赞 0回复 0收藏
博客文章(InsidevLLM:AnatomyofaHighThroughputLLMInferenceSystem)深度解析了vLLM的内部架构,我简单整理了一下LLM引擎和引擎核心LLM引擎是vLLM的基础构建块。单独而言,它已经能够实现高吞吐量推理——但仅限于离线设置。使用以下离线推理代码片段作为示例:fromvllmimportLLM,SamplingParamsprompts["Hello,mynameis","ThepresidentoftheUnitedStatesis",]samplingparamsSamplingParams(temperature0.8,topp0.95)defmain():l...
7天前 1989浏览 0点赞 0回复 0收藏
Unsloth的动态GGUFs展示了如何将DeepSeekV3.1(671B)量化到仅1比特或3比特,并且仍能超越GPT4.5、GPT4.1和Claude4Opus等SOTA模型。关键结果1比特动态GGUF将DeepSeekV3.1从671GB→192GB(减少75%体积),无思考模式大幅超越GPT4.1、GPT4.5和DeepSeekV303243比特DeepSeekV3.1(思考)GGUF:超越Claude4Opus20250514(思考)5比特DeepSeekV3.1(非思考)GGUF:与Claude4Opus20250514(非思考)性能相匹配其他非Unsloth的1比特和2比特量化要么...
7天前 871浏览 0点赞 0回复 0收藏
论文(HasGPT5AchievedSpatialIntelligenceAnEmpiricalStudy)为多模态模型提出了空间智能(SI)的统一视角,并在八个全新的SI基准测试中评估了GPT5及其他强基线模型。GPT5在整体表现上领先,但仍未达到人类水平,特别是在心理重构形状、变换视角以及变形组装任务方面存在明显不足。图片统一的SI框架与公平评估设置:论文将先前工作整合为六项核心SI能力(度量测量、心理重构、空间关系、视角转换、变形与组装、综合推理),并标...
2025-08-29 07:04:32 954浏览 0点赞 0回复 0收藏
DeepConf使用模型自身的token置信度来保留其最强的推理,在GPTOSS120B上相比标准并行思考减少了高达84.7%的token消耗。大多数系统仍然依赖于带有多数投票的自一致性,这虽然提高了准确率但收益递减,同时消耗大量token。图片论文([DeepThinkwithConfidence](https:arxiv.orgabs2508.15260v1))核心思想:DeepConf是一种测试时方法,它对模型推理进行局部置信度评分,过滤掉弱推理轨迹,通常能在减少token消耗的同时提高准确率,...
2025-08-29 07:02:08 1562浏览 0点赞 0回复 0收藏
论文(MIRAGE:ScalingTestTimeInferencewithParallelGraphRetrievalAugmentedReasoningChains)介绍了一个TestTime(后面使用“测试时”来翻译)推理框架,将单一线性链替换为多个并行的、基于实体的医学知识图谱链。MIRAGE将查询分解为子问题,在锚点和桥接模式下运行自适应图检索,然后通过跨链验证来协调答案,相比线性ToT或以网络为中心的代理RAG,能获得更高的准确性和更清晰的来源追溯。基于图的检索在处理复杂数据的众多应...
2025-08-29 06:55:30 761浏览 0点赞 0回复 0收藏
Deepcogito发布了4个混合推理模型,参数规模分别为70B、109BMoE、405B、671BMoE,均采用开源许可证。这些模型是世界上最强大的大语言模型之一,并作为一种全新AI范式的概念验证——迭代自我改进(AI系统自我提升)。其中最大的671BMoE模型位列全球最强开源模型之列。它在性能上匹配甚至超越了最新的DeepSeekv3和DeepSeekR1模型,并接近o3和Claude4Opus等闭源前沿模型的水平。这些模型基于在使用迭代蒸馏与放大(IDA)构建超级智...
2025-08-04 00:21:37 1318浏览 0点赞 0回复 0收藏
Anthropic最新研究揭示了如何在AI"大脑"中追踪特定的"人格"特征(称为"人格向量"),并展示了如何识别和控制可能导致大模型表现出恶意或不安全行为的因素。1、大模型内部发生了什么?有时在与大模型对话时,它会突然表现异常——过度奉承、事实错误,甚至恶意行为。这项研究旨在理解这种现象的原因并找到解决方案。虽然AI模型并不像人类那样真正拥有人格,但在特定提示或训练数据影响下,它们有时会表现得像有人格一样。核心发...
2025-08-04 00:15:50 1139浏览 0点赞 0回复 0收藏
此模型采用循环架构,实现了分层推理能力。核心创新•提出了一种受大脑启发的新颖架构,用循环模型取代了思维链(CoT)提示,专为深度潜在计算设计•摆脱了token级推理,采用两个耦合模块:慢速高层规划器和快速底层执行器,两个循环网络在不同时间尺度上协作解决任务图片性能•仅用2700万参数且无需预训练即可实现更深层的推理和更高效率•尽管模型小巧、训练数据极少(约1000个样本),但在ARC、极端数独、30×30迷宫导航等复...
2025-08-04 00:10:32 1809浏览 0点赞 0回复 0收藏
谷歌在扩散技术领域持续发力。这次,他们将扩散技术应用于深度研究agent,专门用于优化研究报告生成过程。该方法在长篇研究任务中对比OpenAIDeepResearch取得了69.1%的胜率。图片论文提出了测试时扩散深度研究员(TTDDR),重新思考了深度研究agent生成长篇报告的方式。TTDDR没有依赖传统的静态推理策略(如思维链或最优N选择采样),而是将报告生成过程构建为扩散过程——从噪声草稿开始,通过检索增强的去噪过程进行迭代优化,...
2025-08-01 07:13:11 1792浏览 0点赞 0回复 0收藏
GLM4.5核心特性概览:•MoE架构•混合推理模型•总参数355B(激活参数32B)•GQA+部分RoPE•多Token预测•Muon优化器+QK归一化•22TToken训练语料•SlimeRL基础设施•原生工具调用图片图片模型架构与预训练:GLM4.5总参数规模达355B(激活参数32B),采用更深但更窄的模型设计,通过增加层数和96个注意力头来优化推理能力。轻量版GLM4.5Air为106B参数(激活参数12B)。图片训练语料库规模达22TToken,其中包含15T通用数据和7T代...
2025-08-01 07:05:04 3585浏览 0点赞 0回复 0收藏
GraphR1:全新RAG框架,融合智能体、图RAG和强化学习技术。图片该框架提出了一种创新的RAG架构,突破了传统单次检索或基于文本块检索的局限,巧妙整合了图结构化知识、智能体多轮交互和强化学习技术。GraphR1是一个能够在知识超图环境中进行推理的智能体,通过迭代发出查询并检索子图,采用多步骤的"思考检索再思考生成"循环机制。与先前执行固定检索的图RAG系统不同,GraphR1能够根据智能体状态的演变动态探索图结构。图片检索...
2025-08-01 07:00:01 5601浏览 0点赞 0回复 0收藏
GoogleDeepMind发布的递归混合(MoR):(1)推理速度提升2倍,因为token可以提前退出共享循环(2)训练时减少了大量计算,每层的注意力机制FLOP减少约一半,相同预算可以训练更多数据论文展示了一种全新的方法,让大语言模型在自己的推理循环中学会规划步骤,而不是硬编码单一的推理链。其次,它证明了混合器理念的可扩展性。通过混合多个小型递归专家,让模型选择下一个调用哪个专家,团队在数学和编程基准测试中提升了准确性...
2025-07-17 12:58:24 3147浏览 0点赞 0回复 0收藏
Voxtral在语音转录方面超越了Whisperlargev3。它在所有任务中都优于GPT4omini和和Gemini2.5Flash转录功能,并在英语短文本和MozillaCommonVoice上取得了最先进的成果,超越了ElevenLabsScribe,展现出强大的多语言处理能力。Voxtral3B和Voxtral24B模型不仅能够转录,还具备以下功能:长文本上下文处理:32ktoken的上下文长度,可处理长达30分钟的音频转录,或40分钟的音频理解内置问答和摘要功能:支持直接对音频内容提问或生成...
2025-07-17 06:29:38 2156浏览 1点赞 0回复 0收藏
论文提出了一个卓越的记忆框架——MemOS,它将记忆功能提升为系统级调用。大语言模型遗忘速度快,重新训练成本高昂。MemOS将记忆视为操作系统中的文件,让模型能够在运行时动态地写入、移动和淘汰知识,而不仅仅是在训练期间。它将每个事实或状态封装在一个记忆立方体(MemCube)中,标记创建者和时间戳,然后调度器根据使用情况将该立方体在纯文本、GPU缓存或微型权重补丁之间移动。在LOCOMO基准测试中,该系统达到73.31分的LL...
2025-07-15 08:56:48 2198浏览 0点赞 0回复 0收藏
微软刚刚发布了Phi4miniflashreasoning模型:•基于全新的混合架构构建•吞吐量提升10倍,延迟降低23倍•在不牺牲推理性能的前提下显著加速推理微软将大部分繁重的计算工作转移到精简的SambaY架构上,配合小型门控模块,让同样的38亿参数模型思考更快、响应更迅速。Phi4miniflashreasoning保持了38亿参数的紧凑规模,但重新设计了信息流动方式。全新的解码器混合解码器架构SambaY让轻量级循环组件处理上下文,单个全注意力层负...
2025-07-15 08:53:42 1267浏览 0点赞 0回复 0收藏
当数学天才遇上现实问题想象一下,你身边有个数学天才,能轻松解决高考数学压轴题,甚至在数学竞赛中屡获佳绩。但当你让他帮忙写个邮件、回答生活常识问题时,他却表现得像个"书呆子"——要么答非所问,要么干脆说不会。这听起来很熟悉吗?在AI大模型的世界里,这种现象正在真实上演。最近,研究人员发现了一个令人意外的现象:那些在数学推理任务上表现出色的AI模型,在处理其他类型问题时却频频"翻车"。更让人惊讶的是,不同...
2025-07-11 06:51:00 1071浏览 0点赞 0回复 0收藏
SmolLM33B模型在性能上超越了Llama3.23B和Qwen2.53B,同时与更大的4B替代方案(Qwen3和Gemma3)保持竞争力。除了性能数据之外,还分享了使用公共数据集和训练框架构建它的方法。图片模型摘要:•3B模型在11Ttoken上训练,在3B规模上达到SOTA,与4B模型具有竞争力•指令模型具有双模式推理,支持thinknothink模式•多语言支持支持6种语言:英语、法语、西班牙语、德语、意大利语和葡萄牙语•长上下文使用NoPE和YaRN支持高达128k...
2025-07-11 06:48:24 1514浏览 0点赞 0回复 0收藏
这是一份长达206页的重磅研究报告,其研究结果令人担忧。该研究发现,对大语言模型的依赖会削弱写作者自身的神经和语言特征。研究者仅通过脑电图、文本挖掘和交叉对照实验就证明,保持一定的无AI练习时间能够保护记忆回路,并促进更丰富的语言表达,即使后续重新引入AI工具也是如此。图片实验设计54名波士顿地区的学生在三种条件下撰写SAT风格的作文:仅使用ChatGPT、仅使用Google搜索,或仅凭大脑思考。每位参与者在相同条件下...
2025-06-27 00:04:32 1289浏览 0点赞 0回复 0收藏
为GPT4.1提供"认知工具"可将其在AIME2024上的表现从26.7%提升至43.3%。太惊人了!这个成绩已经非常接近o1preview的水平。论文提出了一种模块化、基于工具的方法来激发大语言模型的推理能力,灵感来源于认知科学。作者没有单纯依赖强化学习或思维链(CoT)提示,而是引入了一个框架,让大语言模型能够调用独立的"认知工具"来模块化和支撑内部推理过程。图片agent工具调用:这些工具封装了理解问题、回忆类似案例、检查答案和回溯...
2025-06-27 00:02:41 1161浏览 0点赞 0回复 0收藏
获得成就
已积累 7.7w 人气
获得 2 个点赞
获得 0 次收藏