顿数AI
LV.2
探索人工智能的奥秘!
声望 170
关注 0
粉丝 0
私信
主帖 21
回帖
近年来,大语言模型(LLM)领域出现了一个引人注目的发展趋势:研究人员开始转向具有亚二次复杂度的循环模型架构,如Mamba、RWKV和RecurrentGemma等。这些模型在处理长上下文时展现出显著的效率优势,相比传统Transformer架构的二次方复杂度,它们能够以更低的计算成本处理更长的序列。然而,这些循环模型存在一个关键的局限性:固定大小的循环记忆容量。来自特拉维夫大学、IBM研究院和MITCSAIL的研究团队在最新论文《溢出预防增...
2025-06-20 07:11:09 1067浏览 0点赞 0回复 0收藏
引言:知识图谱与大语言模型的融合挑战随着人工智能技术的快速发展,大型语言模型(LLMs)已经在自然语言处理领域展现出惊人的能力。基于Transformer架构的LLMs在开放域问答、文本摘要和内容生成等任务中表现出色,并在医疗、金融、法律和科学等多个领域得到广泛应用。然而,这些模型也面临着一些固有的局限性:它们容易产生自信但错误的输出(幻觉现象),并且缺乏在不重新训练的情况下更新或扩展知识的有效机制。检索增强生成...
2025-06-09 00:48:48 2595浏览 0点赞 0回复 0收藏
引言:重新定义工具使用型语言模型的训练范式大型语言模型(LLM)的工具使用能力已成为扩展其功能边界的关键战略。传统方法通常依赖监督微调(SFT)来确保工具调用的正确性,或从更强大的模型中提炼推理轨迹。然而,这些方法各有局限:要么完全忽略推理过程,要么产生仅能模仿表面模式的伪推理,限制了模型的泛化能力。近日,NVIDIA研究团队发布了一项突破性成果——NemotronResearchToolN1(简称ToolN1),这是一系列基于强化学习...
2025-05-27 07:00:59 828浏览 0点赞 0回复 0收藏
引言:微调效率的新视角在大型语言模型(LLM)迅速发展的今天,如何在有限资源下高效微调模型成为了研究和应用的关键问题。传统观点认为,训练数据的总令牌数是衡量数据规模的唯一标准,但康涅狄格大学的研究团队提出了一个更为精细的视角:数据的组成结构同样至关重要。本文将深入分析RyanLagasse、AidanKiernans、AvijitGhosh和ShiriDoriHacohen在论文《固定计算预算下LLM微调中令牌效率的缩放定律》中提出的创新理论。该研究...
2025-05-27 06:57:22 885浏览 0点赞 0回复 0收藏
大语言模型(LLM)在各种应用场景中展现出了令人瞩目的能力,但其固有的知识静态性和更新滞后性一直是制约其实际应用的关键因素。为解决这一问题,阿里巴巴统一实验室(TongyiLab)的研究团队提出了一种创新的解决方案——ZeroSearch,这是一个无需与真实搜索引擎交互即可增强LLM搜索能力的强化学习框架。本文将深入分析这项突破性技术的原理、实现方法及其重要意义。1.研究背景与挑战大语言模型虽然在数学推理、问答和代码生成等多...
2025-05-13 07:21:32 1169浏览 0点赞 0回复 0收藏
突破性能瓶颈:动态超级块剪枝如何重塑信息检索效率在当今数据爆炸的时代,高效的信息检索系统对于各类应用至关重要,从搜索引擎到基于检索增强的大语言模型(RAG)。随着学习型稀疏表示模型的兴起,如何在保持高检索质量的同时提升检索速度成为研究热点。本文深入探讨一项革命性技术——动态超级块剪枝(SuperblockPruning,简称SP),这一创新方法在保持高相关性的前提下,显著提升了稀疏检索的效率。稀疏检索的挑战与机遇稀...
2025-04-27 07:46:39 951浏览 0点赞 0回复 0收藏
在人工智能的发展历程中,大语言模型(LLM)的推理能力一直是研究的核心焦点。然而,传统的推理能力增强方法往往依赖于高质量的监督信号,如标注好的答案或外部奖励模型,这不仅成本高昂,而且难以扩展。近期,来自上海人工智能实验室、西安交通大学等机构的研究团队提出了一个革命性的解决方案——Genius框架,这是一个可泛化、纯无监督的高级推理自训练框架,能够让大语言模型在没有任何外部监督的情况下自我提升推理能力。传统...
2025-04-16 06:29:38 1321浏览 0点赞 0回复 0收藏
大型语言模型(LLM)在处理超出训练长度的上下文时往往会遇到严重的性能下降问题。NVIDIA研究团队最新提出的SWANGPT架构通过巧妙的设计,成功解决了这一行业难题,无需额外的长上下文训练即可实现稳健的长度外推能力。本文深入剖析SWANGPT的创新架构、工作原理及其在长上下文处理领域的重大突破。1.长上下文处理的挑战与现状大型语言模型的上下文长度限制一直是制约其应用场景的关键因素。目前主流的Transformer架构在处理超出...
2025-04-16 06:25:27 1393浏览 0点赞 0回复 0收藏
近年来,大型语言模型(LLMs)在复杂推理任务上的能力取得了显著突破,从快速直觉思维(System1)向缓慢深度推理(System2)转变。这种转变虽然提高了任务准确性,但也带来了巨大的计算成本。这种性能与成本之间的权衡引发了"推理经济"(ReasoningEconomy)的概念,它关注如何在保持模型推理能力的同时,最大化计算资源的使用效率。本文将深入探讨推理经济的核心问题,分析LLMs在训练后和推理阶段的效率挑战,并探索实现推理经济的潜在...
2025-04-03 00:12:52 1435浏览 0点赞 0回复 0收藏
引言:大模型推理与搜索的融合挑战随着OpenAIo1和DeepSeekR1等模型的出现,大型语言模型(LLMs)在推理能力上取得了显著突破。然而,将复杂推理与外部搜索过程有效整合仍然面临重大挑战,尤其是在处理需要多步检索的复杂多跳问题时。传统方法往往依赖手动设计的提示或启发式规则,这在可扩展性和灵活性方面存在明显局限。更重要的是,为多步推理场景生成监督数据通常成本高昂且在实践中难以实现。百川科技、同济大学、爱丁堡大学...
2025-04-03 00:01:22 5702浏览 0点赞 0回复 0收藏
背景大型语言模型(LLMs)如GPT4和LLaMA3凭借Transformer架构的强大情境学习(InContextLearning,ICL)能力,能够从有限的示例中快速学习并适应新任务。然而,ICL的泛化边界和脆弱性一直缺乏系统性的理解,这限制了其在实际应用中的潜力发挥。清华大学的研究团队通过定义一个以任务为中心的框架,从三个维度系统地研究了Transformer架构在ICL下的泛化能力,并提出了优化训练数据设计的重要指导原则。研究框架:三维泛化能力分析...
2025-03-24 00:32:17 1486浏览 0点赞 0回复 0收藏
融合地理定位与对话能力的新型多模态模型图像地理定位技术在过去几年取得了显著进展,但传统模型仅限于提供GPS坐标,缺乏对位置的深入理解和与用户进行有意义对话的能力。中佛罗里达大学的研究团队最近提出了一种创新解决方案——GAEA(GeolocationAwareConversationalModel),这是首个将精确地理定位能力与丰富对话功能相结合的开源多模态模型。GAEA不仅能确定图像的拍摄位置,还能提供关于该位置的详细信息,包括附近的地标...
2025-03-24 00:27:34 1883浏览 0点赞 0回复 0收藏
引言解码人类大脑处理语言的机制是神经科学的核心目标之一。人类语言处理由大脑的语言网络(LanguageNetwork,LN)支持,这是一组位于大脑左侧的前额叶和颞叶区域,具有对语言输入的选择性反应能力。近年来,随着机器学习的快速发展,基于大规模文本语料库训练的下一词预测的大型语言模型(LLMs)成为了模拟人类语言网络内部过程的有力工具。本文旨在探讨大型语言模型如何与人类语言网络对齐,并分析这种对齐在模型训练中的演化...
2025-03-12 00:42:58 1874浏览 0点赞 0回复 0收藏
引言大型语言模型(LLMs)的推理能力近年来取得了显著进展,尤其是在训练后阶段。诸如DeepSeekR1、KimiK1.5和OpenAIo1等模型展现了卓越的逻辑推理能力。然而,这些成果的可复现性和扩展性仍面临诸多挑战,特别是在缺乏训练代码和数据集的情况下。LogicRL框架的提出旨在通过基于规则的强化学习(RL)方法,填补这一研究空白,并推动LLMs推理能力的进一步发展。LogicRL通过在逻辑谜题上进行训练,成功开发了类似DeepSeekR1的推理...
2025-03-12 00:42:12 2262浏览 0点赞 0回复 0收藏
研究背景与创新点深度学习模型,尤其是大型语言模型(LLMs)在推理任务上的表现令人瞩目。传统观点认为,模型参数量是决定推理能力的主要因素。然而,GoogleResearch团队的这项研究《推理潜在思维:循环变换器的力量》提出了一个更为大胆的观点:许多推理问题主要需要的是足够的深度,而非海量参数。该研究探索了循环变换器(LoopedTransformers)在推理任务中的应用潜力,并揭示了模型架构与推理能力之间的深层联系。本文的核...
2025-02-27 11:24:49 2060浏览 0点赞 0回复 0收藏
摘要大型语言模型(LLMs)在各个领域都取得了显著的成功,然而,由于它们所处的复杂和高维损失景观,其优化仍然是一个重大挑战。虽然自适应优化器如AdamW被广泛使用,但它们存在关键限制,包括无法捕捉坐标之间的相互依赖性以及高内存消耗。本文分析了COSMOS优化器,这是一种新颖的混合优化器,它利用梯度矩阵中特征子空间的重要性变化来实现内存效率,同时不牺牲优化性能。COSMOS将SOAP应用于主特征子空间,该子空间捕捉了主要...
2025-02-27 11:20:40 2593浏览 0点赞 0回复 0收藏
摘要模仿学习(ImitationLearning,IL)作为一种通过模仿示范来教授智能体复杂行为的范式,已经在机器人学习领域展现出巨大潜力。然而,随着机器学习技术的快速发展,设计现代模仿学习策略需要在特征编码、架构、策略表示等方面做出众多决策,这些选择构成了一个庞大且尚未被充分探索的设计空间。本文详细分析了XIL框架,这是一个开源的模块化框架,旨在系统地探索模仿学习策略的设计空间。通过对XIL的架构设计、核心组件以及在L...
2025-02-27 11:18:08 2752浏览 0点赞 0回复 0收藏
研究背景与动机本文提出了一种新的低秩适应(LoRA)变体GoRA(GradientdrivenAdaptiveLowRankAdaptation),通过梯度信息来自适应地分配秩和初始化低秩适配器的权重。该方法在保持LoRA高可用性和效率的同时显著提升了模型性能。现有问题秩的选择问题:LoRA的性能很大程度上取决于秩的选择,但增加秩会导致内存使用量上升。初始化策略局限:现有的非零初始化方法要么需要重置全部权重,要么需要保存额外的初始化结果。可用性与效率的...
2025-02-20 10:41:13 2527浏览 0点赞 0回复 0收藏
论文概述本文针对可解释人工智能(XAI)中的一个关键问题展开研究局部代理模型在文本领域中的稳定性估计。研究重点关注了相似度度量方法对XAI稳定性评估的影响,并提出了一种基于同义词权重的新型评估框架。研究背景可解释AI的重要性随着AIML技术的快速发展,模型的复杂度不断提高,其内部工作机制越来越难以理解。这种"黑盒"特性在医疗、金融等高风险领域尤其令人担忧。例如:医疗诊断系统的错误判断可能导致严重后果金融模型的决策...
2025-02-12 14:24:24 2267浏览 0点赞 0回复 0收藏
研究背景与意义在当前推荐系统研究领域中,知识图谱(KnowledgeGraph,KG)作为一种强大的数据集成和表示工具,已经被广泛应用于解决数据稀疏性和可解释性等问题。然而,不同推荐系统之间知识图谱的异构性和集成问题仍然是一个亟待解决的挑战。本文提出了RecKG(RecommendersystemKnowledgeGraph),一个专门面向推荐系统的标准化知识图谱框架,旨在实现异构推荐系统之间的无缝集成和互操作。核心创新点标准化知识图谱设计提出了专门针对...
2025-02-04 20:42:15 2229浏览 0点赞 0回复 0收藏
获得成就
已积累 8989 人气
获得 0 个点赞
获得 0 次收藏