柏企阅文
LV.2
知识库:数学, 统计学, 计算机,人工智能
声望 139
关注 0
粉丝 0
私信
主帖 16
回帖
6月18日凌晨,微软研究院发布三篇突破性论文,正式公开rStarMath、LIPS、CPL三大算法,直击大语言模型(LLM)的核心痛点——数学推理与逻辑链能力不足。这些算法不仅适用于百亿参数大模型,也能显著提升小模型的推理性能,被业界称为“推理增强三件套”。一、rStarMath:用蒙特卡洛树搜索实现“深度思考”核心思想:将蒙特卡洛树搜索(MCTS)与代码验证结合,让大模型像人类一样“反复推演再下结论”。技术亮点:代码增强的思维...
2025-06-20 06:44:36 847浏览 0点赞 0回复 0收藏
在人工智能从单一模型走向复杂协作的时代,多代理系统(MAS)正成为破解高难度任务的关键钥匙。本文聚焦从理论到代码的全流程实践,深度解析如何通过模块化设计让多个智能体协同完成复杂目标。你将学会:三大核心组件(模型选型、工具集成、指令配置)如何支撑代理逻辑;两种经典架构模式(Supervisor集中管理与Swarm分布式协作)的适用场景与代码实现;消息流转、层级管理、流式输出等工程化细节的落地技巧;隐藏挑战与行业标...
2025-06-20 06:42:03 883浏览 0点赞 0回复 0收藏
了解位置编码背后的数学原理和直觉Transformer是一种深度学习架构,它利用注意力机制来学习数据元素之间的关系。它由一个编码器和一个解码器组成,与传统的循环神经网络(RNN)或卷积神经网络(CNN)不同,它可以并行处理输入序列,而不依赖于顺序处理。Transformer模型的一个重要组成部分是位置编码。这种方法能够将位置信息添加到词嵌入中,使模型能够理解序列中单词的顺序。这一点至关重要,因为默认情况下,Transformer是并...
2025-06-09 00:25:28 841浏览 0点赞 0回复 0收藏
Qwen3TechnicalReport本文介绍了最新的Qwen模型家族——Qwen3,它是一个大型语言模型系列,旨在提高性能、效率和多语言能力。该系列包括密集架构和混合专家(MoE)架构的模型,参数规模从0.6到235亿不等。Qwen3的创新之处在于将思考模式(用于复杂、多步推理)和非思考模式(用于快速、基于上下文的响应)整合到一个统一框架中,消除了切换不同模型的需求,并可以根据用户查询或聊天模板动态切换模式。此外,Qwen3引入了思考预...
2025-05-27 06:43:20 706浏览 0点赞 0回复 0收藏
本文介绍了一种新的统一多模态链式思维奖励模型,该模型通过强化微调方法实现了对复杂推理过程的学习和激励。传统的奖励模型通常只能提供直接响应或浅层推理,而新提出的模型能够进行多层次、逐步的长链推理,从而提高了奖励信号的准确性和可靠性。该模型采用了探索驱动的强化微调方法,首先利用小规模图像生成偏好数据来学习GPT4o的推理过程,并将其用于模型的冷启动;然后利用模型的先验知识和泛化能力,准备大规模的统一多模...
2025-05-13 00:27:48 745浏览 0点赞 0回复 0收藏
论文DoesReinforcementLearningReallyIncentivizeReasoningCapacityinLLMsBeyondtheBaseModel2504.13837TL;DR:虽然强化学习(RL)训练的模型在较小的k值(例如,k1)下优于其基本模型,但基本模型可以在较大的k值下获得与RL对应物相比的可比甚至更高的passk分数。进一步分析表明,RL训练模型生成的推理路径已经包含在基础模型的抽样分布中,表明RL训练模型中表现出的大部分推理能力已经由基础模型获得。RL训练通过将模型的输出...
2025-04-27 07:32:28 1099浏览 0点赞 0回复 0收藏
在学术写作中,精准引用与优质文本生成至关重要,现有检索增强生成系统却难以满足需求。今天为大家带来一篇研究成果介绍,文中提出的ScholarCopilot框架,能训练大语言模型助力学术写作。它表现如何?又有哪些创新?快来一探究竟。参考文献article{wang2024scholarcopilot,title{ScholarCopilot:TrainingLargeLanguageModelsforAcademicWritingwithAccurateCitations},author{Wang,YuboandMa,XueguangandNie,PingandZeng,Huayea...
2025-04-16 06:04:58 1009浏览 0点赞 0回复 0收藏
一、引言在人工智能领域,代理是一类借助大语言模型(LLM)来决定应用程序控制流的系统。随着开发的推进,这类系统往往会变得愈发复杂,给管理和扩展带来诸多难题。比如,你可能会遭遇以下状况:工具选择困境:代理可调用的工具繁多,导致在决策下一步使用哪个工具时表现欠佳。上下文管理难题:上下文信息过于繁杂,单个代理难以有效追踪和处理。专业领域需求多样:系统内需要涵盖多个专业领域,像规划师、研究员、数学专家等角...
2025-04-16 06:02:48 1948浏览 0点赞 0回复 0收藏
在当今数据驱动的商业环境中,存在着一个矛盾现象:企业一方面要应对信息过载的问题,另一方面又试图从海量信息中提取有意义的见解以推动行动,这构成了双重挑战。存储在技术报告、产品文档、合同和演示文稿幻灯片中的大量商业知识,都以非结构化格式存在,传统的数据分析系统难以对其进行解读。包含文本、图表、图形和图像的文档蕴含着有关业务流程和决策系统的重要商业情报,但这些情报大多未被充分利用。想要利用机构知识的...
2025-04-02 08:39:06 1582浏览 0点赞 0回复 0收藏
强化学习代表了我们对人工智能思考方式的深刻转变——从仅仅识别模式的系统,转变为通过交互学习并通过经验改进的智能体。正如我们将在本系列中看到的,这种范式正在推动当今一些最令人印象深刻的人工智能成就,并开辟机器学习研究的新前沿。强化学习的基础击败围棋世界冠军的算法可不只是按程序设定运行,它还会学习。在复杂城市环境中自动驾驶的汽车,并非遵循着明确指令,而是在不断适应。重塑我们数字体验的突破性语言模型...
2025-03-24 00:13:14 1582浏览 0点赞 0回复 0收藏
在之前的Agent系列文章中,我们全面介绍了AI智能体,探讨了它们的特征、组成部分、发展历程、面临的挑战以及未来的可能性。在这篇文章中,我们将深入探索如何使用Python从零开始构建一个智能体。这个智能体将具备根据用户输入做出决策、选择合适工具并相应执行任务的能力。现在,就让我们开启这个有趣的构建之旅吧!一、什么是智能体?智能体是一种能够感知其所处环境、做出决策并采取行动以实现特定目标的自主实体。智能体的复...
2025-03-11 02:16:15 3497浏览 0点赞 0回复 0收藏
知识蒸馏通过创建更小、更快、更易于部署的模型,释放了大语言模型(LLM)在实际应用中的潜力。本文提供了知识蒸馏的全面指南,涵盖视觉、自然语言处理(NLP)和语音领域中的算法、架构和应用。大规模机器学习和深度学习模型越来越普遍。例如,据报道,GPT4o有超过2000亿个参数。然而,虽然训练大型模型有助于提升最先进的性能,但部署这种庞大的模型,尤其是在边缘设备上,并非易事。此外,大多数数据科学建模工作侧重于训练单...
2025-02-19 12:01:10 3023浏览 0点赞 0回复 0收藏
主流RAG框架可以分为以下五个主要的进化方向:成本控制型(适合初创公司)、实时互动型(适用于财经新闻场景)、域专家类型、认知增强型、安全与合规类型。接下来,让我们详细了解一下这25种RAG变体。一、标准RAG一个基本的RAG系统由检索模块和生成模块组成。系统会对查询进行编码,检索相关的文档块,然后为基于transformer的LLM构建丰富的提示。查询编码器:使用预训练的转换器(例如DPR)生成密集的查询嵌入。代码实现如下:...
2025-02-12 14:02:02 2828浏览 0点赞 0回复 0收藏
在本文中,我们将深入探索DeepSeekR1背后的前沿进展与创新方法。这一成果作为提升大语言模型(LLMs)推理能力的卓越方案,融合了强化学习(RL)等前沿技术,不仅革新了模型训练范式,还为行业发展开辟了新方向。接下来,让我们一同揭开DeepSeekR1的神秘面纱,探寻其引领AI推理领域变革的核心力量。来源:DeepSeekAI随着强化学习(RL)技术的兴起,提升大语言模型(LLM)推理能力的探索取得了重大突破。本文将深入剖析DeepSeekZe...
2025-02-04 20:04:42 4678浏览 0点赞 0回复 0收藏
在之前对循环神经网络(RNNs)和长短期记忆网络(LSTMs)的深入探讨中,我们了解了它们在处理序列数据方面的强大能力以及应对挑战的独特方式。接下来,我们将聚焦于另一种重要的神经网络架构——门控循环单元(GRUs),它在解决标准RNN面临的问题上展现出了独特的优势。12.门控循环单元(GRUs)门控循环单元(GRU)由Cho等人在2014年提出,旨在解决标准循环神经网络(RNN)面临的梯度消失问题。GRU与长短期记忆网络(LSTM)有许...
2025-01-20 11:36:19 3133浏览 0点赞 0回复 0收藏
相似性搜索为何重要?人工智能和机器学习的兴起,催生了大量高维数据表示形式,即嵌入(embeddings),它们捕捉数据点之间的复杂关系,助力强大的分析与理解。然而,在大型数据集中查找相似嵌入是一项计算密集型任务。相似性搜索在检索增强生成(RetrievalAugmentedGeneration,RAG)领域引发了变革。RAG将传统信息检索与语言模型相结合,通过利用相似性搜索查找相关文档,使模型能访问更广泛的知识库,生成更具信息量和上下文...
2025-01-10 12:36:04 2646浏览 0点赞 0回复 0收藏
获得成就
已积累 6777 人气
获得 0 个点赞
获得 0 次收藏