核心观点总结:语言驱动Agent与非共识之路姚顺雨的经历和研究都体现了“非共识”的路径,他一直致力于Agent(智能体)研究,并坚信语言是实现泛化和开放世界决策的本质工具。1.Agent的本质:语言是为泛化而生的工具•非共识起点:2018年选择让语言模型玩游戏,而不是当时主流的BERT。•开放世界的本质:真实世界的行为空间是开放的(openended),传统NLP的有限选项无法应对。•语言的特殊性:语言是一个通用性(generalpurpose...
前言2025年是AIAgent真正进入生产环境的元年。不同于早期AutoGPT式的宽泛自主Agent,现在的生产级Agent更加垂直化、范围明确、高度可控,具备定制化的认知架构。LinkedIn、Uber、Replit和Elastic等公司都在生产环境中使用LangGraph构建实际业务场景。本文将基于LangGraph框架,为应用开发者提供一套完整的Agent构建方法论,从概念验证到生产部署的全流程实战指南。核心架构:状态图驱动的Agent设计LangGraph采用有向图架构组织A...
本文将带你了解LLM评估的最新状态,探索经过验证的策略,包括离线和在线基准测试。评估大型语言模型(LLM)感觉就像是试图解开一个巨大的线团——事情千头万绪,往往不知道应该从哪一头开始。从应对不可预测的用户输入到选择合适的指标,整个过程可能让人不知所措。但是,请不要惊慌!在这篇文章中,我们将为你梳理一些久经考验的最佳实践、常见的陷阱和实用技巧,帮助你对LLM的性能进行基准测试。无论你是刚刚入门还是需要快速...
Nature最新论文深度剖析:从15.6%到86.7%,这是如何实现的?DeepSeekR1论文首登《自然》封面,梁文锋团队正面回应蒸馏质疑、发布详尽安全报告9月17日,在Nature上发表的DeepSeekR1论文《DeepSeekR1incentivizesreasoninginLLMsthroughreinforcementlearning》[1]引起了业界广泛关注。这不仅仅是因为它在AIME2024数学竞赛上取得了86.7%的惊人成绩,更重要的是它展示了一条完全不同的技术路径:不依赖人工标注的推理轨迹,纯粹通...
2025-09-25 07:38:41 1706浏览 0点赞 0回复 0收藏
前言2025年是AIAgent真正进入生产环境的元年。不同于早期AutoGPT式的宽泛自主Agent,现在的生产级Agent更加垂直化、范围明确、高度可控,具备定制化的认知架构。LinkedIn、Uber、Replit和Elastic等公司都在生产环境中使用LangGraph构建实际业务场景。本文将基于LangGraph框架,为应用开发者提供一套完整的Agent构建方法论,从概念验证到生产部署的全流程实战指南。核心架构:状态图驱动的Agent设计LangGraph采用有向图架构组织A...
2025-09-25 07:35:05 1924浏览 0点赞 0回复 0收藏
Google发布的《Agents》白皮书,为AIAgent的工程化实践提供了系统性的技术框架。作为一线开发者,我们需要的不是概念解释,而是可操作的技术方案。本文基于白皮书内容,结合实际开发经验,为Agent应用开发者提供从架构设计到生产部署的完整技术路径。如果你正在或计划开发Agent应用,这篇文章将帮你避开常见的技术陷阱,选择合适的架构模式。Agent的核心架构分为三个关键部分:模型、工具和编排层。1.模型层(Model)这是Agent...
2025-09-02 07:06:26 1551浏览 0点赞 0回复 0收藏
随着大模型技术的飞速发展,AI智能体(AIAgent)正成为下一代AI应用的核心。本文将深入探讨AI智能体的核心构成、设计范式,并分析其在工程化、评估和未来发展上的关键要点。特别关注智能体如何与GPU加速卡、云原生环境协同工作,为大模型技术爱好者和GPU加速卡使用者提供深度洞察。1.什么是AI智能体?并非所有的AI产品都能称为智能体(Agent)。一个完整的智能体需具备以下四项核心能力:对话能力、推理能力、长记忆能力和工具...
2025-09-02 06:52:55 1541浏览 0点赞 0回复 0收藏
大家好,作为大模型技术的深度玩家,你是否已经厌倦了单纯的问答和对话?当LLM(大型语言模型)的推理能力遇上各种外部工具,我们正迎来一个全新的时代——智能体(Agent)时代。智能体,顾名思义,就是能像人一样思考、规划、行动,并根据环境反馈进行调整的AI实体。它不再是被动回答问题的工具,而是能够主动执行复杂任务的“大脑”。今天,我们就来一起深入探讨六种当下最前沿的智能体设计范式,看看如何用它们真正释放GPU的...
2025-08-21 08:40:20 1762浏览 0点赞 0回复 0收藏
核心摘要智能体需要上下文来执行任务。上下文工程,是一门将恰当信息精准填入智能体上下文窗口的艺术与科学。本文将当下主流智能体中常见的上下文工程策略归纳为几大类。上下文工程的本质安德烈·卡帕西(AndrejKarpathy)曾将大型语言模型(LLMs)比作一种新型操作系统。其中,LLM如同中央处理器(CPU),其上下文窗口则扮演着随机存取存储器(RAM)的角色,作为模型的工作记忆。正如RAM容量有限,LLM的上下文窗口在处理多种上...
2025-08-21 08:33:56 1596浏览 0点赞 0回复 0收藏
在当前大模型(LLM)应用如火如荼的时代,无论是构建智能客服、实时搜索助手,还是驱动创意内容生成,大模型的推理速度都已不再是可有可无的“奢侈品”,而是直接决定用户体验和运营成本的关键。我们常常会发现,即便是一个在训练阶段表现优异的大模型,部署到生产环境后,其理论性能与实际表现之间却存在着巨大的鸿沟。这种差距可能表现为:请求延迟时高时低,从毫秒级飙升到数十秒;系统吞吐量不稳定,并发处理能力难以预测;...
2025-08-07 06:57:37 2726浏览 0点赞 0回复 0收藏
痛点:大模型性能评估的"黑盒困境"想象一下这样的场景:你刚刚部署了一个32B参数的DeepSeekR1模型,信心满满地准备上线服务。但突然有人问你:"这个模型能承受多大的并发?延迟如何?每秒能处理多少tokens?"面对这些问题,很多开发者只能凭经验猜测,或者写一些简单的脚本测试。这就像是驾驶一辆没有仪表盘的汽车——你永远不知道自己跑得有多快,油还能跑多远。传统压测方案的局限性:•🚫指标单一:只能测基本的QPS,缺乏细...
2025-08-07 06:48:15 4423浏览 0点赞 0回复 0收藏
Part.1RAG这么火,你会用吗?自从大模型技术走向市场以来,“幻觉”现象总是对用户造成困扰,而RAG(RetrievalAugmentedGeneration,检索增强生成)技术正在成为解决这一难题的利器。国内众多科技大厂在实践RAG技术时都取得了阶段性的成果。蚂蚁集团采用RAG技术,通过知识库分层构建、复杂文档处理、混合搜索策略和总结模型优化,答案获取效率提高约20%。阿里云通过外挂知识库提供可靠知识,优化知识检索与答案生成流程,成功化...
2025-08-07 06:42:57 2004浏览 0点赞 0回复 0收藏
在大模型应用日益普及的今天,如何写出高质量的提示词成为了每个开发者必须掌握的技能。最近,专业提示工程师SanderSchulhoff和他的团队完成了一项重要研究:分析超过1500篇学术论文,梳理出200多种提示技巧,并从中筛选出了5种最有效的核心方法。这些发现不仅有学术价值,更具备很强的实践指导意义。让我们深入了解这些经过验证的技巧。1.少量示例法:让模型从示例中学习原理解析传统的提示往往直接抛出问题,期望模型能够理解...
2025-07-22 07:09:39 2447浏览 0点赞 0回复 0收藏
引言ClaudeCode是Anthropic推出的智能编程助手,它直接集成到你的终端环境中,能够理解你的代码库,并通过自然语言命令帮助你更快地编程。本文将系统介绍ClaudeCode的无门槛配置方法,通过使用GitHubCopilot作为模型提供者,让你无需订阅Claude账户即可享受强大的AI编程能力。什么是ClaudeCodeClaudeCode是一个革命性的开发工具,它将AI助手直接集成到你的开发环境中。与传统的代码生成工具不同,ClaudeCode具有以下特点:•理...
2025-07-22 07:06:14 4344浏览 0点赞 0回复 0收藏
前言上周,团队准备用DeepSeek32B模型做微调,结果第一次训练就遇到了显存爆炸。各种OOM错误让人抓狂。经过摸索和实践,终于摸清了LLaMAFactory参数配置的门道。今天把这些经验分享出来,希望能帮大家避开我踩过的坑。LLaMAFactory参数体系全景LLaMAFactory有400+个配置参数,看起来很复杂,但其实可以分为三个层次:核心层(必须配置):决定能否跑起来优化层(影响性能):决定跑得好不好高级层(锦上添花):决定跑...
2025-07-01 07:05:17 5324浏览 0点赞 0回复 1收藏
随着大模型应用的普及,越来越多的企业开始关注私有化部署。今天我们聊聊如何在海光DCUK100AI计算卡上部署Xinference推理框架,构建一套完整的私有AI推理服务。为什么选择Xinference?Xinference是一个功能强大的开源推理平台,可以理解为"本地版的OpenAIAPI"。它的优势在于:统一接口:无论是大语言模型、多模态模型还是嵌入模型,都提供统一的调用方式。硬件兼容性强:支持CPU、NVIDIAGPU、海光DCU等多种硬件平台。自...
2025-06-18 06:39:33 3172浏览 0点赞 0回复 0收藏
随着Claude4、DeepSeekV3等大语言模型的爆发式发展,模型参数规模已经达到千亿甚至万亿级别。这些"巨无霸"模型虽然性能强大,但也带来了巨大的计算和存储挑战。一个70B参数的模型,仅权重就需要约140GB的显存,这让大多数企业和个人用户望而却步。量化技术的出现,为解决这一难题提供了有效路径。通过将模型权重从32位浮点数压缩到4位或8位整数,可以大幅降低存储需求和计算成本,同时尽可能保持模型性能。什么是模型量化?模型...
2025-06-05 06:58:00 3364浏览 0点赞 0回复 0收藏
一、前言随着大语言模型(LLM)的飞速发展,如何在特定领域或任务上对预训练模型进行高效微调,已成为业界关注的焦点。LLaMAFactory作为一个功能强大且易于上手的LLM微调框架,受到了广泛关注。本文将聚焦于在国产DCU平台上,利用LLaMAFactory对Llama3模型进行LoRA微调的实践过程,并分享其中的关键步骤与经验。🚀海光DCU实战项目来了!助您轻松驾驭大模型与HPC开发🚀为帮助开发者更便捷在海光DCU上进行大模型(训练、微调、推...
2025-06-05 06:55:02 3337浏览 0点赞 0回复 0收藏
从梁宁的《真需求》一书中,我提炼出对AI大模型创业者特别有价值的洞见。本文将结合AI领域特点,探讨价值创造、共识构建和产品打磨的核心原则。一、从价值本质看AI大模型创业"商业价值无法自己一厢情愿地说有就有,它是由交易的对手盘一买方,来决定的。因此,进入商业世界的第一个训练,就是要摆脱自己的主观感受和主观愿望,站到买方那一侧来审视自己手上的东西。"在AI大模型创业中,这一点尤为关键。技术人员容易陷入"技术决...
2025-05-23 06:21:16 2278浏览 0点赞 0回复 0收藏
还在反复输入同样的AI提示词吗?还在为找不到之前用过的高质量Prompt而烦恼吗?如果你是AI大模型的重度用户,那么今天介绍的这款浏览器插件绝对能让你爱不释手。QuickPrompt,一款专为提示词管理设计的效率工具,它能让你的AI对话效率提升10倍不止。一键唤出,告别复制粘贴在ChatGPT、Claude或文心一言等任何输入框中,只需输入p,立即唤出你的提示词库,从中选择需要的提示词一键插入。解放双手,无需在各种笔记软件间...
2025-05-23 06:18:00 2483浏览 0点赞 0回复 0收藏