嘿,大家好!这里是一个专注于前沿AI和智能体的频道人在云栖大会,一上来,阿里云智能首席技术官周靖人就介绍了千问多款新模型发布,一款模型升级。今天给家人们分享一下,阿里今天发布&开源的那些大模型全家桶!首当其冲的是Qwen的万亿参数旗舰模型——Qwen3Max来了。参数量直接拉满到超1万亿、用36Ttokens数据预训练的变态。月初的Qwen3MaxPreview,在LMArena排名第三,各种表单几乎都是暴捶开、闭源模型。满血版,Qwen3Max有...
2025-09-24 14:19:30 1478浏览 0点赞 0回复 0收藏
前阵子,智谱AutoGLM还是挺刷屏的,它的核心理念是,给每个人配一个云端分身,7x24小时的帮大家干活今天想给家人们详细挖掘一下AgentInfra,随着模型的Agent能力越来越强,infra也变得越来越重要了!为什么AIAgent需要新的AIinfra?过去,我们谈论Agent,只讲他的大脑。因为大脑负责思考,工具负责执行。但是,一个越来越不容忽视的组件是,Agent的身体。因为Agent都存在一个致命缺陷:它们在你的个人电脑上运行。这意味着:抢...
2025-09-15 07:54:22 2806浏览 0点赞 0回复 0收藏
关于Agent的记忆,大多数人印象中,后台可能就是一个RAG罢了。但是到底有哪些细节和值得注意的地方呢?今天深度分析一个还不错的开源项目,探索关于记忆的秘密。项目是这个:https:github.comGibsonAImemori不止是RAG其实如果细看很多记忆框架,他们做到的真的远不止一个“存储检索”的RAG思路。在Memori中,把记忆分成了两种:ConsciousMode就是传统意义上的短期工作记忆。但是比较特别的是,在系统启动时,会主动分...
2025-09-12 07:15:41 1140浏览 0点赞 0回复 0收藏
OpenAI上周发了一篇论文,重点聊了大家都挺感兴趣的话题:为什么大模型会有幻觉?评测缺陷举个例子:你现在参加一场考试,答对得1分,答错或不答都是0分。在这种规则下,最佳策略是什么?应该是碰到完全不会的题目,蒙一个答案。因为蒙对了血赚,蒙错了不亏。这个模式正是今天绝大多数AI模型在面对的评测环境。包括GPQA、MMLUPro、SWEbench在内的众多热门评测基准,都是在用BinaryGrading。非对即错,如果模型回复IDK(IDon'tKn...
2025-09-12 07:15:01 1061浏览 0点赞 0回复 0收藏
腾讯优图实验室悄摸摸开源了Youtuagent,在较复杂的的深度搜索和工具使用benchmark上表现不错,今天给家人们分享一下他的亮点。不依赖GPTClaude的SOTA最值得一提的是,上面的评测都是使用的DeepSeek!!!!以后不能随便说,现在的Agent离开Claude,啥也不是了?所以他的框架到底有些什么亮点呢?最大的亮点:像聊天一样生成Agent对新手来说,配置Agent很烦人。他们搞了一个自动智能体生成的功能。别的框架是,你可能要...
2025-09-01 00:12:17 1828浏览 0点赞 0回复 0收藏
要让一个LLM成为顶尖行业专家,需要多长的Prompt?毕马威给出的答案是:100页。作为四大咨询巨头之一的毕马威,搞出来一个新闻。说他们打造了一款名为TaxBot的税务AI助手,直接把过去需要两周的专业咨询工作,压缩到了一天内完成,效率提升超过10倍!从封杀到Allin,从巨长Prompt到未来的AgentRuntime,毕马威这套操作,几乎把企业落地Agent该踩的坑、该走的路,都趟了一遍。今天,给家人们分享一下这个框架思路。毕马威的故事2...
2025-09-01 00:11:15 1069浏览 0点赞 0回复 0收藏
这几天,英伟达的一篇论文非常火,标题很直接,小模型才是AgenticAI的未来整个内容,主要是论证了为什么要考虑SLM?以及如何从LLM迁移成SLM的六步教程,并论证了开源Agent框架替换成SLM,带来的结果。今天给家人们分享一下论文内容。为什么说LLM做大了还不行?目前行业主流的万事皆用LLM的Agent构建模式,是一种巨大的资源浪费。AIAgent的大部分子任务,其实是重复、有范围、非对话式的,用一个庞大的、无所不能的LLM去处理,就...
2025-09-01 00:10:00 890浏览 0点赞 0回复 0收藏
今天有个大新闻,OpenAI和Google这两大巨头,罕见地联手了,协同Factory、Sourcegraph、Cursor等一众厂商,共同推出了一个简单、开放的Agents标准。背景是,随着现在AI编程Agent圈子神仙打架。为了让AI按项目规范行事,我们的代码库里被硬塞进了.cursorrules,AGENT.md,CLAUDE.md等五花八门的配置文件。项目目录越来越乱,昨天,来自大厂们联手推出的AGENTS.md出来了,目标只有一个:用一个...
2025-08-21 15:06:11 1957浏览 0点赞 0回复 0收藏
GPT5的提示词不出意外的,又被破解出来了。结合官方提供的《GPT5PromptingGuide》的内容,仔细琢磨了一下,有一些值得学习的地方,今天分享给家人们。systemprompt:https:github.comelderpliniusCL4R1T4SblobmainOPENAIChatGPT508072025.mkdgpt5promptguide:https:cookbook.openai.comexamplesgpt5gpt5promptingguideGPT5时代,写不好提示词,那就成为MetaPrompting工程师吧!Metaprompting,简单说,就是让GPT5来帮你优化你...
2025-08-20 06:56:08 2703浏览 0点赞 0回复 0收藏
今天给家人们分享一下,2025AIAgents的六大趋势、MultiAgents的协作架构、Agent的自主L1L5等级趋势一:DeepResearchAgent——任务从执行到拆解与监督我们最熟悉的Agent模式是接收一个任务,然后自己从头干到尾。DeepResearch的玩法变了,它引入了一个Manager的角色。Manager不亲自干活,核心任务是两件事:拆解任务:把一个复杂问题(比如“分析Q3季度AIAgent行业报告”)拆解成一堆更小的、可以独立执行的子任务(文献检索、数...
2025-08-20 06:51:59 3257浏览 0点赞 0回复 0收藏
最近,一篇万字综述《ASurveyonAgentWorkflow》有一点牛皮,作者们扒光了市面上超过20个主流的Agent框架,今天把要点给家人们分析一下内容涉及到AgentWorkflow到底是什么,它如何组织多个Agent高效协作,以及我们该如何选择适合自己的框架。什么是AgentWorkflow?论文这里的Workflow是一套高效的管理流程。负责将一个复杂的大任务,拆解成一个个子任务,然后派给不同角色、不同能力的Agent去执行,并确保它们之间能顺利沟通、协...
2025-08-20 06:47:28 1991浏览 0点赞 0回复 0收藏
嘿,大家好!这里是一个专注于前沿AI和智能体的频道字节又偷摸开源了,一个带记忆的Agent。看起来不稀奇,但是这可能全球首个带终身记忆更新的全多模态智能体。这玩意儿的核心,是给Agent装上了一个真正意义上的“长期记忆”大脑,能边看边听边记,还能像人一样推理总结。背后也不是靠堆参数,而是一套全新的关于记忆智能体的架构思想。所以,今天,给家人们分享一下这个工作。论文:https:arxiv.orgpdf2508.09736github:https:...
2025-08-18 09:26:20 4143浏览 0点赞 0回复 0收藏
家人们,最近国产大模型圈真是越来越卷了。从KimiK2到Qwen3,再到今晚的Wan2.2,GLM4.5也在huggingface上建了collections,阶跃星辰表示Step3也在月底开源。本周在OpenRouter上前10有9个是开源的,在编程上,Qwen3Coder用量也跟KimiK2达到并列的排名。Qwen3CodervsKimiK2,口碑都不错,但是到底要怎么选呢?我花了整整12个小时,在一个包含3.8万行复杂Rust代码和1.2万行React代码的真实项目中,进行了KimiK2和Qwen3Coder实际测...
2025-08-05 06:28:05 5474浏览 0点赞 0回复 0收藏
今天给家人们分享一些“真”Agent实操经验你们有没有觉得,自己按照各种教程搭出来的的AIAgent总是有点智障?让它干点复杂任务,分分钟就把自己绕晕了。为什么像Manus、ClaudeCode这样的顶级应用如此强大?难道只是因为他们提前做了一个TODOLIST吗?我们需要知道一个新的概念:我们要做DeepAgent而非ShallowAgent。告别“浅层”,拥抱“深度”大多数人构建Agent的方式,说白了就是一个LLM在循环调用工具。ReAct的模式。这个模式...
2025-08-05 06:26:12 1075浏览 0点赞 0回复 0收藏
嘿,大家好!这里是一个专注于前沿AI和智能体的频道上周,CAMELAI开源了Eigent,推广话术是“全球首个桌面端多智能体生产力团队”。后脚,Manus火速上线了一个功能高度相似的“WideResearch”,允许上百个智能体并行研究。以至于,官方亲自下场,字里行间充满了对这种巧合的质疑。今天给家人们分享一下Eigent的内核,它到底开源了什么,又是如何搅动了多智能体赛道的。Eigent:你的桌面AI工作组多Agent,简单来说,就是告别AI单...
2025-08-05 06:23:49 1594浏览 0点赞 0回复 0收藏
嘿,大家好!这里是一个专注于前沿AI和智能体的频道当大厂创业公司都在为AGI、Agent烧钱画饼时,一些看似“技术含量不高”的应用,却已经悄悄地把钱赚麻了。最近研究了下一些当下比较有潜力的产品,发现有2款“AI算姻缘”的产品有点意思。Starla和Astra,在短短20天内就狂揽超过200万美金,双双冲上美国AppStore下载榜前十。Starla和Astra下载量与收入变化情况Starla和Astra近30天收入这波操作直接把一众正经...
2025-07-18 11:38:50 4367浏览 0点赞 0回复 0收藏
嘿,大家好!这里是一个专注于前沿AI和智能体的频道家人们,昨晚OpenAI直播,不声不响地甩出了一个重磅产品:ChatGPTAgent正式发布!一个全新产品,把之前的Operator(网页操作)和DeepResearch(深度研究)能力真正合体,塞进了一个统一的系统里。让ChatGPT有一个可以自己操作的虚拟电脑,从头到尾地干完一件复杂的活儿。今天给家人深度分析一下这个新产品的功能与特性,以及对市场上同类型产品的影响。通用智能体?首先要搞清...
2025-07-18 11:34:41 2783浏览 0点赞 0回复 0收藏
这半年来,从谷歌、OpenAI到各种开源项目,大家都在卷模型能力、卷任务完成度,仿佛谁能先做出一个完全不需要人类插手的“自主智能体”,谁就赢得了未来。但今天,给家人们分享一个来自一线的“血泪教训”。全球最大的CRM公司Salesforce,在处理了超过100万次AIAgent与真实客户的对话后,发布了一份内部复盘。他们发现,行业里人人追求的“全自动化”可能是一个巨大的陷阱。误区一:只喂大脑,不给五官我们都知道,AIAgent的大...
2025-07-14 07:43:21 2053浏览 0点赞 0回复 0收藏
就在半小时前,马斯克的Grok4终于正式发布了。Grok3.5跳票。老马的直播还迟到1h也是没谁了,全世界都被耍猴。最贵版本,300美刀,可以思考大几十分钟,一般人也用不上。直播表示,Grok4“能够进行超人级别的推理”(Itcanreasonatasuperhumanlevel!),并且在多项高难度基准测试上实现了对现有顶尖模型的碾压。ArtificialAnalysis获得早期访问权限并发布了Grok4基准测试,数据着实恐怖。今天的循环回到了XAI比所有研究生都聪明...
2025-07-14 07:37:31 4532浏览 0点赞 0回复 0收藏
前天,谷歌毫无征兆地甩出王炸,发布了一款叫GeminiCLI的产品。免费、开源,可以直接在电脑终端里运行的AIAgent。谷歌给它的定位是“开源AIAgent”。可以用来理解复杂任务、制定计划、并调用工具(比如你的本地文件和命令)来一步步完成工作,主打一个“说到做到”。免费,而且是“王炸级”免费先不谈别的,直接看Google这次有多大方。官方明确表示,这次的免费额度,就是为了让你几乎永远达不到上限。只要用个人Google账号登录...
2025-06-27 06:08:07 2555浏览 0点赞 0回复 0收藏