ceesoft
LV.4
这个用户很懒,还没有个人简介
声望 451
关注 0
粉丝 0
私信
主帖 50
回帖
最近,关于AgenticAI具备自主行动能力的智能体的讨论越来越多。很多企业都在探索:能不能让AI自动处理客户请求、下单采购、生成报告,甚至做决策?但《CIO》的一篇文章【文献1】提醒我们:如果没有上下文,AgenticAI将彻底搞砸你的业务。同时,Anthropic工程团队的另一篇文章【文献2】则从工程实践角度指出:如何管理上下文(ContextEngineering),决定了AIAgent的成败。两篇文章结合起来,既指出了风险,也给出了路径。一、为...
2天前 468浏览 0点赞 0回复 0收藏
OpenAI正在成为AI时代的“Windows”。Ben认为,OpenAI正通过构建底层平台、控制接口与生态,把自己定位成新一代计算架构的操作系统。这一观察精准,但笔者感觉不够全面。Ben聚焦于“操作系统化”的技术与平台路径,却忽视了另一个更具颠覆性的层面:OpenAI不仅在控制硬件与算力,更在重塑信息、关系与交易三大社会结构。一、从“操作系统”到“社会系统”Ben的核心论点非常清晰:ChatGPT是新操作系统的“桌面”;插件生态是新一...
5天前 698浏览 0点赞 0回复 0收藏
好久没有见到时间序列预测方向大的突破了,部分可能归因于两点:1.现有方法能力已被推至极限;2.所预测对象本身内生的随机性。近日Nature上有学者提出未来引导学习(FutureGuidedLearning,FGL),引入“未来信息”动态反馈机制,在多个任务中显著提升预测性能。核心机制FGL由两个模型构成:检测模型(FutureModelTeacher),利用未来时间窗口的数据判断关键事件是否会发生。预测模型(PredictiveModelStudent),依赖历史与当前...
5天前 1133浏览 0点赞 0回复 0收藏
架构变化V3.2Exp在V3.1Terminus的基础上,模型架构引入稀疏注意力DSA,核心由两部分组成:LightningIndexer:轻量化索引器计算query与历史token的相似度分数,选出前k个最相关的token。TopkTokenSelection:基于索引分数只保留少量关键KeyValue对,再进行注意力计算。训练方法持续预训练,冻结主模型,仅训练索引器,使其分布对齐原始注意力分布。启用稀疏选择机制,优化主模型+索引器。后训练专家蒸馏,先针对数学、编程、逻辑...
2025-09-30 06:44:49 3905浏览 0点赞 0回复 0收藏
目的:在可机制化(mechanistic)的框架下解释“主观意识/主观体验”是什么,以及它是如何在大脑中产生的。作者希望意识不仅是哲学上的概念,也能提出具体可检验的假设和实验证据。一、注意力模式理论注意力是什么注意力是指,众多进入大脑的信号之间存在竞争,在这个竞争中,有些信号被“选择”以获得更多处理资源。这个过程包括自下而上(刺激驱动的显著性)和自上而下(目标、任务、意图导向的控制)机制。意识/主观体验是...
2025-09-19 07:53:21 1582浏览 0点赞 0回复 0收藏
针对OpenAI刚刚发布《为什么语言模型会产生幻觉》的论文【文献1】,与笔者2023年9月对大模型幻觉的分析大模型的幻觉,解铃还须系铃人,笔者请GPT5做了对比,以下是GPT5的关联分析与评论:GPT5的关联分析与评论OpenAI论文核心观点:为什么语言模型会产生幻觉这篇论文认为,大模型幻觉主要来源于两个根本性因素:1.预训练阶段的统计必然性幻觉可视为一种类似分类错误的现象。即使训练数据完全正确,生成式模型在文本生成任务中依...
2025-09-09 07:17:50 657浏览 0点赞 0回复 0收藏
本文是Jake应ArtificialLawyer邀请撰写的观点文章,Jake是这个领域多年的专家,通过本文澄清智能体概念并给出了清晰定义。编译方式:基本直译,但采用了更地道的中文说法。年初开始,AI“智能体”(Agent)成了科技圈最火的标签。几乎任何带点大模型和工具集成的软件,都自称“智能体”。但现实是:很多产品只是换了个名字的工作流而已,它们需要你手把手指导每一步,遇到一点异常就瘫痪,根本谈不上“自主”。这不仅误导了采购...
2025-09-09 07:16:28 794浏览 0点赞 0回复 0收藏
尽管对GPT5褒贬不一,行业共识是并未达到期待的超级智能,根因或许来自Transformer边际效用降低。前天DeepSeek悄悄上线V3.1,不是万众期盼的R2,基准测试提升可圈可点,不过同样伴随着业界对模型架构的疑虑。统一视角下的概率流建模之外,是否还有其他创新思路?近期,Adobe研究院学者Sridhar尝试用Topos来回答这一问题,提出了一种全新的GenAI架构【文献1】。一、Topos笔者将Topos看成一个可以自定义“集合”、“逻辑”、“函数...
2025-08-26 10:10:52 1150浏览 0点赞 0回复 0收藏
随着人工智能、认知科学与神经科学的交汇日益加深,业界越来越关注AI模型与人类大脑在表征维度、学习机制以及组织结构方面的共性与差异。Nature的四篇文献分别从“表征维度”、“多模态语义对齐”、“层次结构收敛”与“无监督生物预训练”四个方面,共同建构了一个认知框架。表征维度“深度神经网络与人类表征对齐的潜在维度”【文献1】,探索了深度神经网络与人类在自然图像概念空间中的映射差异,发现尽管整体行为表现相似,...
2025-07-30 06:43:46 2572浏览 0点赞 0回复 0收藏
围绕Windsurf的收购,OpenAI与Google上演商战大戏。类似Cursor,Windsurf也是“AI编码助手”。作为GenAI潜在的杀手级应用,“AI编码助手”被行业寄予厚望:将深刻影响开发效率、重新定义开发方式。AI编码助手拖累资深开发者然而近期非盈利机构METR的研究【文献1】却发现,AI并没有让资深开发者更高效。METR基于随机对照试验设计,对16位经验丰富的开源项目开发者进行测试,每人需完成246个任务。开发者预估AI有助提效 20 %,...
2025-07-30 06:27:53 1699浏览 0点赞 0回复 0收藏
​笔者最近更新了大模型数理认知框架:重整化提取出范畴,持续重整化驱动范畴相变​,然后逆重整化推理:图片关于LLM对句法和语义惊人的理解力,大家可曾想到一个关键问题:如何以数学方式刻画LLM所学到的语言范畴结构?度量LLM语言范畴空间这里是来自​万字长文介绍为大语言模型建立的“语言、统计和范畴”数学框架作者TaiDanaeBradley年初给出的方法【文献1】。通过将文本片段构建为丰富范畴(enrichedcategory):以token串...
2025-07-30 06:22:37 1787浏览 0点赞 0回复 0收藏
我们的意识看起来非常私密,仿佛仅属于每一个独立的个体。然而,许多研究人员猜想,意识可能连接着某种更宏大的存在。一项颇具争议的新理论提出,一种“量子纠缠”的机制可能发生在微管之中——那是构成我们每一个神经元支架的微小蛋白质管道。韦尔斯利学院的神经科学家迈克·韦斯特(MikeWiest)认为,这些微管中可能传递着一种永不停留的量子信息。理解量子纠缠量子纠缠是量子物理中的一种现象,指的是两个或多个粒子之间形成...
2025-07-09 07:53:30 2300浏览 0点赞 0回复 0收藏
智源大会主题演讲中,YoshuaBengio判断5年内出现人类水平AI;强化学习之父RichardSutton则预见了AI的体验时代。笔者理解Sutton说的是真实时空的具身体验,需要克服目前的时空模型局限​,走向​自主进化。时空推理的本质挑战Nvidia的具身推理模型还缺什么​文中,笔者提到时空推理的本质挑战当前主流具身AI模型普遍存在以下缺陷:缺乏内在时间建模能力:只能根据视频帧中的时间提示推理顺序,而非具备独立时间感知;不能构建动...
2025-06-25 06:42:50 2035浏览 0点赞 0回复 0收藏
物理人工智能系统需要感知、理解并在物理世界中执行复杂动作,NvidiaCosmosReason1【文献1】就是为此而设计。一、CosmosReason1CosmosReason1模型系列宣称可以通过长链思维推理过程理解物理世界,并以自然语言生成相应的具身决策。该模型将物理AI推理的核心能力,锁定在物理常识和具身推理:1.采用分层本体论来捕捉关于空间、时间和物理学的基础知识。分层本体将物理常识划分为空间、时间和基础物理三大类16个子类;2.基于二维...
2025-05-29 07:20:59 2005浏览 0点赞 0回复 0收藏
早在2014年,Mehta和Schwab就证明了“基于受限玻尔兹曼机(RBM)的深度模型和变分RG之间存在精确对应”。深度网络底层神经元捕捉细节,高层神经元提取抽象特征,本质上等同于RG中积分掉高频自由度压缩与粗化信息的过程。2022年Erdmenger等学者引入相对熵、最优输运(OT)等非微扰工具,来描述深度网络,证明多层神经网络的特征提取过程与RG的粗粒化步骤具有形式一致性。深度学习并非在模仿物理,而是在自然演化中与物理过程趋同...
2025-05-16 06:17:52 2216浏览 0点赞 0回复 0收藏
加州大学洛杉矶分校与MetaAI的研究团队联合发布了革命性的强化学习框架d1【文献1】。该框架显著提升了基于扩散原理的LLM(dLLM)的推理性能——在某些场景下将响应时间从超过30秒缩短至仅需3秒。当AI界普遍聚焦于GPT这类逐词生成结果的自回归模型时,dLLM另辟蹊径,其设计灵感源自DALL·E2和StableDiffusion等图像生成模型。这类模型并非顺序构建答案,而是通过多轮迭代优化被遮蔽的文本版本,在每一阶段都能实现更快速的并行化...
2025-04-30 06:40:23 3494浏览 0点赞 0回复 0收藏
笔者近日在朋友圈发了如下感慨:“现在太多科幻叙事下的公司AI战略,看了让人触目惊心,可以判断这些做AI战略的人几乎不看paper的。现在的大模型做个六七十分的demo非常擅长,对企业生产场景却缺乏精准控制的手段。再强大的工具也有能力的边界,研究数理原理可以推演出这些边界:​大模型的数理认知框架v2”。问题这并非刻意标新立异或危言耸听:随着大型生成模型能力的不断提升及日益广泛应用,人们对其可靠性、安全性及潜在滥...
2025-04-29 00:31:36 2160浏览 0点赞 0回复 0收藏
作者:ÁlvaroMartínezSánchez,GonzaloArranz&AdriánLozanoDurán编译:王庆法麻省理工学院航空航天系学者11月1日在Nature上发表了一篇因果关系的研究文章【文献1】,很有启发性,特此编译介绍。摘要因果性是科学探究的核心,作为理解物理系统中变量相互作用的基本依据,即对原因的操控会导致结果的变化。当前的因果推断方法面临着显著的挑战:包括非线性依赖性、随机交互、自因果作用、汇聚效应以及外部因素的影响等。本文...
2025-04-18 06:25:40 2323浏览 0点赞 0回复 0收藏
《高维回归中的缩放和重整化》【文献1】由哈佛大学物理系、脑科学中心、工程与应用科学学院、自然与人工智能研究所多位学者共同撰写,将随机矩阵理论和自由概率用于理解高维岭回归模型的缩放与重整化行为。一、背景知识1.岭回归(RidgeRegression)一种线性回归技术,损失函数中加入L2正则化项,防止过拟合并提高泛化能力,特别适用于自变量高度相关的情况。2.随机特征模型(RandomFeatureModel)一种用于高维数据建模和机器学...
2025-04-08 00:44:33 2149浏览 0点赞 0回复 0收藏
Anthropic连发两篇相互关联的大模型内部机制研究报告【文献1、文献2】:构建了AI“显微镜”,并用它追踪了大模型思维,这是继去年​揭秘大模型黑盒之后的重大进展。【文献1】构建了替代模型(replacementmodel)作为AI“显微镜”通过这个替代模型,亦步亦趋的捕获针对每一个提示语的归因图(attributiongraph)归因图用于描述模型在特定输入提示下生成目标词元输出时所经历的推理步骤。归因图的边表征节点间的线性影响关系,节...
2025-04-08 00:38:22 2153浏览 0点赞 0回复 0收藏
获得成就
已积累 3.3w 人气
获得 1 个点赞
获得 0 次收藏