物理人工智能系统需要感知、理解并在物理世界中执行复杂动作,NvidiaCosmosReason1【文献1】就是为此而设计。一、CosmosReason1CosmosReason1模型系列宣称可以通过长链思维推理过程理解物理世界,并以自然语言生成相应的具身决策。该模型将物理AI推理的核心能力,锁定在物理常识和具身推理:1.采用分层本体论来捕捉关于空间、时间和物理学的基础知识。分层本体将物理常识划分为空间、时间和基础物理三大类16个子类;2.基于二维...
2025-05-29 07:20:59 911浏览 0点赞 0回复 0收藏
早在2014年,Mehta和Schwab就证明了“基于受限玻尔兹曼机(RBM)的深度模型和变分RG之间存在精确对应”。深度网络底层神经元捕捉细节,高层神经元提取抽象特征,本质上等同于RG中积分掉高频自由度压缩与粗化信息的过程。2022年Erdmenger等学者引入相对熵、最优输运(OT)等非微扰工具,来描述深度网络,证明多层神经网络的特征提取过程与RG的粗粒化步骤具有形式一致性。深度学习并非在模仿物理,而是在自然演化中与物理过程趋同...
2025-05-16 06:17:52 848浏览 0点赞 0回复 0收藏
加州大学洛杉矶分校与MetaAI的研究团队联合发布了革命性的强化学习框架d1【文献1】。该框架显著提升了基于扩散原理的LLM(dLLM)的推理性能——在某些场景下将响应时间从超过30秒缩短至仅需3秒。当AI界普遍聚焦于GPT这类逐词生成结果的自回归模型时,dLLM另辟蹊径,其设计灵感源自DALL·E2和StableDiffusion等图像生成模型。这类模型并非顺序构建答案,而是通过多轮迭代优化被遮蔽的文本版本,在每一阶段都能实现更快速的并行化...
2025-04-30 06:40:23 1653浏览 0点赞 0回复 0收藏
笔者近日在朋友圈发了如下感慨:“现在太多科幻叙事下的公司AI战略,看了让人触目惊心,可以判断这些做AI战略的人几乎不看paper的。现在的大模型做个六七十分的demo非常擅长,对企业生产场景却缺乏精准控制的手段。再强大的工具也有能力的边界,研究数理原理可以推演出这些边界:大模型的数理认知框架v2”。问题这并非刻意标新立异或危言耸听:随着大型生成模型能力的不断提升及日益广泛应用,人们对其可靠性、安全性及潜在滥...
2025-04-29 00:31:36 1183浏览 0点赞 0回复 0收藏
作者:ÁlvaroMartínezSánchez,GonzaloArranz&AdriánLozanoDurán编译:王庆法麻省理工学院航空航天系学者11月1日在Nature上发表了一篇因果关系的研究文章【文献1】,很有启发性,特此编译介绍。摘要因果性是科学探究的核心,作为理解物理系统中变量相互作用的基本依据,即对原因的操控会导致结果的变化。当前的因果推断方法面临着显著的挑战:包括非线性依赖性、随机交互、自因果作用、汇聚效应以及外部因素的影响等。本文...
2025-04-18 06:25:40 1156浏览 0点赞 0回复 0收藏
《高维回归中的缩放和重整化》【文献1】由哈佛大学物理系、脑科学中心、工程与应用科学学院、自然与人工智能研究所多位学者共同撰写,将随机矩阵理论和自由概率用于理解高维岭回归模型的缩放与重整化行为。一、背景知识1.岭回归(RidgeRegression)一种线性回归技术,损失函数中加入L2正则化项,防止过拟合并提高泛化能力,特别适用于自变量高度相关的情况。2.随机特征模型(RandomFeatureModel)一种用于高维数据建模和机器学...
2025-04-08 00:44:33 1231浏览 0点赞 0回复 0收藏
Anthropic连发两篇相互关联的大模型内部机制研究报告【文献1、文献2】:构建了AI“显微镜”,并用它追踪了大模型思维,这是继去年揭秘大模型黑盒之后的重大进展。【文献1】构建了替代模型(replacementmodel)作为AI“显微镜”通过这个替代模型,亦步亦趋的捕获针对每一个提示语的归因图(attributiongraph)归因图用于描述模型在特定输入提示下生成目标词元输出时所经历的推理步骤。归因图的边表征节点间的线性影响关系,节...
2025-04-08 00:38:22 1229浏览 0点赞 0回复 0收藏
传闻DeepSeekR2今天上新,东大时区已过,难道是阿美时间?不必失望,笔者20多年职业生涯学到一个深刻道理是:所有的rumor都是真的。DeepSeek不愧是国产之光,V3,R1系列模型以其卓越的性能和开源创新席卷全球。相应技术文档分享了多项关键技术突破,为高效、可扩展的大模型训练与推理奠定了基础。R1发布给行业带来的天翻地覆的震动波还在激荡,R2很快就可能接踵而至了。借此机会,笔者梳理一下DeepSeekR1&R2超越其他对手的核心秘...
2025-03-25 13:47:47 3575浏览 0点赞 0回复 0收藏
AI正在以前所未有的速度改变我们的世界。从自动化任务到优化决策,AI的广泛应用正在重塑行业、工作方式甚至我们的思维方式。然而,在这场技术变革中,我们面临着一个深刻的悖论:AI在提升效率的同时,是否也在削弱我们的长期韧性和独立思考能力?如何在AI时代脱颖而出,成为真正的思想领袖,是每一个追求卓越的人必须回答的问题。效率与韧性的博弈AI带来效率提升背后隐藏着代价。自动化不仅让我们更高效,还让我们更依赖机器。...
2025-03-13 07:13:17 1672浏览 0点赞 0回复 0收藏
从事大模型应用的读者都可能受到知识图谱(KG)不足的困扰,知识图谱的构建与运营常常是耗时费力的手工过程。斯坦福最新工作KGGen【文献1】,利用大语言模型(LLM)从非结构化文本中自动生成高质量知识图谱,等于从LLM提取出语义。简介知识图谱是信息检索等应用中基本的数据结构,通过主谓宾三元组表示实体之间的关系。然而,许多现有的KG存在不完整性,缺乏实体之间的众多关系,这对下游任务如KG嵌入和基于图的推理造成了挑战...
2025-02-28 13:12:25 3092浏览 0点赞 0回复 0收藏
图片趋势判断2月5日笔者对大模型行业发展的判断:“总结一句话:大模型全栈都应围绕DeepSeek做生态”。之后见证芯片企业一拥而上,设备商争先恐后,大模型厂家被动跟随,应用集体嗨翻天。芯片>编译器>设备>大模型>Agent智能体,过去两周国内全面拥抱DeepSeek形势如海啸一般。2月16日微信接入DeepSeek则是标志性事件,灵珠魔丸合体,官媒助力,同仇敌忾的感觉。下一步,DeepSeek需要规划好版本发行的节奏,创新参数融合机制,减...
2025-02-20 11:33:14 1802浏览 0点赞 0回复 0收藏
本文将散落在近期多篇文章中笔者围绕激发推理ScalingLaw的思考做了一下整理。方向MIT对大模型数理原理的强有力证明中总结:基于宏大的人类知识提取出来丰富范畴,形成众多领域的本体知识结构,这是大模型通过预训练已经构建的内部世界模型;提高推理采样的机制,通过训练达成学习推理的scalinglaw,是大模型下一步努力提升的方向。相比传统方法,新的大模型机理,具备更高维度的新颖性、对能力和技术细节的探索,可以通过揭示隐...
2025-02-13 12:20:37 2299浏览 0点赞 0回复 0收藏
这个春节是DeepSeek的狂欢节,从R1发布到席卷全球仅不到两周,霸占140多个国家AppStore下载排行榜榜首。今日节后第一天开工,几位朋友不约而同咨询我大模型未来走向,这里简单分享一下我的看法,抛砖引玉。总结一句话:大模型全栈都应围绕DeepSeek做生态重要的事情通常得说三遍,但这件事只需说一遍,却无比重要,攸关资金、人力、时间等资源投入和业务创新与价值产出。大模型全栈这是笔者整理的大模型全栈:芯片>编译器>设备>...
2025-02-05 17:14:47 1830浏览 0点赞 0回复 0收藏
局部核重整化学习机制自然通讯2025年1月10日刊发一篇题为“局部核重整化作为超参数化卷积神经网络中特征学习的机制”的文章【文献1】,学者们称“确定了一种完全不同的内核重整化形式:全连接架构的内核只是由单个标量参数全局重整化,而卷积核则经历局部重整化,这意味着网络可以选择局部分量,这些分量将以数据依赖的方式为最终预测做出贡献”。这一发现强调了一种简单的特征学习机制,CNN的重整化内核表达式中展示的核重整化...
2025-01-21 13:42:33 1768浏览 0点赞 0回复 0收藏
最优传输距离数值求解拉格朗日成本下的神经最优传输一文中,笔者整理了三个要点:1.最优传输距离(也称推土距离)将统一深度学习概率分布距离计算2.大模型Transformer等价的重整化群流都将会沿着最优传输的方向进行3.拉格朗日成本处理神经网络最优传输能更有效地建模复杂的系统动力学文章提到最优传输距离目前受到数值计算效率的制约,影响了其广泛应用。这也是笔者一直关注的方向之一。文中介绍的纽约大学和Meta的AI学者创新的...
2025-01-10 12:50:40 1779浏览 0点赞 0回复 0收藏
一、受罗杰·彭罗斯启发的猜想1989年,在他的重要著作《皇帝的新思维》中,罗杰·彭罗斯提出了一个引人注目的假设[1]。他认为量子过程对于形成意识的物理基础至关重要。这个观点具有吸引力,因为量子力学的方程告诉我们,在任何时刻,一个物体——无论是我,还是整个世界——都处于多种状态的叠加中。然而,在任何给定的时刻,我们只体验其中的一种。为了说明这一点,想象一个研究员走到谷歌量子AI实验室的一台量子计算机前,观...
2025-01-02 12:13:19 2633浏览 0点赞 0回复 0收藏
哥伦比亚大学和范斯坦医学研究所学者最近研究了LLM与脑神经反应的相似性。目的与发现研究的目的是确定最新的LLM是否与人脑表现出相似之处,有可能提高对LLM和大脑的理解,尤其在理解和生成语言方面。研究结果发表在《自然机器智能》上【文献1】,表明随着LLM越来越先进,不仅性能更高,也变得更像大脑。研究方法研究人员通过植入神经外科患者大脑的电极记录了他们在听语音时的脑神经反应。并将同一语音的文本提供给LLM并提取...
2024-12-23 09:30:14 2171浏览 0点赞 0回复 0收藏
引言近期的发展标志着人工智能领域的一个激动人心的时期。2024年诺贝尔物理学奖授予了约翰·霍普菲尔德(JohnHopfield)和杰弗里·辛顿(GeoffreyHinton),以表彰他们在人工智能领域的奠基性工作;而化学奖则颁给了大卫·贝克(DavidBaker)、德米斯·哈萨比斯(DemisHassabis)和约翰·琼珀(JohnJumper),以表彰他们利用人工智能解决蛋白质折叠问题的成就——这是科学界长达50年的重大挑战。随着人工智能在物理学和化学中的...
2024-12-03 14:21:26 2659浏览 0点赞 0回复 0收藏
一、量子计算薛定谔的爱情与狄拉克的996一文中笔者带大家领略了量子力学的魅力,并简单探讨了量子计算(QC:QuantumComputing)。QC处于技术创新的最前沿,业界期待其解决传统计算平台无法有效解决的复杂问题,特别是突破当下AI大模型遇到的算力瓶颈。另一方面,新的大模型机理具备更高维度的新颖性,可以通过揭示隐藏的联系建立更广泛有用的创新框架,成为科学和哲学探索的有力工具,包括QC。二、AI赋能QC牛津大学、NVIDIA、...
2024-11-25 15:56:58 2727浏览 0点赞 0回复 0收藏
图片概括为:1、重整化从海量语料中提取出范畴,2、持续重整化驱动范畴解构重组结晶,3、生成过程于范畴中采样做变分推理。进一步,从这个数理原理出发,可以推演出大模型未来可能的发展脉络,潜在的能力,以及可能的脆弱点,最近不少文献分别印证了这几点。一、训练语料的颗粒度、覆盖面受限,无法囊括人类现有的所有知识,甚至都无法包含某个单一领域的完备的知识,重整化出来的内部世界模型的结晶可能是局部的,相对于完备的...
2024-11-18 16:07:32 2382浏览 0点赞 0回复 0收藏