ceesoft
LV.3
这个用户很懒,还没有个人简介
声望 385
关注 0
粉丝 0
私信
主帖 43
回帖
尽管对GPT5褒贬不一,行业共识是并未达到期待的超级智能,根因或许来自Transformer边际效用降低。前天DeepSeek悄悄上线V3.1,不是万众期盼的R2,基准测试提升可圈可点,不过同样伴随着业界对模型架构的疑虑。统一视角下的概率流建模之外,是否还有其他创新思路?近期,Adobe研究院学者Sridhar尝试用Topos来回答这一问题,提出了一种全新的GenAI架构【文献1】。一、Topos笔者将Topos看成一个可以自定义“集合”、“逻辑”、“函数...
3天前 610浏览 0点赞 0回复 0收藏
随着人工智能、认知科学与神经科学的交汇日益加深,业界越来越关注AI模型与人类大脑在表征维度、学习机制以及组织结构方面的共性与差异。Nature的四篇文献分别从“表征维度”、“多模态语义对齐”、“层次结构收敛”与“无监督生物预训练”四个方面,共同建构了一个认知框架。表征维度“深度神经网络与人类表征对齐的潜在维度”【文献1】,探索了深度神经网络与人类在自然图像概念空间中的映射差异,发现尽管整体行为表现相似,...
2025-07-30 06:43:46 1900浏览 0点赞 0回复 0收藏
围绕Windsurf的收购,OpenAI与Google上演商战大戏。类似Cursor,Windsurf也是“AI编码助手”。作为GenAI潜在的杀手级应用,“AI编码助手”被行业寄予厚望:将深刻影响开发效率、重新定义开发方式。AI编码助手拖累资深开发者然而近期非盈利机构METR的研究【文献1】却发现,AI并没有让资深开发者更高效。METR基于随机对照试验设计,对16位经验丰富的开源项目开发者进行测试,每人需完成246个任务。开发者预估AI有助提效 20 %,...
2025-07-30 06:27:53 1317浏览 0点赞 0回复 0收藏
​笔者最近更新了大模型数理认知框架:重整化提取出范畴,持续重整化驱动范畴相变​,然后逆重整化推理:图片关于LLM对句法和语义惊人的理解力,大家可曾想到一个关键问题:如何以数学方式刻画LLM所学到的语言范畴结构?度量LLM语言范畴空间这里是来自​万字长文介绍为大语言模型建立的“语言、统计和范畴”数学框架作者TaiDanaeBradley年初给出的方法【文献1】。通过将文本片段构建为丰富范畴(enrichedcategory):以token串...
2025-07-30 06:22:37 1168浏览 0点赞 0回复 0收藏
我们的意识看起来非常私密,仿佛仅属于每一个独立的个体。然而,许多研究人员猜想,意识可能连接着某种更宏大的存在。一项颇具争议的新理论提出,一种“量子纠缠”的机制可能发生在微管之中——那是构成我们每一个神经元支架的微小蛋白质管道。韦尔斯利学院的神经科学家迈克·韦斯特(MikeWiest)认为,这些微管中可能传递着一种永不停留的量子信息。理解量子纠缠量子纠缠是量子物理中的一种现象,指的是两个或多个粒子之间形成...
2025-07-09 07:53:30 1891浏览 0点赞 0回复 0收藏
智源大会主题演讲中,YoshuaBengio判断5年内出现人类水平AI;强化学习之父RichardSutton则预见了AI的体验时代。笔者理解Sutton说的是真实时空的具身体验,需要克服目前的时空模型局限​,走向​自主进化。时空推理的本质挑战Nvidia的具身推理模型还缺什么​文中,笔者提到时空推理的本质挑战当前主流具身AI模型普遍存在以下缺陷:缺乏内在时间建模能力:只能根据视频帧中的时间提示推理顺序,而非具备独立时间感知;不能构建动...
2025-06-25 06:42:50 1652浏览 0点赞 0回复 0收藏
物理人工智能系统需要感知、理解并在物理世界中执行复杂动作,NvidiaCosmosReason1【文献1】就是为此而设计。一、CosmosReason1CosmosReason1模型系列宣称可以通过长链思维推理过程理解物理世界,并以自然语言生成相应的具身决策。该模型将物理AI推理的核心能力,锁定在物理常识和具身推理:1.采用分层本体论来捕捉关于空间、时间和物理学的基础知识。分层本体将物理常识划分为空间、时间和基础物理三大类16个子类;2.基于二维...
2025-05-29 07:20:59 1638浏览 0点赞 0回复 0收藏
早在2014年,Mehta和Schwab就证明了“基于受限玻尔兹曼机(RBM)的深度模型和变分RG之间存在精确对应”。深度网络底层神经元捕捉细节,高层神经元提取抽象特征,本质上等同于RG中积分掉高频自由度压缩与粗化信息的过程。2022年Erdmenger等学者引入相对熵、最优输运(OT)等非微扰工具,来描述深度网络,证明多层神经网络的特征提取过程与RG的粗粒化步骤具有形式一致性。深度学习并非在模仿物理,而是在自然演化中与物理过程趋同...
2025-05-16 06:17:52 1778浏览 0点赞 0回复 0收藏
加州大学洛杉矶分校与MetaAI的研究团队联合发布了革命性的强化学习框架d1【文献1】。该框架显著提升了基于扩散原理的LLM(dLLM)的推理性能——在某些场景下将响应时间从超过30秒缩短至仅需3秒。当AI界普遍聚焦于GPT这类逐词生成结果的自回归模型时,dLLM另辟蹊径,其设计灵感源自DALL·E2和StableDiffusion等图像生成模型。这类模型并非顺序构建答案,而是通过多轮迭代优化被遮蔽的文本版本,在每一阶段都能实现更快速的并行化...
2025-04-30 06:40:23 2940浏览 0点赞 0回复 0收藏
笔者近日在朋友圈发了如下感慨:“现在太多科幻叙事下的公司AI战略,看了让人触目惊心,可以判断这些做AI战略的人几乎不看paper的。现在的大模型做个六七十分的demo非常擅长,对企业生产场景却缺乏精准控制的手段。再强大的工具也有能力的边界,研究数理原理可以推演出这些边界:​大模型的数理认知框架v2”。问题这并非刻意标新立异或危言耸听:随着大型生成模型能力的不断提升及日益广泛应用,人们对其可靠性、安全性及潜在滥...
2025-04-29 00:31:36 1766浏览 0点赞 0回复 0收藏
作者:ÁlvaroMartínezSánchez,GonzaloArranz&AdriánLozanoDurán编译:王庆法麻省理工学院航空航天系学者11月1日在Nature上发表了一篇因果关系的研究文章【文献1】,很有启发性,特此编译介绍。摘要因果性是科学探究的核心,作为理解物理系统中变量相互作用的基本依据,即对原因的操控会导致结果的变化。当前的因果推断方法面临着显著的挑战:包括非线性依赖性、随机交互、自因果作用、汇聚效应以及外部因素的影响等。本文...
2025-04-18 06:25:40 1764浏览 0点赞 0回复 0收藏
《高维回归中的缩放和重整化》【文献1】由哈佛大学物理系、脑科学中心、工程与应用科学学院、自然与人工智能研究所多位学者共同撰写,将随机矩阵理论和自由概率用于理解高维岭回归模型的缩放与重整化行为。一、背景知识1.岭回归(RidgeRegression)一种线性回归技术,损失函数中加入L2正则化项,防止过拟合并提高泛化能力,特别适用于自变量高度相关的情况。2.随机特征模型(RandomFeatureModel)一种用于高维数据建模和机器学...
2025-04-08 00:44:33 1822浏览 0点赞 0回复 0收藏
Anthropic连发两篇相互关联的大模型内部机制研究报告【文献1、文献2】:构建了AI“显微镜”,并用它追踪了大模型思维,这是继去年​揭秘大模型黑盒之后的重大进展。【文献1】构建了替代模型(replacementmodel)作为AI“显微镜”通过这个替代模型,亦步亦趋的捕获针对每一个提示语的归因图(attributiongraph)归因图用于描述模型在特定输入提示下生成目标词元输出时所经历的推理步骤。归因图的边表征节点间的线性影响关系,节...
2025-04-08 00:38:22 1817浏览 0点赞 0回复 0收藏
传闻DeepSeekR2今天上新,东大时区已过,难道是阿美时间?不必失望,笔者20多年职业生涯学到一个深刻道理是:所有的rumor都是真的。DeepSeek不愧是国产之光,V3,R1系列模型以其卓越的性能和开源创新席卷全球。相应技术文档分享了多项关键技术突破,为高效、可扩展的大模型训练与推理奠定了基础。R1发布给行业带来的天翻地覆的震动波还在激荡,R2很快就可能接踵而至了。借此机会,笔者梳理一下DeepSeekR1&R2超越其他对手的核心秘...
2025-03-25 13:47:47 5020浏览 0点赞 0回复 0收藏
AI正在以前所未有的速度改变我们的世界。从自动化任务到优化决策,AI的广泛应用正在重塑行业、工作方式甚至我们的思维方式。然而,在这场技术变革中,我们面临着一个深刻的悖论:AI在提升效率的同时,是否也在削弱我们的长期韧性和独立思考能力?如何在AI时代脱颖而出,成为真正的思想领袖,是每一个追求卓越的人必须回答的问题。效率与韧性的博弈AI带来效率提升背后隐藏着代价。自动化不仅让我们更高效,还让我们更依赖机器。...
2025-03-13 07:13:17 2221浏览 0点赞 0回复 0收藏
从事大模型应用的读者都可能受到知识图谱(KG)不足的困扰,知识图谱的构建与运营常常是耗时费力的手工过程。斯坦福最新工作KGGen【文献1】,利用大语言模型(LLM)从非结构化文本中自动生成高质量知识图谱,等于从LLM提取出语义。简介知识图谱是信息检索等应用中基本的数据结构,通过主谓宾三元组表示实体之间的关系。然而,许多现有的KG存在不完整性,缺乏实体之间的众多关系,这对下游任务如KG嵌入和基于图的推理造成了挑战...
2025-02-28 13:12:25 4245浏览 0点赞 0回复 0收藏
图片趋势判断2月5日笔者对大模型行业发展的判断:“总结一句话:大模型全栈都应围绕DeepSeek做生态”。之后见证芯片企业一拥而上,设备商争先恐后,大模型厂家被动跟随,应用集体嗨翻天。芯片>编译器>设备>大模型>Agent智能体,过去两周国内全面拥抱DeepSeek形势如海啸一般。2月16日微信接入DeepSeek则是标志性事件,灵珠魔丸合体,官媒助力,同仇敌忾的感觉。下一步,DeepSeek需要规划好版本发行的节奏,创新参数融合机制,减...
2025-02-20 11:33:14 2360浏览 0点赞 0回复 0收藏
本文将散落在近期多篇文章中笔者围绕激发推理ScalingLaw的思考做了一下整理。方向MIT对大模型数理原理的强有力证明中总结:基于宏大的人类知识提取出来丰富范畴,形成众多领域的本体知识结构,这是大模型通过预训练已经构建的内部世界模型;提高推理采样的机制,通过训练达成学习推理的scalinglaw,是大模型下一步努力提升的方向。相比传统方法,新的大模型机理,具备更高维度的新颖性、对能力和技术细节的探索,可以通过揭示隐...
2025-02-13 12:20:37 3046浏览 0点赞 0回复 0收藏
这个春节是DeepSeek的狂欢节,从R1发布到席卷全球仅不到两周,霸占140多个国家AppStore下载排行榜榜首。今日节后第一天开工,几位朋友不约而同咨询我大模型未来走向,这里简单分享一下我的看法,抛砖引玉。总结一句话:大模型全栈都应围绕DeepSeek做生态重要的事情通常得说三遍,但这件事只需说一遍,却无比重要,攸关资金、人力、时间等资源投入和业务创新与价值产出。大模型全栈这是笔者整理的大模型全栈:芯片>编译器>设备>...
2025-02-05 17:14:47 2384浏览 0点赞 0回复 0收藏
局部核重整化学习机制自然通讯2025年1月10日刊发一篇题为“局部核重整化作为超参数化卷积神经网络中特征学习的机制”的文章【文献1】,学者们称“确定了一种完全不同的内核重整化形式:全连接架构的内核只是由单个标量参数全局重整化,而卷积核则经历局部重整化,这意味着网络可以选择局部分量,这些分量将以数据依赖的方式为最终预测做出贡献”。这一发现强调了一种简单的特征学习机制,CNN的重整化内核表达式中展示的核重整化...
2025-01-21 13:42:33 2418浏览 0点赞 0回复 0收藏
获得成就
已积累 2.7w 人气
获得 1 个点赞
获得 0 次收藏