Syrupup
LV.5
这个用户很懒,还没有个人简介
声望 820
关注 0
粉丝 1
私信
主帖 88
回帖
最近,国内大学有一项研究《HowChainofThoughtWorksTracingInformationFlowfromDecoding,Projection,andActivation》回答了一个困扰AI研究者很久的问题:为什么让模型"一步步思考"会显著提升推理能力?它们拆解了ChainofThought(思维链)提示的内部机制。过去大家都知道它有效,但没人说得清楚具体原因。研究团队选了6个不同规模的模型(LLaMA3.23B,LLaMA3.1(8B,70B),Gemma2(2B,9B,27B)),在9个数据集上做了全面测试,涵盖...
4天前 718浏览 0点赞 0回复 0收藏
上下文管理是AI智能体开发的核心难题。即使大模型有了千万级token窗口,也不意味着可以无脑塞信息——垃圾进,垃圾出的铁律依然有效。在此之前我们刊载了Manus在上下文工程上的心得。近日,DrewBreunig也分享了它对于上下文管理层面的见解。这是一个完整的上下文管理指南,分为问题诊断《HowLongContextsFailDrewBreunig[1]》和解决方案《HowtoFixYourContextDrewBreunig[2]》两部分。第一部分分析了四种长上下文失效模式:污染...
4天前 986浏览 0点赞 0回复 0收藏
OpenAI跳票开源模型,却在昨夜发布了ChatGPT智能体,能够像人类一样在网页上点击、输入、操作,真正从"副驾驶"跃升为"真正的助手"。三大核心能力完美融合ChatGPT智能体将三项强大功能有机整合:Operator的网站交互能力可以在网页上滚动、点击、输入深入研究的信息整合优势擅长分析和总结网络信息ChatGPT的对话交互能力自然流畅的人机对话这种融合让AI能够智能选择最优路径完成任务:快速通过API获取数据,同时与人类设计的网页...
2025-07-31 00:40:29 543浏览 0点赞 0回复 0收藏
有关于LLM到底与人思维是否一样,LLM能否走向AGI的科学哲学探讨不断。OpenAIo3系统提示词泄漏!Hinton的观点再次被印证!​LeCun有了新证据!大模型思考与人类思考存在本质差别​笔者看来,这是不同视角,不同时间轴上的争论,它还会持续存在,直到AGI实现。这不有传言在本月末或者8月初GPT5发布,X上就有一个有趣的帖子,博主发帖警告说:"GPT5mightjustrevealhowmuchhuman'creativity'isactuallypatternrecognition."(GPT5可...
2025-07-31 00:35:07 648浏览 0点赞 0回复 0收藏
扎克伯格刚发布了一篇关于"个人超级智能"的愿景文章。最震惊的信息在开头:过去几个月里,他们观察到AI系统开始自我改进。虽然速度还慢,但"不可否认"。同时,对外官宣了自己的愿景,驳斥了samaltman等人,称:与其让超级AI集中化地自动化所有工作、人类"吃救济金",不如让每个人都拥有自己的个人超级智能。一个超懂你的AI助手,帮你实现目标、创造想要的东西、成长为理想的自己。而到底如何发展,扎克伯格认为未来五年是决定性...
2025-07-31 00:29:07 725浏览 0点赞 0回复 0收藏
AI视频领域的“核武器”已经正式引爆。一家名为Decart的AI创业公司,刚刚扔出了一颗足以改变行业的重磅炸弹:全球首个实时、无限长度的AI视频模型——MirageLSD。这项基于其独创的“实时流扩散”(LiveStreamDiffusion,LSD)技术的模型,能将你的想象力实时注入任何视频流中。这不再是看屏幕上的魔法,而是让你亲手创造魔法。这一步棋,直接宣告了对传统视频制作、直播乃至游戏行业的“战争”。创始人亲自“下场”:<40毫秒延迟...
2025-07-18 15:07:29 2360浏览 0点赞 0回复 0收藏
随着AI能力的不断增强,对安全、高效、可控的代码执行环境的需求将持续增长。在AI代码生成和用户代码执行场景中,开发者面临着一个核心难题:如何安全地运行不可信代码?传统方案都存在明显短板:本地执行风险极高,容器共享内核存在逃逸风险,传统VM启动慢达10+秒,云服务缺乏灵活性。今天介绍一个很有前途的沙盒项目——Microsandbox,它通过微虚拟化技术完美解决了这一痛点。更重要的是,它对MCP协议的原生支持,使其成为AI...
2025-07-09 07:27:22 1467浏览 0点赞 0回复 0收藏
在ClaudeCode等编程工具有望爆火突围的情况下,Cursor却陷入了一场由定价策略引发的信任危机。从6月16日到7月4日,短短三周内,这家备受开发者青睐的公司经历了一次完整的"公关灾难"——从悄然改变收费模式,到用户强烈反弹,再到公开道歉并承诺退款。事件回顾:一场沟通不当的"升级"6月16日,Cursor宣布对Pro计划进行调整,将原有的请求数限制改为计算量限制,声称为用户提供"至少20美元的模型推理额度"和"无限制使用Auto模式"...
2025-07-09 07:24:43 1513浏览 0点赞 0回复 0收藏
最近,关于“AI是否会抢走我们的工作”的讨论铺天盖地。从华尔街精英到普通白领,人人都弥漫着一股“饭碗焦虑”。亚马逊CEO安迪·贾西最近也给员工敲响了警钟,直言未来很多重复性岗位将被取代。说实话,技术取代旧岗位,创造新岗位,这是几百年来颠扑不破的规律,并不值得大惊小怪。然而,一个更隐蔽、更深远的危险,正像温水煮青蛙一样悄然逼近:我们对AI的过度依赖,可能会亲手“废掉”我们的大脑,催生出一代缺乏独立思考能...
2025-06-25 07:40:36 1517浏览 0点赞 0回复 0收藏
我们已经看到,大模型应用已经从简单的问答向复杂的智能体系统转变。与之匹配的,技术焦点也正从早期的提示工程(PromptEngineering),即如何巧妙地向模型提问,迅速转向一个更进阶的领域——上下文工程(ContextEngineering)。在模型能力日益强大的今天,决定应用成败的关键,已不再是“如何问”,而是“为模型提供什么样的信息”。这正是上下文工程的核心。大多数情况下,当一个智能体表现不可靠时,其根本原因并非模型本身...
2025-06-25 07:38:23 2008浏览 0点赞 0回复 0收藏
大模型到底会不会真的思考?这一疑问一直萦绕在人们心中。作为LLM的反对派YannLeCun又拿出了新证据。他参与的最新研究《FromTokenstoThoughts:HowLLMsandHumansTradeCompressionforMeaning》(从词元到思想:大模型与人类在压缩与意义之间的权衡)用信息论的全新视角,揭示了大语言模型(LLM)与人类在“理解世界”这件事上的本质差异。人类大脑在处理信息时,善于将纷繁复杂的感知和经验,压缩成简洁而有意义的“概念”。比如...
2025-06-12 06:47:53 1904浏览 0点赞 0回复 0收藏
在模型性能越来越强且趋同的大背景下,知识库、工具成为了AI应用的差异性壁垒。MCP就是规范Agent与工具的交互而产生。但MCP协议本身还比较简单,在实际生产中,Agent如何与海量的、异构的外部软件和服务进行有效、安全的连接与操作以及如何管理海量的MCPServer就是一大挑战。传统上为每个Agent单独开发和维护工具接口及认证逻辑的方式,其复杂性和低效性已成为制约AIAgent能力规模化扩展的因素之一。因此,针对这一挑战,很多公...
2025-05-30 05:01:19 1162浏览 0点赞 0回复 0收藏
在最近的文章中,笔者介绍了影响Context高质量供给的关键因素有记忆的存用和记忆的连贯性。而对记忆源信息(尤其是复杂文档)的深度理解是高质量Conext供给的又一大关键。传统的文本提取和分块方法,在面对图文混排、表格遍布的文档时,往往力不从心,生成的Context质量堪忧,这已成为提升RAG应用性能的一大瓶颈。我们都曾经历过这样的“噩梦”:精心构建的RAG系统,因为OCR识别错误、表格内容丢失、或者图片信息被忽略,导致LL...
2025-05-19 00:08:03 1822浏览 1点赞 0回复 1收藏
在最近文章中,笔者反复提到context的重要性(欢迎关注查阅)。而供给高质量的Context的关键就是记忆的存用和记忆的连贯性。mem0就是一个专注构建大模型记忆的项目,在此前文章也有介绍(​​​大模型的“记忆”不应仅仅只依靠向量数据库,mem0是一个很好的“融合架构”实践方向​​​)。在此之前它们推出一个插件(​​​Mem0上架chrome插件商店,把记忆交给AI!​​​)解决在一个工具里多次交流的长期记忆问题,最近OpenAI...
2025-05-16 06:52:06 2533浏览 0点赞 0回复 0收藏
近一阶段,强化学习成为进一步提升大模型能力的共识路径,这时候,你是不是也觉得,给大模型套上强化学习(RL)的缰绳,再用上那些能自动验证对错的奖励机制(RLVR),就能让它们像打了鸡血一样,推理能力蹭蹭往上涨,实现模型自我进化,“左脚踩右脚”不断飞升。然而,清华大学近期的一项研究《DoesReinforcementLearningReallyIncentivizeReasoningCapacityinLLMsBeyondtheBaseModel(强化学习真的会激励LLMs基模型之外的推理...
2025-04-30 06:31:43 1292浏览 0点赞 0回复 0收藏
还记得2023年初ChatGPT刚出来时,让它30秒写一个“冒泡排序”都觉得很新鲜?弹指之间,今天的AIagent已经能自主几分钟内啃下人类程序员需要一小时乃至一天才能完成的需求了。感觉AI进步太快跟不上?这可不是错觉。专注于AI能力评估的METR机构扔出重磅研究:AI系统能搞定的编码任务复杂度(以人类所需时间衡量)正以惊人的指数速度增长,其“时间范围”(TimeHorizon)——即AI能达到50%成功率的任务时长——大约每7个月就翻一番...
2025-04-30 06:29:32 2177浏览 0点赞 0回复 0收藏
目前,很多的使用MCP的案例都是基于Cursor,ClaudeDesktop等客户端展开的,那么如何在现有的系统里通过代码集成呢?今天,介绍一个很不错的MCP客户端库mcpuse,集成非常简单,仅需6行代码即可创建第一个支持MCP的Agent,可与任何支持工具调用的Langchain支持的LLM(OpenAI、Anthropic、Groq、LLama等)配合使用,不仅支持本地MCPServer,还支持sse协议下的远程MCP服务器,这样就可以和Dify这样框架集成(​​Dify也支持MCP了!...
2025-04-18 07:07:01 3238浏览 0点赞 0回复 0收藏
OpenAI发布了其最新的人工智能推理模型:o3和o4mini。o3被誉为该公司迄今“最强大的推理模型”,在数学、编程、推理、科学及视觉理解等多个基准测试中刷新了记录,尤其擅长处理需要多角度分析的复杂查询和视觉任务,并在实际应用中显著减少了错误。与此同时,o4mini作为一款更小巧、快速的模型,旨在提供具有竞争力的价格、速度和性能平衡。它在保持低成本的同时,在数学(如AIME基准测试近乎满分)、编程和视觉任务上表现卓越...
2025-04-18 06:57:38 2419浏览 0点赞 0回复 0收藏
最近,以deepSeekR1为代表的推理模型成为热点,他们可以展示自己的思考过程,一步步解决复杂的问题,让原本黑盒模型变得具有可解释性,同时也为AI安全研究提供了窗口,便于发现潜在的不良行为。但一个核心问题是:我们能相信AI思维链中呈现的内容吗?理想的思维链应既易懂又“忠诚”(Faithful),即真实反映模型的思考过程。然而,现实中我们无法保证这一点。模型可能无法用人类语言完全表达其内部决策,甚至可能故意隐藏部分...
2025-04-08 00:57:41 1818浏览 0点赞 0回复 0收藏
昨日,AI届“汪峰”Qwen团队发布了Qwen2.5VL32BInstruct,作为Qwen2.5VL系列模型的最新迭代,通过强化学习优化,以32B参数规模击败上代72B版本,展现出其更智能和轻量级的突出特点。较前代模型在以下方面有了显著改进:更符合人类偏好的回答:调整输出风格,提供更详细、格式更好的答案,更贴近人类偏好。数学推理能力提升:在解决复杂数学问题方面,准确性得到显著提高。精细图像理解和推理:在图像解析、内容识别和视觉逻辑推...
2025-03-26 00:48:45 3273浏览 0点赞 0回复 0收藏
获得成就
已积累 7.6w 人气
获得 1 个点赞
获得 3 次收藏