51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
信创认证
公众号矩阵
移动端
视频课
免费课
排行榜
短视频
直播课
软考学堂
全部课程
软考
信创认证
华为认证
厂商认证
IT技术
PMP项目管理
免费题库
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO软考
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
51CTO软考题库
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
我的关注
全部帖子
默认
发布时间
热度
原创
精华
热门标签
AI
DeepSeek
LLM
LangGraph+DAG 最佳实践:DeerFlow如何用有向无环图实现高效工作流编排?
原创
精华
系统架构DeerFlow构建了一个基于LangGraph的模块化多智能体研究系统,专门针对自动化研究和代码分析场景进行优化。系统采用状态驱动的工作流架构,通过标准化的消息传递协议实现组件间的高效协作。最近建了langchain&langgrapg智能体开发交流群,感兴趣的朋友可以点赞关注后入群交流架构核心特性状态驱动工作流:基于LangGraph的有向无环图(DAG)架构,支持复杂的条件分支和并行执行多智能体协作:专业化智能体通过角色分工实...
AI博物院
1回复
2420浏览
LangGraph
DAG
DeerFlow
超越RPA:Gemini 2.5带来的“视觉+操作”自动化新范式
社区头条
当我们谈论具身智能(EmbodiedAI)时,脑海中浮现的往往是那些能够在物理世界中行动的机器人。然而,谷歌DeepMind近期发布的Gemini2.5ComputerUse模型,正向我们揭示具身智能的另一种深刻形态——一个在数字世界中,拥有了“眼睛”和“手”的软件化身。这一技术突破的核心,是让AIAgent不再仅仅活在由代码和API构成的抽象世界里,而是能够像人类一样,直接感知和操作我们每天都在使用的图形用户界面(GUI),从而在软件层面,实...
七牛云行业应用
0回复
1286浏览
数字具身智能
AIAgent
GUI交互
多模态AI
Gemini
颠覆UI自动化:Gemini 2.5 Computer Use的技术与商业价值
长期以来,人工智能Agent(智能体)的活动范围,似乎一直局限于代码和API的数字世界。它们能理解语言、生成内容、调用接口,但始终无法像人类一样,直观地与我们每天都在使用的图形用户界面(GUI)进行交互。然而,谷歌DeepMind近期发布的Gemini2.5ComputerUse模型,正打破这一壁垒。这一技术突破,标志着AIAgent首次拥有了直接“看到”并“操作”计算机屏幕的能力。它不再需要开发者预先为其编写好接口,而是能像一个真实的用...
七牛云行业应用
0回复
895浏览
AI智能体
Gemini
GoogleDeepMind
人机交互
UI自动化测试
告别“无脑”生成!VChain视频推理链:仅靠几个关键帧,自动拍出因果清晰的“电影级”短片
社区头条
热门内容榜
• 最近上榜
文章链接:https:arxiv.orgpdf2510.05094项目链接:https:eyelinelabs.github.ioVChaingit链接:https:github.comEyelineLabsVChain亮点直击VChain,一种利用多模态大模型的视觉思维链(chainofvisualthought)来将高层推理引入视频生成的新框架。设计了视觉思维推理(VisualThoughtReasoning)流程,这是一个由GPT引导的流程,用于合成稀疏且具有因果基础的关键帧,以指导视频生成。大量实验表明,在这些关键帧上进行稀疏监...
zhangyannni
0回复
3346浏览
AI
视频生成
框架
世界知识赋能文生图模型!港科大开源World-To-Image:自己上网搜图学习,准确率飙升8%!
热门内容榜
• 最近上榜
文章链接:https:arxiv.orgpdf2510.04201Git链接:https:github.commhsonkyleWorldToImage效果展示亮点直击智能体式优化框架。提出了一种诊断与选择智能体,它在语义分解、概念替换和基于网页证据的多模态对齐之间进行选择。面向T2I的世界知识注入。将提示词优化扩展到文本之外,通过整合图像检索与条件生成来处理新概念,在无需重新训练的情况下实现语义保真度SOTA。总结速览解决的问题T2I模型的知识时效性问题:由于预训练数...
zhangyannni
0回复
1967浏览
AI
图像生成
模型
大模型不会用工具?人大Tool-Light:不存在的!
大语言模型(LLM)通过借助外部工具推理(TIR),能够完成许多超越自身固有知识和能力的任务。然而,未经专门训练的LLM在调用外部工具时,往往会出现许多次优行为。如何让LLM高效准确地完成TIR任务仍是一个开放性的挑战。为了解决这一问题,人大提出了ToolLight,这是一个旨在鼓励LLMs高效准确地执行TIR任务的框架。在十个具有挑战性的数据集上的测试结果充分说明了ToolLight的有效性,它能够显著提高模型执行TIR任务的效率。论...
PaperAgent
0回复
691浏览
大模型
Tool-Light
TIR
断档领先16%,清华Tree-KG两步「长」出高质量知识图谱
为什么又要造一个新的KG框架?传统方法痛点TreeKG的对策规则监督系统:标注贵、迁移差零标注,直接读教材通用LLM抽取:结构混乱、难扩展先搭“目录树”骨架,再迭代扩枝快速演化领域:增量更新难预设6种算子,新文献即插即合并整体流程:两阶段“种树”框架总览阶段输入核心动作输出Phase1显式骨架教材PDF目录解析→自底向上摘要→实体关系抽取树状层级图(章节实体)Phase2隐式扩展骨架+新文献6大算子循环:卷积→聚合→嵌入→...
PaperAgent
0回复
2032浏览
Tree-KG
KG 框架
上下文卷积
一篇大模型Agentic框架到应用最新综述
社区头条
热门内容榜
• 最近上榜
首篇系统拆解“大模型Agentic推理框架”的综述:不聊训练,只聊“怎么把LLM组织成会思考、会协作、会调工具的Agent”,并横跨科学发现、医疗、软件工程、社会经济模拟四大战场,给出统一语言、统一视角、统一评测。为什么值得关注?图1:LLM代理框架论文&引用爆发式增长(2023起跳)维度过去这篇综述视角模型中心(怎么训)框架中心(怎么搭)分类零散案例三级递进taxonomy评测各玩各的跨领域统一指标数据集场景单点应用4大场景...
PaperAgent
0回复
4000浏览
Agentic
框架
LLM
未来战争——人工智能如何改变战争规则
AI进入军事的必然趋势当今的军事环境,已经远远超越了传统的“钢铁与火药”的对抗。网络攻击、电磁干扰与动能打击交织在一起,构成了一个高度复杂的作战生态。敌手可能在毫秒之间切换战术,从网络渗透到电子压制,再到无人机群的突袭。这种多维度的威胁格局,迫使各国防务体系必须寻找新的技术手段来保持优势。人工智能正是在这样的背景下被推向前台。它已经在军事中展现出强大的应用潜力,通过传感器融合,AI能够在海量数据中...
xuxiangda
0回复
859浏览
人工智能
战争
AI
人工智能开始理解和预测人的意图
人工智能要真正走进人类社会,光会下棋、写诗、画画、制作视频还远远不够。真正的挑战在于它能否理解我们在想什么、为什么这么做,并在关键时刻做出合理的预测。换句话说,AI不仅要“聪明”,还要“懂人”。这就是所谓的社会智能AI。现有的方法在这条路上并不顺利。最常见的“行为克隆”(BehaviorCloning,BC)就像小学生抄作业,见过的题能做,换个场景就傻眼。逆向强化学习(InverseReinforcementLearning,IRL)则是另一种极...
xuxiangda
0回复
660浏览
人工智能
ROTE
算法
AI闯入物理奥赛赛场?PhysicsMiniions协同进化多模态多智能体系统在物理奥赛中的突破
在全球科学教育的舞台上,国际物理奥林匹克(IPhO)与亚洲物理奥林匹克(APhO)无疑是最具含金量的赛事之一。它们不仅是中学生物理学习的最高殿堂,更是各国顶尖年轻学者展示思维深度与创造力的竞技场。能够在这些赛事中摘得金牌,往往意味着参赛者已具备接近大学科研水平的物理素养与跨学科能力。人工智能在这一领域的表现却长期受限,传统大语言模型虽然在自然语言处理和部分数学推理上展现出惊人的能力,但一旦面对奥赛题目...
xuxiangda
0回复
1304浏览
AI
PhysicsMiniions
多模态
从动态规划到神经推理:Google DeepMind首次将神经算法推理拓展到伪多项式问题的实证研究
在人工智能的诸多分支中,“神经算法推理”(NeuralAlgorithmicReasoning,简称NAR)是一个既年轻又野心勃勃的方向。它的核心思想很直接——让神经网络不仅学会“看”数据,还能像经典算法那样一步步推理、执行中间步骤,从而具备可解释、可泛化的解题能力。与传统的端到端预测不同,NAR会在训练中显式模仿算法的中间状态,例如动态规划表、搜索树节点或排序过程,让模型在结构化的推理轨道上前进。在学术界,CLRS30基准是NAR研...
xuxiangda
0回复
1468浏览
神经算法
人工智能
NAR
Anthropic发布Agent SDK,截胡 OpenAI
热门内容榜
• 最近上榜
OpenAI的AgentBuilder消息先在网上传开,TestingCatalog爆料已经试用过这个可视化工作流工具。就在大家都在等凌晨OpenAIDevDay正式发布时,Anthropic突然宣布把ClaudeCodeSDK改名为ClaudeAgentSDK,抢先发布了完整的智能体开发框架。这个时机选得很微妙,颇有点“截胡”的味道。Anthropic显然不想让OpenAI独占智能体平台的话语权。AgentfeedbackloopClaudeAgentSDK的核心理念是"给AI一台电脑"。整个工作流程遵循一个循环:收集...
Syrupup
0回复
996浏览
Anthropic
OpenAI
AI
Pepper:开源版的 ChatGPT Pulse
想要学习如何实现类似于ChatGPTPulse那种主动式、实时响应的AI助手的能力,这个名叫Pepper的项目可以学习一下。从架构图可以看出,与传统的请求响应模式完全不同,Pepper采用了主动式的智能体循环,它能够:主动抓取并总结新邮件提前准备相关背景信息持续跟进分配的任务技术亮点Pepper的几个核心特性让它脱颖而出:实时事件驱动架构:不是等你来问,而是主动监听各种事件并作出响应。比如新邮件到了,它会立即开始处理。异步工...
Syrupup
0回复
1313浏览
Pepper
ChatGPT
Pulse
代理可观测性实战指南:让你的 AI 稳定、合规、可控
过去两年,AI代理(AIAgent)迅速从概念走向应用:它们能规划、调用工具、读写记忆,再生成输出,俨然成为一个“能干活的数字员工”。但问题随之而来——不稳定、难调试、结果难以解释。同样的输入,今天答对了,明天可能又跑偏;调用外部API时,失败率居高不下;更令人头疼的是,出了问题,你根本不知道它到底卡在哪一步。这就是为什么“代理可观测性(AgentObservability)”成为必备能力。它并不是一个炫酷的新功能,而是一...
Halo咯咯
0回复
905浏览
AI 代理
AI Agent
代理可观测性
微软开源 VibeVoice-1.5B:90分钟多角色语音合成,让TTS进入“长音频时代”
原创
热门内容榜
• 最近上榜
过去几年,AI语音合成(TTS,TexttoSpeech)技术突飞猛进。从最初僵硬的机器人腔,到今天能表达情绪、模仿语气的自然人声,TTS已经悄悄渗透进播客、客服、教育培训乃至短视频配音等场景。然而,绝大多数开源TTS模型仍然存在两大硬伤:一是时长受限,通常难以生成超过几分钟的连贯语音;二是角色单一,很难在同一段音频里自然呈现多位说话人。微软最新开源的VibeVoice1.5B正是在这两个痛点上给出了突破性答案:它能一次性合成长达...
Halo咯咯
0回复
4341浏览
微软
开源
VibeVoice-1.5B
多角色语音合成
AI语音合成
mmBERT:3万亿词训练出的新一代多语言编码器,速度快 4 倍,还能照顾到冷门语言
原创
热门内容榜
• 最近上榜
还记得XLMRoBERTa(XLMR)吗?这款模型几乎统治了多语言NLP领域长达6年,成为搜索、分类、推荐等系统背后的“隐形基石”。但在这段时间里,生成式大模型(ChatGPT、Gemini)成了焦点,编码器似乎被遗忘。然而,编码器并没有过时,它在嵌入检索、相似度计算、多语言理解等场景里,依旧比解码器更高效。最近,约翰·霍普金斯大学团队发布了mmBERT,一款基于3万亿Token、覆盖1833种语言训练的全新编码器。它不仅超过了XLMR,还能和...
Halo咯咯
0回复
2101浏览
mmBERT
多语言编码器
多模态文档理解视觉token剪枝思路
原创
多模态大模型VLMs视觉token数量多会影响推理的计算性能,也有相关工作在token压缩上进行了研究,token剪枝是与token压缩不同的提高计算性能的另一种方法,下面来看一个专为文档理解设计的剪枝思路,在多模态文档理解场景的视觉token的剪枝工作,目标是在VLMs处理文档图像前,提前过滤无信息背景区域,以降低计算成本同时保持文档理解性能。如上图框架三个组件:二值文本区域分类器(绿色)、保持索引的token剪枝(蓝色)以及一...
大模型自然语言处理
0回复
616浏览
多模态文档
简单可拓展:思考增强预训练数据生成策略及相关实验结论
原创
ThinkingAugmentedPreTraining(TPT,思考增强预训练)提出源于当前LLM训练的两大核心瓶颈,这也是方法设计的出发点:高质量数据耗尽:LLM训练依赖海量数据(如最新开源模型已用10万亿Token),但人类创作的高质量Web数据已接近枯竭,继续扩大数据规模成本极高;高价值Token难学习:部分关键Token(如数学题答案“890”、逻辑推理结论)背后依赖复杂的多步推理(如多项式除法、余数定理),固定模型容量下,直接学习这类Token只...
大模型自然语言处理
0回复
858浏览
LLM
TPT
思考增强预训练
AI 智能体企业落地,其实90%都是工程架构设计,只有10%才是真正的 AI 大模型
原创
越来越多企业已经落地AI智能体应用,我们会不约而同的发现,AI智能体应用在企业落地90%的工作都是工程架构设计(软件工程),只有10%是真正的AI大模型。AI智能体在企业落地中的每一个组件都是模块化的,而且逐步达成到了行业标准:比如:LangChain、SpringAIAlibaba开发编排框架,MCP通信交互协议等等,这些构成了AI智能体的生态系统。AI智能体应用落地的生态系统包含14层,从下到上分别为:CPUGPU提供商层、基础设施基础层、数...
玄姐聊AGI
0回复
911浏览
AI智能体
大模型
AI大模型应用
暂无内容
1
10
11
12
13
14
15
16
17
18
客服