51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
信创认证
公众号矩阵
移动端
视频课
免费课
排行榜
短视频
直播课
软考学堂
全部课程
软考
信创认证
华为认证
厂商认证
IT技术
PMP项目管理
免费题库
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO软考
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
51CTO软考题库
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
首页
/
社区头条
社区头条
1138
篇优秀内容
2025年08月
刚刚!智谱发布全球首个手机通用Agent,人人免费,直接能用!
传说中“让手机自己动”的终极形态,来了!智谱今天发布了个为手机而生的Agent——AutoGLM2.0,只需要发出一句指令,它就能自动执行,直至完成任务。  最厉害的是,它所有操作都在云端完成——等于给你的手机配了一台云端备用机。你这边正常刷抖音回微信,它那边在云上默默干活,完全不抢本地算力、不占屏幕、不卡手机。其实早在去年,智谱就发布了AutoGLM1.0,但初级版本仍然需要完全占据手机,还算不上真正的自动化...
算家计算
1天前
0回复
1853浏览
AI-Agent
人工智能
算家云
租算力,到算家云
每日AI资讯
RAG精度瓶颈破局:结构化解析如何将知识库准确率拉满
在AI应用极速发展的当下,LLM与RAG系统已成为构建智能问答、知识管理等高阶应用的核心引擎。然而,许多团队在项目落地时遭遇了现实的挑战:模型的实际表现往往难以达到预期。究其根源,是一个常被低估的关键环节:文档解析的质量。现实中的知识载体——PDF报告、扫描文件、图文结合的技术文档——本质上是高度非结构化的。传统OCR工具就像个“近视的搬运工”,只能机械地把图像上的文字“抠”下来,当缺乏结构、语义断裂的“原...
大模型自然语言处理
1天前
0回复
659浏览
RAG
LLM
结构化解析
知识库
一文搞定:基于七牛云API的多模态Agent开发全流程
如果你是一位AI应用开发者,一定能感受到Agent的浪潮正席卷而来。但一个只会处理文本的Agent,在真实业务场景中往往能力受限。一个更强大的Agent需要具备多模态能力:能看懂用户上传的截图、听懂用户的语音留言,并能用自然的声音进行回复。传统的实现路径通常很复杂:开发者需要自行集成对象存储、OCR、ASR、大模型和TTS等多家供应商的API。这不仅开发流程繁琐,不同服务间的网络延迟和数据传输也会成为性能瓶颈。本文将提供一...
七牛云行业应用
1天前
0回复
825浏览
多模态AI
Agent
大模型应用
七牛云
AI客服
比真图更香?统一生成模型Echo-4o用GPT-4o合成数据“反哺”模型,多项SOTA,效果炸裂!
精华
文章链接:https:arxiv.orgpdf2508.09987项目链接:https:yejy53.github.ioEcho4oGit链接:https:github.comyejy53Echo4o数据集:https:huggingface.codatasetsYejy53Echo4oImage亮点直击分析并总结了合成数据相对于真实世界图像的优势,强调其能够生成罕见场景,并为指令跟随任务提供纯净、长尾分布的监督信号。Echo4oImage,一个包含18万样本的合成数据集,使用GPT4o生成,涵盖超现实场景、多参考生成和指令跟随任务。数据集...
zhangyannni
1天前
0回复
754浏览
AI
模型
图像生成
【TVM 教程】向 TVM 中添加 Codegen
原创
ApacheTVM是一个深度的深度学习编译框架,适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→随着深度学习工作负载所针对的硬件设备数量不断增加,用户在各种设备上实现高性能所需的知识也在不断增加。为了让数据科学家在开发新模型时不必担心性能问题,硬件厂商或是基于一些常见的深度学习算子,提供MKLDNN或cuDNN等库,或是提供TensorRT等框架,让用户按照某种方式描述模型,从而提高模型性能。然而,用户在尝试...
HyperAI超神经
1天前
0回复
321浏览
CPU
GPU
Relay
TVM
编译器
一文读懂LangGraph、AutoGen、Dify、AutoGPT、Agentforce等多种AI Agents工具框架平台
原创
精华
在数字化浪潮席卷的今天,企业每天都在重复性任务中消耗大量时间和资源。这些繁琐的工作不仅拖慢了效率,还阻碍了创新的脚步。传统的自动化工具虽然能处理简单的流程,但面对复杂多变的任务时,往往显得力不从心。而AIAgents(人工智能代理)的出现,正以其强大的适应性和决策能力,彻底改变这一局面。那么,2025年有哪些AIAgents工具和平台值得关注?如何选择适合自己的解决方案?本文将为你详细盘点,从开发框架到企业级平台...
Halo咯咯
20h前
0回复
403浏览
LangGraph
AutoGen
AI Agents
人工智能代理
算力投入超阿波罗登月!Anthropic联创:Claude没有刷榜水军!CC击败Cursor、MCP成功,秘诀在于把模型当用户
编辑伊风出品51CTO技术栈(微信号:blog51cto)ClaudeCode为什么能在市场上战胜Cursor?对于创业者来说,如何在API之上构建自己的产品,又不担心被大模型干掉?在最新一期播客里,Anthropic联合创始人TomBrown分享了ClaudeCode的成长故事。这款最初只是工程师BorisCherny为了方便自己和团队写的内部工具,如今却成长为一款年化营收约4亿美元的AI编程明星。“我们的转折点在于:把Claude本身当作用户来设计工具。就像我早期做社...
51CTO技术栈
18h前
0回复
207浏览
Anthropic
MCP
模型
在无服务器架构中部署实时机器学习模型:平衡延迟、成本与性能
原创
本文旨在探讨如何在无服务器环境中部署实时机器学习模型,并应对其间涉及的延迟、成本与性能平衡挑战。机器学习(ML)在诸如欺诈检测和个性化推荐等实时应用中变得越来越重要。由于其可扩展性以及消除了基础设施管理的工作量,这些应用对于在无服务器计算中部署极具吸引力。然而,将机器学习模型部署到无服务器环境中面临着延迟、成本和性能方面的独特挑战。在本文中,我们将详细阐述这些问题,并提供相应的解决方案,以实现实...
51CTO内容精选
20h前
0回复
230浏览
机器学习
ML
无服务器架构
一键搞定补帧+上色!神器ToonComposer让动画“动”起来、“靓”起来!效率飙升!
论文链接:https:arxiv.orgpdf2508.10881项目链接:https:lgli.github.ioprojecttooncomposer亮点直击后关键帧阶段(postkeyframingstage),一种新的卡通制作范式,将中间帧补全与上色整合为一个由AI驱动的流程,显著减少了人工工作量。ToonComposer,首个基于DiT的卡通生成模型,专为后关键帧阶段设计,结合稀疏草图注入与区域控制功能,能够从稀疏输入生成高质量的卡通视频。设计了一种基于SLRA的卡通适配机制,一种新颖的低...
zhangyannni
2天前
0回复
2859浏览
AI
视频生成
模型
世界模型的架构总结
原创
在开始前我们先来分析一下当下的AI技术发展路线:1.目前来看LLMMLLM等类似GPT的decoder架构仍是主流,各家更新一代比一代快;2.由sora带火的diffusionmodel类生成式模型还处于是否是“worldsimulator”的争议中悄悄发育;3.Deepmind、Meta、Nvidia等几家在“孤独地”推进世界模型,还没有真正进入大众视野应用。上述的路线中哪一条可能是真正可以在未来通往AGI的路呢?目前业内主要的观点还是第三种。Meta首席AI科学家YannLeCun...
shizhi02
2天前
0回复
782浏览
世界模型
LLM
MLLM
字节开源终身记忆多模态智能体,长时记忆+RL,实测超Gemini‑GPT4o!
嘿,大家好!这里是一个专注于前沿AI和智能体的频道字节又偷摸开源了,一个带记忆的Agent。看起来不稀奇,但是这可能全球首个带终身记忆更新的全多模态智能体。这玩意儿的核心,是给Agent装上了一个真正意义上的“长期记忆”大脑,能边看边听边记,还能像人一样推理总结。背后也不是靠堆参数,而是一套全新的关于记忆智能体的架构思想。所以,今天,给家人们分享一下这个工作。论文:https:arxiv.orgpdf2508.09736github:https:...
探索AGI
3天前
0回复
2310浏览
字节
开源
多模态
Liquid AI 再出手!LFM2-VL 把多模态 AI 装进手机与手表,推理速度翻倍
原创
过去几年,AI模型变得越来越“臃肿”,从云端到本地的落地,几乎都被算力、延迟、能耗卡住了脖子。要想在手机、手表、甚至嵌入式设备上跑一个多模态大模型?在很多人看来,这几乎是天方夜谭。但LiquidAI却不这么认为。这家由MITCSAIL前研究员创立的公司,刚刚发布了LFM2VL——一代全新的视觉语言基础模型,号称能在从智能手机、笔记本电脑到可穿戴设备的广泛硬件环境中高效运行,且延迟低、精度高、够灵活。他们的目标很明确:...
Halo咯咯
3天前
0回复
2651浏览
多模态
多模态AI模型
视觉-语言模型
自回归新王登基!NextStep-1强势登场,图像生成SOTA达成!高保真+强编辑,太能打了!
精华
文章链接:https:arxiv.orgpdf2508.10711项目链接:https:stepfun.airesearchennextstep1Git链接:https:github.comstepfunaiNextStep1亮点直击首创连续图像流匹配自回归架构:用轻量级流匹配头(157M)实现patchbypatch生成;摆脱传统扩散模型依赖,保持SOTA生成质量突破性高维隐空间稳定技术:创新通道归一化+随机扰动tokenizer设计;支持16通道高维空间稳定训练,无伪影生成统一的多模态生成编辑框架:单序列处理离散文本和连续...
zhangyannni
3天前
0回复
1811浏览
AI
图像生成
模型
《自然》期刊:大脑看世界的方式,竟与语言模型惊人一致
《自然》科学期刊一直站在人工智能与神经科学交汇的前沿,一项来自《NatureMachineIntelligence》的研究正悄然重塑我们对人类视觉系统的理解。8月7日,这篇题为《Highlevelvisualrepresentationsinthehumanbrainarealignedwithlargelanguagemodels》的论文,提出了一个令人振奋的命题:人类大脑在处理自然视觉场景时,其高级视觉表征竟然与大型语言模型(LLM)对场景字幕的嵌入向量高度一致。这不仅是一次跨模态的对齐尝试,更...
xuxiangda
6天前
0回复
606浏览
语言模型
大脑
像素
GLM-4.5V多模态核心架构设计和训练数据构建速览
原创
快速看一下GLM4.1V多模态方面架构和数据方面的特点。模型架构核心特点1、视觉编码器特点初始化模型:AIMv2Huge作为视觉编码器的基础。3D卷积适配:为提升视频处理效率,参考Qwen2VL的设计,将原始2D卷积替换为3D卷积。这一改动使视频输入的时间维度下采样2倍,减少计算量;对于单张图像,通过复制图像帧保持处理一致性。动态分辨率支持:a.引入2DRoPE到ViT的自注意力层,使模型能够处理极端宽高比(超过200:1)或高分辨率(4K以...
大模型自然语言处理
6天前
0回复
2778浏览
多模态
3秒检测准确率超90%,Ainnova Tech研发视网膜病变早筛平台,临床试验方案获FDA指导
原创
从《黄帝内经》中「视见青盲,如无所见」的记载,到现代医学对视网膜致盲风险的认知,人类对「眼睛与健康」的探索从未停歇。其中,视网膜病变是导致失明的主要原因之一,尤其是糖尿病性视网膜病变和视网膜色素变性。柳叶刀发表的全球疾病负担研究(GBDStudy2021)显示:2021年全球有5.29亿糖尿病患者,年龄标化患病率为6.1%。而其中,糖尿病视网膜病变的全球患病率约为40%。因此,数百万人受到中度或重度糖尿病视网膜病变的困扰...
HyperAI超神经
6天前
0回复
1079浏览
视网膜病变
智能诊断
FDA
病情早筛
只用16GB显存!GPT-OSS 20B挑战Qwen3 30B-A3B,谁更适合你?
原创
在大模型的演进赛道上,MixtureofExperts(MoE)架构正逐渐成为提升性能与降低推理成本的重要手段。2025年,阿里巴巴与OpenAI分别推出了代表性产品——Qwen330BA3B(2025年4月)与GPTOSS20B(2025年8月)。一个追求深度与专家多样性,一个强调宽度与推理效率——它们不仅在数字上差异明显,更在架构理念与应用场景上形成了鲜明对比。1.模型概览:参数规模与基础配置特性Qwen330BA3BGPTOSS20B总参数30.5B21B激活参数3.3B3.6B层数...
Halo咯咯
6天前
0回复
2710浏览
Qwen3 30B-A3B
GPT-OSS 20B
上下文长度
MoE架构
GPT-5 的可读性革命,从博弈到智能体的跃迁
精华
GPT5发布在即,根据奥特曼在内部演示中首次披露的GPT5实测数据,这一代模型不仅具备高达256K的上下文窗口,还展现出惊人的数学与编程能力。更令人瞩目的是其“智能模式切换”能力——在深度推理与快速响应之间自由切换,仿佛具备了某种“元认知”能力。这种表现并非偶然,而是源于其底层架构中引入了新的验证机制,被称为“UniversalVerifier”,其灵感正是来自一项前沿研究:ProverVerifierGame(PVG)。ProverVerifierGame让...
xuxiangda
6天前
0回复
1142浏览
GPT-5
可读性
智能体
AI 智能体到底是如何工作的?
原创
精华
本文是关于AI智能体的工作原理,我用了一个很形象的比喻——把AI智能体比作一个五层蛋糕,每一层都有特定的功能,信息在这些层之间流动,就像一个组织良好的协作团队一样。下文我们详细剖析之。一、AI智能体的5层技术架构剖析想象一下,AI智能体就像一个五层蛋糕,每一层都有特定的工作。信息在这几层之间上下流动,就像在繁忙的办公楼里传递消息一样。1、第一层:用户界面你的前门这是你和AI智能体相遇的地方,就像酒店的前台...
玄姐聊AGI
6天前
0回复
1191浏览
AI 智能体
AI 大模型
大模型应用
编辑快到飞起!InstantEdit重构图像编辑:文字描述秒变PS指令,原图细节纹丝不动!
文章链接:https:arxiv.orgpdf2508.06033Git链接:https:github.comSupercomputingSystemAILabInstantEdit亮点直击少步高效编辑:首次在RectifiedFlow框架下实现8步高质量图像编辑,速度接近实时交互需求。创新反转与生成技术:提出PerRFI和ILI,解决少步扩散模型的反转不准确和生成不一致问题。解耦与结构控制:通过DPG和ControlNet的联合应用,实现编辑区域的精准定位与全局结构保持,显著提升可控性。总结速览解决的问题计算...
zhangyannni
6天前
0回复
977浏览
AI
图像生成
模型
1
2
3
4
5
6
7
8
9
10
57
客服