51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
信创认证
公众号矩阵
移动端
视频课
免费课
排行榜
短视频
直播课
软考学堂
全部课程
软考
信创认证
华为认证
厂商认证
IT技术
PMP项目管理
免费题库
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO软考
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
51CTO软考题库
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
我的关注
全部帖子
默认
发布时间
热度
原创
精华
热门标签
AI
DeepSeek
LLM
国内流畅使用GPT-5、Gemini2.5教程,手把手教你将Poe API集成到CherryStudio
原创
精华
社区头条
当今世界,大模型哪家强?我认为现在是群雄逐鹿的时候,虽然在编程等一些垂直领域,Claude4稳坐第一把交椅,但是最后的赢家,未必就是它。作为AI用户,当然要积极享受当前的AI红利,不要将自己局限在某个平台,尽量的多去了解每个大模型的脾气和秉性,为后面创建智能体或者打造自己的AI数字员工,选择合适的大脑引擎。我目前创意和文案的主力模型是Gemini2.5Pro和腾讯元宝的DeepSeekR1,编程主力是Trae国际版的Claude4。为了能够...
九歌AI大模型
0回复
3490浏览
GPT-5
Gemini2.5
DeepSeek R1
AI 智能体架构设计三阶段演进
原创
精华
就像指挥家引导乐团一样,从独奏表演者到同步合奏。人类将领导企业AI智能体经历三个进化阶段——单一智能体架构、多智能体协作架构、智能体编排架构。下文我们详细剖析之。企业AI智能体架构设计三个阶段正如音乐从单音符旋律演变为复杂的交响乐,AI智能体正从独奏表演者发展到编排合奏。每个阶段都建立在前一个阶段之上,在企业环境中创造出更丰富、更细致的互动。阶段1:“单一智能体”——专业贡献者在智能体演变的第一阶段,...
玄姐聊AGI
0回复
1769浏览
AI智能体
智能体架构设计
单一智能体
北森发布AI Family 2.0,AI已覆盖500+客户应用,重新定义HR的工作方式
原创
8月28日,北森第三届用户英雄大会在上海成功举办。本次大会以“一起迈入HR的AI时代”为主题,汇聚40余位行业大咖、2000多名HR从业者,共同探讨AI在人力资源领域的前沿应用。大会上,北森正式发布AIFamily2.0,10大AI助手、500+AI特性全面覆盖50多个人力场景,重新定义HR的工作方式。一、500+客户成功验证,北森AI商业化已在行业内全面领先2024年,北森率先发布AIFamily7大AI助手,开启HR领域的AI商业化探索。截至2025年8月,北...
北森云计算
0回复
1542浏览
HR
强化学习的“GPT-3 时刻”即将到来
原创
编者按:强化学习能否像GPT3改变自然语言处理那样,通过大规模扩展实现质的飞跃?为什么强化学习至今仍困在“先预训练,再微调”的传统模式中?为什么即使是最先进的RL模型,一旦脱离训练环境就变得如此脆弱?无论是自动驾驶、机器人控制,还是复杂系统优化,我们都需要能够快速适应新任务、具备真正泛化能力的智能体。然而当前的RL模型就像是“高分低能”的应试选手——在熟悉的测试环境中表现优异,但面对真实世界的复杂性时...
Baihai_IDP
0回复
1184浏览
强化学习
AI
LLM
智能运维新实践:Prometheus 与 DeepSeek 联动实现告警自动分析
原创
社区头条
前阵子,一位运维学员向我倾诉了他的困扰:日常工作中,Prometheus虽能精准捕捉系统参数异常并告警,但生成的报警信息往往只是冰冷的指标数据。每次遇到异常,他都得手动把这些信息复制粘贴到DeepSeek里去询问分析建议,不仅操作繁琐,后续也难形成规整的存档用于技术沉淀。要是能让报警后自动生成带分析的智能报表,那该多方便高效啊!在充分了解他的这一需求后,我给出了一套解决方案——借助PrometheusServer与Alertmanager...
51CTO内容精选
0回复
1838浏览
Prometheus
DeepSeek
告警机制
碾压SOTA!腾讯HunyuanVideo-Foley开源:让视频自动生成电影级音效,沉浸感拉满!
精华
文章链接:https:arxiv.orgabs2508.16930项目链接:https:szczesnys.github.iohunyuanvideofoley亮点直击提出了一种高效的TV2A数据pipeline,能够自动整理包含10万小时级别文本视频音频对的大规模高质量数据集。引入了一种REPA损失函数,利用预训练音频特征为音频建模过程提供语义和声学指导,有效提升音频生成质量与稳定性。提出了HunyuanVideoFoley,一种新颖的TV2A框架,能够从视频和文本输入生成高质量、语义和时序对齐的音...
zhangyannni
0回复
2483浏览
AI
训练
模型
具身智能迎来“视觉革命”,阿里达摩院RynnEC实现像素级交互理解,机器人从此“眼明心亮”!
社区头条
论文链接:https:arxiv.orgpdf2508.14160Git链接:https:github.comalibabadamoacademyRynnEC亮点直击RynnEC,一个旨在增强机器人对物理世界理解能力的具身认知型多模态大语言模型。提出了一条数据生成流程,将自我中心的RGB视频转换为具身认知问答数据集。构建了一个细粒度的具身认知基准数据集RynnECBench,涵盖了22项物体与空间认知任务。大量实验证明,在具身场景中的认知能力方面,RynnEC显著优于通用型MLLM(如GPT4o等)...
zhangyannni
0回复
2320浏览
AI
视频生成
智能
关于大模型常见参数的说明,以及在OpenAI标准下的不同厂商的参数兼容性问题
原创
“理解模型的API参数,是我们使用好模型的前提,这也是很多人搞不明白为什么我配置了参数却没什么用,原因就是对不同模型厂商的参数理解不彻底。”关于大模型的使用问题,其参数是其中非常重要的一个环节,原因就在于大模型的具体表现是由这些参数控制的;比如说temperature就是用来控制模型的发散性参数。temperature的值越小,其输出的文本更确定,更适合对准确性要求更高的场景;其值越大,模型发散性越高,更适合情感,写作...
AI探索时代
0回复
1998浏览
大模型
大模型应用
Qwen-Image-Edit发布:图像编辑终于能“懂语义+改细节”了
原创
在AI快速重塑创作方式的当下,一张图片的生成已经不再稀奇,真正难的是如何在已有图像上进行精准、自然且语义一致的修改。比如,能否只改动画面的一部分,却让整体依然协调?能否在不破坏细节的情况下,把一幅画换个角度重现?又能否在海报里修改中英文文字,同时保持原有的字体和排版?这正是阿里巴巴Qwen团队在2025年8月推出的QwenImageEdit想要解决的问题。它基于QwenImage(200亿参数)进化而来,定位为一款指令驱动的图像...
Halo咯咯
0回复
6634浏览
图像编辑模型
阿里巴巴
Qwen
AI绘画
为什么说 RAG 2.0 是知识密集型 AI 的关键拐点?
原创
过去两年,大语言模型(LLM)凭借惊艳的生成能力频频“刷屏”。然而,它们也有一个绕不过去的痛点:缺乏最新的知识和上下文。这导致模型在回答专业问题时经常出现“答非所问”,甚至产生幻觉。为了解决这一问题,业界提出了RAG(RetrievalAugmentedGeneration,检索增强生成)。它通过将外部知识库与大模型结合,为生成过程提供“检索到的事实依据”,从而显著提升回答的准确性与可靠性。但今天,我们要聊的不是传统意义上的RAG...
Halo咯咯
0回复
1339浏览
RAG
大语言模型
LLM
Ovis2.5:多模态大模型的进化之路
原创
随着人工智能技术的飞速发展,多模态大语言模型(MLLMs)已成为AI领域的重要研究方向。这类模型能够同时处理文本、图像、视频等多种模态的信息,为实现通用人工智能奠定了重要基础。近日,阿里巴巴集团的Ovis团队发布了最新的Ovis2.5技术报告,展示了在多模态理解和推理方面的显著进步。本文将深入解析Ovis2.5的技术创新、架构设计以及性能表现,探讨其在多模态AI领域的重要意义。1.Ovis发展之路Ovis系列模型的发展体现了多模态...
鲁班模锤1
0回复
1585浏览
Ovis2.5
多模态
大模型
LFM2-VL:端侧高效的视觉语言模型
原创
现有的大多数视觉语言模型都面临着一个共同的挑战:如何在保持高性能的同时,实现更高的计算效率和更快的推理速度。近日,LiquidAI公司发布了其首个视觉语言基础模型系列——LFM2VL,这一创新产品专为低延迟和设备感知部署而设计。LFM2VL扩展了LFM2系列开源基础模型到视觉语言空间,支持可变分辨率的文本和图像输入。当前市场上的主流视觉语言模型虽然在精度上表现出色,但往往需要大量的计算资源,难以在移动设备、边缘计算设...
鲁班模锤1
0回复
1783浏览
LFM2-VL
视觉
语言模型
最近吃的太好了,要不然DeepSeek V3.1不能被喷成这样!附V3.1的一些细节
也许是最近开源模型太多(Qwen3、K2、Step3、GLM4.5等等),也许是大家等R2时间太久,DeepSeek开源V3.1模型,竟然能被狂喷,这点我是没有想到的。如果说是APP、客户端,那没办法,毕竟DS的显卡资源有限,我反正能理解。API的话,就真不至于,因为DeepSeekV3.1模型本身就开源,完全可以自己部署之前版本,或者用火山引擎、阿里百炼、硅基流动等等等云模型厂商的老版本API。然后从昨晚到今天,也是看了不少帖子,褒贬不一。跟不少...
NLP工作站
0回复
2915浏览
DeepSeek V3.1
模型
GLM4.5
GPT-5空间智能评估:SOTA表现与人类水平差距分析
论文(HasGPT5AchievedSpatialIntelligenceAnEmpiricalStudy)为多模态模型提出了空间智能(SI)的统一视角,并在八个全新的SI基准测试中评估了GPT5及其他强基线模型。GPT5在整体表现上领先,但仍未达到人类水平,特别是在心理重构形状、变换视角以及变形组装任务方面存在明显不足。图片统一的SI框架与公平评估设置:论文将先前工作整合为六项核心SI能力(度量测量、心理重构、空间关系、视角转换、变形与组装、综合推理),并标...
sbf_2000
0回复
1265浏览
GPT-5
SOTA
模型
智能置信度过滤:让大模型推理既准确又高效的DeepConf方法
DeepConf使用模型自身的token置信度来保留其最强的推理,在GPTOSS120B上相比标准并行思考减少了高达84.7%的token消耗。大多数系统仍然依赖于带有多数投票的自一致性,这虽然提高了准确率但收益递减,同时消耗大量token。图片论文([DeepThinkwithConfidence](https:arxiv.orgabs2508.15260v1))核心思想:DeepConf是一种测试时方法,它对模型推理进行局部置信度评分,过滤掉弱推理轨迹,通常能在减少token消耗的同时提高准确率,...
sbf_2000
0回复
2014浏览
大模型
DeepConf
智能
MIRAGE:并行图检索增强推理链扩展Test-Time推理
论文(MIRAGE:ScalingTestTimeInferencewithParallelGraphRetrievalAugmentedReasoningChains)介绍了一个TestTime(后面使用“测试时”来翻译)推理框架,将单一线性链替换为多个并行的、基于实体的医学知识图谱链。MIRAGE将查询分解为子问题,在锚点和桥接模式下运行自适应图检索,然后通过跨链验证来协调答案,相比线性ToT或以网络为中心的代理RAG,能获得更高的准确性和更清晰的来源追溯。基于图的检索在处理复杂数据的众多应...
sbf_2000
0回复
1126浏览
MIRAGE
Test-Time
并行图检
再看OpenAI PaperBench:Agent离独立复现AI论文还有多远?
今天分享一篇来自OpenAI的文章,Title:PaperBench:EvaluatingAI'sAbilitytoReplicateAIResearch(PaperBench:评估AI复现AI研究的能力)。这篇文章提出了一个名为PaperBench的全新基准测试,旨在评估AIAgents(AIagents)从零开始复现顶尖AI研究论文的能力。这项任务极具挑战性,要求AIAgents理解论文、从头编写代码、并成功运行实验以复现结果。该方法的核心贡献是:1)数据集:精选了20篇ICML2024的Spotlight和Oral论文作为复现...
arnoldzhw
0回复
1082浏览
Agent
AI
OpenAI
一篇Copilot、Cursor、Claude Code三代产品背后AI Code技术最新全面综述
由LLM驱动的代码生成智能体正在革新软件开发范式,北大对该领域进行了系统的综述(论文、仓库链接在文末)。太长不看版维度现状挑战未来能力单函数→仓库级代码;单Agent→多Agent协作领域知识、意图理解、长程依赖、多模态持续学习、人机混合、意图结果闭环工程GitHubCopilot→Cursor→ClaudeCode三代产品幻觉级联、工具安全、成本爆炸轻量化、可信执行、动态工具链评测HumanEval→SWEBench→SECBench维度单一、场景失真、成本...
PaperAgent
0回复
3015浏览
Copilot
Cursor
AI
LLM遇上表格:4类表示、5大任务、3大机会
1.表格让大模型头疼?文本是线性的,而表格是二维、结构多变、目的多样的——从严谨的数据库到多层嵌套的Excel,再到Wikipedia的Infobox。把LLM处理表格的“痛苦”总结为三点:痛点概况任务单一90%的Benchmark都在考「检索+简单数学」,真正需要推理的很少输入复杂就崩长表、多表、层级表、跨文档表,人类80+分,SOTA模型50分不到表示不统一同一张表换个JSONHTMLMarkdown,性能就能掉5个点左侧用TextToSql可解决,相比之下,右...
PaperAgent
0回复
1551浏览
LLM
表格
Text-to-SQL
一篇3大类、283个 LLM 评测基准的最新综述
随着GPT4、Qwen3、Llama3等超大规模模型出现,传统GLUESuperGLUE已无法覆盖语言模型的能力边界,亟需新的评估体系。核心痛点:数据污染导致分数虚高;文化语言偏差带来不公平评估;过程可信性与动态环境缺失。中国科学院&中科大&华南理工大学&哈工大等等。整体框架速览图1:283个代表性基准的时间轴,纵览20182025的评估演进。三大类别覆盖维度代表基准通用能力语言核心、知识、推理GLUE,MMLU,BIGBench,ChatbotArena领域特化自...
PaperAgent
0回复
3008浏览
LLM
评测
基准
暂无内容
1
36
37
38
39
40
41
42
43
44
客服