51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
信创认证
公众号矩阵
移动端
视频课
免费课
排行榜
短视频
直播课
软考学堂
全部课程
软考
信创认证
华为认证
厂商认证
IT技术
PMP项目管理
免费题库
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO软考
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
51CTO软考题库
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
我的关注
全部帖子
默认
发布时间
热度
原创
精华
热门标签
AI
智能体
GPT-5
AI镜头控制黑科技喜提多项SOTA!浙大&上交等发布统一多模态视频生成框架OmniCam
文章地址:https:arxiv.orgpdf2504.02312图1:OmniCam概述。鉴于内容参考和轨迹引导的不同形式,OmniCam通过相机运动控制生成高质量的视频序列。具体而言,OmniCam集成了内容(如图像或视频)和轨迹(如文本指令或视频中的相机运动)参考的各种组合。这种方法使OmniCam能够准确合成与用户指定输入一致的视频亮点直击提出了OmniCam模型,该模型支持复杂灵活的控制,允许帧级控制,通过多模态实现轨迹控制,并能处理多模态数据。...
angel
0回复
2268浏览
视频
生成
AI
GenAI红队:将LLM置于网络安全测试中的技巧和技术
原创
从头构建一个GenAI红队,或者让现有的红队适应新技术是一个复杂的过程,OWASP在其最新指南中帮助阐释了这一过程。红队是测试和支持网络安全系统的一种有效方法,但它仍需适应技术的发展而不断完善。近年来,生成式人工智能(GenAI)和大型语言模型(LLM)的爆炸式增长正迫使红队世界适应。监管和管理机构对AI相关红队的重视,包括欧盟的《人工智能法案》和美国国家标准与技术研究院(NIST)的人工智能风险管理框架,突显了它的...
51CTO内容精选
0回复
2028浏览
LLM
GenAI
生成式人工智能
AI智能体融合时代 数据隐私安全的“守护之道”
原创
随着AIAgent的广泛应用,大语言模型时代的人机交互也将升级人类与AIAgent的自动化合作体系。这种新型人机合作可以称之为人机智能体,它将推动人类社会的生产结构进一步升级,进而影响社会的各个方面。智能体融合AIAgent可以让LLM从“超级大脑”进化为人类的“全能助手”,这意味着基于LLM的Agent助手以后将会服务更多的人与组织。同时,一个具备交流能力并能自主自动执行任务的智能网络将是互联网的下一阶段,AIAgent将是人类与...
数字化助推器
0回复
2037浏览
AI智能体
数据隐私安全
一文读懂AI智能体融合与数据隐私安全问题
原创
随着AIAgent的广泛应用,大语言模型时代的人机交互也将升级人类与AIAgent的自动化合作体系。这种新型人机合作可以称之为人机智能体,它将推动人类社会的生产结构进一步升级,进而影响社会的各个方面。智能体融合AIAgent可以让LLM从“超级大脑”进化为人类的“全能助手”,这意味着基于LLM的Agent助手以后将会服务更多的人与组织。同时,一个具备交流能力并能自主自动执行任务的智能网络将是互联网的下一阶段,AIAgent将是人类与...
数字化助推器
0回复
2384浏览
AI智能体
数据隐私安全
你了解大模型的生态体系吗?大模型从技术到应用的内容梳理
原创
“神经网络技术从理论到应用是一个庞大的体系,我们需要知道的是这个体系是怎么构成的,每一层都有哪些内容”关于大模型我想很多人都会有这样或那样的问题,最基础的就是不知道大模型是什么,技术场景和业务场景分不清楚;也不知道大模型有哪些能力,然后利用大模型能做些什么。因此,今天我们就来梳理一下大模型体系,从技术到应用之间的关系,以及各个环节所涉及到的技术。大模型体系——从技术到应用大家之所以搞不明白大模...
AI探索时代
0回复
1897浏览
大模型
十大PDF解析工具在不同文档类别中的比较研究
原创
十大PDF解析工具总结PDF解析对于包括文档分类、信息提取和检索在内的多种自然语言处理任务至关重要,尤其是RAG的背景下。尽管存在各种PDF解析工具,但它们在不同文档类型中的有效性仍缺乏充分研究,尤其是超出学术文档范畴。通过使用DocLayNet数据集,比较10款流行的PDF解析工具在6种文档类别中的表现,以填补这一空白。这些工具包括PyPDF、pdfminer.six、PyMuPDF、pdfplumber、pypdflum2、Unstructured、Tabula、Camelot以及基...
大模型自然语言处理
0回复
2611浏览
PDF
文档智能
RAG
不再只是建议:Augment Agent 想成为真正帮你干活的 AI 开发伙伴!
如果你觉得GitHubCopilot这样的AI助手已经很酷了,那请坐稳扶好,因为AI发展的下一波浪潮——AIAgent(智能体)——正汹涌而来。今天,我们要聊的主角,就是这个领域里一个备受瞩目的新玩家:来自Augment(augment)推出的AugmentAgent。忘掉那些只给你代码建议或补全的工具吧!AugmentAgent的野心,是成为一个能理解任务、制定计划、并实际动手帮你完成开发工作的AI伙伴。这听起来是不是有点科幻?但它正在发生。什么是AugmentAg...
墨风如雪小站
0回复
4525浏览
Augment
Agent
AI
AI 辅助学习如何选大模型?兼初步测试 Llama 4
在这个教材知识爆炸的时代,如何高效地帮助孩子掌握知识、培养学习兴趣,成为了许多家长的共同课题。而以大语言模型为代表的人工智能技术的出现,为解决这一难题提供了一种全新的可能。利用AI,不仅能帮助我们家长快速掌握孩子正在学习的内容,从而便于与他们进行更有效的沟通,增进「亲子关系」;同时,AI还能拓展我们的思路,为孩子提供更多启发和灵感,让他们的学习过程更加丰富多彩。大模型海选首先,我们需要选择一个你比...
机器学习与数学
0回复
1892浏览
AI
Llama 4
大模型
MCP:炒作还是AI新行标?
ModelContextProtocol(MCP)最近在全网引发热议——它真有实际价值,还是只是营销号的氛围感?LangChain的CEOHarrisonChase和LangGraph负责人NunoCampos针锋相对,探讨MCP是否真的值得关注。Harrison:MCP在你想要为一个你无法控制的智能体提供工具时就会变得有用。如对ClaudeDesktop、Cursor和Windsurf这些应用,用户无法控制底层的智能体,而智能体本身只具备一些内置工具。但若我想让它使用一个默认没有的工具呢?就需要某...
JavaEdge1
0回复
1758浏览
MCP
LLM
服务器
开发者新选择:用DeepSeek实现Cursor级智能编程的免费方案
前言去年下半年cursor非常火,让很多一行代码都不懂的小白,也可以做自己的网站和搭App,当时一下子就引爆了独立开发的热潮。不过每月20dollar的价格也不算便宜,这时候可以使用cline,aidercomposer+continue之类的插件搭配其他大模型后端来实现,也能实现类似的效果。关于AI编程AI编程现在主要有两种玩法,简单介绍下:全自动模式(比如Cline、Aider这些工具):你动嘴,AI动手。直接把需求甩给它就能生成代码,适合搞点小项目...
程序设计实验室
0回复
2332浏览
DeepSeek
Cursor
智能
字节开源换脸写真模型InfiniteYou,可实现零样本身份ID一致保持,无缝集成FLUX、ControlNets、LoRAs!
今天给大家介绍一个字节刚开源的换脸写真新模型InfiniteYou,这是一种先进的零样本身份ID一致性保持模型,由字节跳动基于文生图领域最强开源模型FLUX模型研发的。InfiniteYou专注于利用扩散变换器(DiTs)技术实现灵活且高保真的身份保留图像生成。它解决了现有方法中存在的问题,如身份相似性不足、文本与图像对齐不佳以及生成质量和美学水平低下等。同时,InfiniteYou具有高度的兼容性,可以与现有的多种方法无缝集成,如FLUX...
AIGCStudio
0回复
2795浏览
InfiniteYou
ControlNets
LoRAs
GRPO教会DeepSeek R1高智商推理,但GRPO可能不完美且有偏见 | Dr. GRPO简化之,消除偏见带来改进
DeepSeekR1在数学推理、问题解决等复杂任务上的表现令全世界瞩目。它在AIME2024等高难度数学测试中取得了79.8分好成绩(OpenAIo11217得分79.2)。而这一切的背后,有一个关键技术功不可没——GroupRelativePolicyOptimization(GRPO),一种基于强化学习的优化算法。尽管GRPO教会R1高智商推理,但有研究人员发现,它存在一些缺陷,比如它会导致模型生成冗长的错误回答,或者更倾向于解决简单问题而忽略难题。大家在用DeepSeekR1...
后向传播
0回复
3081浏览
DeepSeek R1
GRPO
token
Llama 4开源王者归来!推理、编码打平DeepSeek V3但参数减一半,一张H100就能跑,还有巨兽2万亿参数模型!
原创
编辑李美涵出品51CTO技术栈(微信号:blog51cto)深夜,Meta如期发布了全新的开源大型模型系列——Llama4,并未出现任何“跳票”传闻中的推迟情况!图片此次发布也标志着Meta与近来崛起的开源新王DeepSeek正面硬钢。Meta官推更是表示:表示:“今天开启了原生多模态AI创新的新时代”。Llama4共有三款模型,Llama4Scout、Llama4Maverick、Llama4Behemoth。全部具备多模态处理能力,能够原生支持文本、图像和视频等多种输入形式。...
51CTO技术栈
0回复
2211浏览
Llama 4
开源
DeepSeek
继GTP- 4o爆火后,最强中文AI绘画模型「即梦3.0」上线:设计师的末日要到了?
GPT4o的热度还没过去,即梦AI又升级了,强大的中文生成能力,再度引发了设计师的集体焦虑。最近,最强中文AI绘图模型即梦3.0正式开启了灰度测试,在设计圈和AI领域掀起了不小的讨论。3.0版本相比之前的2.1版本实现了全面升级,尤其是在真实感、高清度、专业性以及文字响应上,表现出了惊人的突破。这场中文设计革命,让设计师更emo了。很多人开始讨论,设计师的核心价值,究竟是不可替代的创造力,还是即将被算法碾压的机械技艺...
算家计算
0回复
4253浏览
AI绘画
即梦3.0上线
GPT-4o
算家云
算力租赁
5个极其有用的 Python 自动化脚本
在现代职场中,重复性和耗时的任务常常占据大量时间,影响工作效率。Python作为一种高效、易用的编程语言,提供了丰富的库和工具,能够帮助打工人自动化处理日常任务,提升工作效率。以下是5个必备的Python自动化脚本:一、文件批量重命名脚本在日常工作中,可能需要对大量文件进行重命名操作。手动操作既耗时又容易出错。使用Python脚本,可以实现文件的批量重命名,提高效率。importosdefbatchrename(directory,oldext,newext...
wx67f8a73a40259
0回复
1465浏览
Python
阿里登顶全球榜首!中国开源生态的“杭州力量”如何改写AI规则?
昨天,全球最大的AI开源社区HuggingFace发布了最新的大模型榜单,阿里用一款仅7B参数的全模态模型Qwen2.5Omni,在HuggingFace开源榜单上直接杀疯了——不仅拿下开源榜单第一,还让杭州企业包揽了前三名。代表全模态、逻辑推理与空间理解的顶尖水平的杭州“三剑客”分别是:阿里Qwen2.5Omni:全模态端到端设计,200ms解析视频语义生成带情感解说,消费级显卡就能跑。深度求索DeepSeekV3:复杂指令理解能力直逼GPT4.5,中文搜索优...
算家计算
0回复
2441浏览
Qwen2.5-Omni
通义千问登顶全球
开源大模型
算家云
每日AI资讯
人类赢了!OpenAI深夜开源全新Agent评测基准!AI大战顶尖人类,上演机器学习届“神仙打架”
原创
编辑李美涵出品51CTO技术栈(微信号:blog51cto)深夜,OpenAI再次发力Agent领域,开源了一个全新的AIAgent评测基准——PaperBench。这是一个用于评估AI智能体复现最前沿AI研究能力的基准测试。智能体需从零开始复现20篇ICML2024Spotlight和Oral论文,包括理解论文贡献、构建代码库并成功执行实验。图片看得出,OpenAI新的基准测试PaperBench,无疑是想将现在DeepResearch的功能更近一步,剑指AI科学家、甚至诺奖级AI。那么AI搞...
51CTO技术栈
0回复
3009浏览
OpenAI
Agent
AI
大模型除了聊天还能做什么?关于大模型的分类和应用
原创
“大模型由于其快速迭代的原因,因此大模型分类存在很多困难;而作为大模型应用的使用者和开发者我们需要做的就是不断去尝试和体验模型的功能。”大模型技术发展到今天,其功能可以说是日新月异;并且很多企业已经在探索大模型的应用场景和技术实现;但是很多人到现在对大模型的了解仅仅只限于能聊个天,问个问题。但实际上,大模型能够做的事要远比我们想象中的要多的多;因此,今天我们就从用户和技术两个角度来介绍一下大模...
AI探索时代
0回复
2872浏览
大模型
人工智能
LawLLM:面向美国法律体系的法律大语言模型
原创
精华
摘要在法律分析这一快速发展的领域中,由于法律语言的复杂性(通常包含专业术语、复杂句法和历史背景),寻找相关案例并准确预测司法结果具有挑战性。此外,相似案例与判例案例之间的微妙差异需要深厚的法律知识理解。研究人员常常混淆这些概念,导致难以开发专门技术来有效处理这些细致入微的任务。本文介绍了法律大语言模型(LawLLM),这是一个专为美国法律领域设计的、能够应对这些挑战的多任务模型。LawLLM在相似案例检索...
AIRoobt
0回复
2610浏览
大语言模型
LawLLM
LLMs
19款模型大PK!李飞飞团队发布首个世界生成基准WorldScore:曝出世界生成三大致命伤
文章链接:https:arxiv.orgpdf2504.00983开源地址:https:haoyiduan.github.ioWorldScore亮点直击提出了首个世界生成基准WorldScore,支持对3D、4D、图像到视频(I2V)和文本到视频(T2V)等多种方法进行统一评估。为基准测试精心构建了一个高质量、多样化的数据集,涵盖不同类别的静态与动态场景,并包含多种视觉风格。提出了WorldScore评估指标,综合衡量世界生成模型的关键性能,包括可控性、质量和动态性。通过对17个开源模...
angel
0回复
2635浏览
视频
生成
模型
暂无内容
1
138
139
140
141
142
143
144
145
146
客服