51CTO首页
AI.x社区
博客
学堂
精品班
直播训练营
企业培训
鸿蒙开发者社区
WOT技术大会
AIGC创新中国行
IT证书
公众号矩阵
移动端
短视频
免费课程
课程排行
直播课
软考学堂
全部课程
厂商认证
IT技术
2024年软考
PMP项目管理
软考资讯
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO题库小程序
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
首页
/
社区头条
社区头条
94
篇优秀内容
2024年05月
OpenAI“宫斗”番外!首席科学家Ilya官宣离职,参与驱逐奥特曼“宫斗”后沉寂5月首发声!
原创
编辑伊风出品51CTO技术栈(微信号:blog51cto)谷歌IO大会的主题演讲刚刚结束四个小时。正当人们把目光从GPT4o中恋恋不舍地移开,转到Gemini上时。OpenAI又跑来“搞事”了!自之前“宫斗”后就行踪成谜的首席科学家IlyaSutskever,在X上宣布自己将离职,投入到一个对自己有意义重大的新项目中,并可能在时机合适时透露相关细节!紧接着,奥特曼也发文表达了对Ilya的感谢与不舍,并宣布将由JakubPachocki接棒担任OpenAI的首席科...
51CTO技术栈
7h前
0回复
49浏览
OpenAI
Ilya
离职
如何正确使用Stable Diffusion?文本到图像扩散模型中记忆化实用分析(浙大)
精华
论文链接:https:arxiv.orgpdf2405.05846过去几年见证了由扩散模型驱动的文本引导图像生成领域的重大进展。然而,已经显示出文本到图像扩散模型容易受到训练图像记忆的影响,引发了对版权侵犯和隐私侵犯的担忧。在这项工作中,本文对文本到图像扩散模型中的记忆化进行了实际分析。针对需要保护的一组图像,本文对它们进行了量化分析,而无需收集任何prompt。具体而言,本文首先正式定义了图像的记忆化,并确定了记忆化的三个必...
angel
2天前
0回复
121浏览
图像
模型
与机器对话:揭示提示工程的十个秘密
原创
提示工程是说服机器做人类想做之事的最新艺术。本文是关于编写LLM提示必知的10件事。提示的力量十分神奇,我们只需抛出几个近似人类语言的单词,就能得到一个格式和结构都良好的答案。没有什么话题是晦涩难懂的,没有什么事实是触不可及的。至少只要它是训练语料库的一部分,并得到模型的影子控制器(ShadowyController)的批准,我们都能通过简单的提示获取到答案。然而,一些人已经开始注意到提示的魔力并非绝对的。我们的提示...
51CTO内容精选
12h前
0回复
51浏览
大型语言模型
LLM
人工智能
阿里RAG新框架R4:增强检索器-重排序-响应器,5个知识密集任务上都超过Self-RAG等!
大型语言模型(LLMs)在生成文本时可能会产生错误信息,即“幻觉”问题。尽管检索增强的LLMs通过检索外部数据来减少这种幻觉,但现有的方法通常不考虑检索文档与LLMs之间的细粒度结构语义交互,这在处理长文档时尤其影响回答的准确性。不同的检索增强方法范式,包括传统的检索器响应器方法和增强检索器重排序响应器框架。强调了学习关键检索文档的排序结构的重要性,以帮助LLMs更好地处理与事实知识相关的用户查询。为了解决这...
PaperAgent
2天前
0回复
253浏览
RAG
R4
响应器
“全家桶”战士归来,谷歌自我革命!
原创
编辑言征出品51CTO技术栈(微信号:blog51cto)5月与6月,旧金山硅谷各大新贵旧王正在激烈角逐,主战场无疑则是AI。就在昨天凌晨GPT4o发布的24小时后,GoogleIO大会也交卷了。有意思的是,谷歌掌舵人皮查伊,好像很清楚观众们所想,一开始就安排AI在后台统计了整场提及的AI次数:121,但随后又不自禁地提了3次。这124次的提及,为什么会这么多?图片因为这次主题演讲,实在太全面了,脉络清晰,而又让人眼花缭乱,简直让我们重...
51CTO技术栈
1天前
0回复
101浏览
谷歌
AI
模型
史上最丑AI生图一夜爆火!又一款妙鸭级爆品来了?
精华
最近,网友们被一款传说中的最丑AI生图神器刷屏了。无论是表情包、网络梗图,还是热门电影,或是自家宠物,包括你想得到的和想不到的,都变成了粘土风格。地铁老爷爷看手机,忽然有了实体。《请回答1988》里这张佛系表情包,简直抓住了原片精髓。奥本海默,变成黏土风后依然气质满满。《重庆森林》的经典场景再现了。梵高自画像的黏土版,别有一番风味。戴珍珠耳环的少女,表情莫名地囧了起来。总之,这款工具,主打的就是要平...
duhorse
3天前
0回复
180浏览
AI
绘图
字节开源大模型量化新思路,2-bit量化模型精度齐平fp16
随着深度学习大语言模型的越来越火爆,大语言模型越做越大,使得其推理成本也水涨船高。模型量化,成为一个热门的研究课题。近日,字节跳动语音团队推出一个全新的量化思路,抛弃传统的量化范式,从数学优化的角度来对量化任务建模。文章放在了arXiv,代码已经开源,可以一键复现文中的所有结果:论文链接:https:arxiv.orgabs2404.12759项目链接:https:github.combytedancedecoupleQW2算子:https:github.comNVIDIATensorRTLL...
轻薄滴假象
3天前
0回复
139浏览
模型
开源
AI生成3D主题乐园,角色建筑批量生成,风格保持一致 | SIGGRAPH 2024
最少只需1个3D样例,即可生成3D主题乐园。来自香港城市大学、上海人工智能实验室和南洋理工大学SLab的研究人员提出了一种名为ThemeStation的新颖框架。它可以从少量3D样例中生成主题一致的高质量3D画廊。还能基于文本控制,生成想要的3D资产。比如“穿正装的猫头鹰”。要知道,虚拟世界和游戏等应用中,常常需要大规模主题一致的3D模型,如古城中的建筑群、虚拟生态系统中的怪物阵容。尽管一位资深3D建模师可以创作出若干主题一...
Crystalcxt
3天前
0回复
121浏览
AI
生成
【乘风进阶学习季】夏日初长,乘风而上,码出未来!
我们正站在技术创新的前沿是时候一起乘风破浪,不断进阶,探索科技无限可能了!!!创新技术的应用正展现出其巨大的潜力和深远的影响。随着《2024GoogleIO大会》的召开,我们将迎来一个深入了解科技领域最新进展和未来趋势的绝佳机会。《2024GoogleIO大会》是谷歌年度盛会,赋能谷歌品牌,直播计划5月15日举行,旨在赋能开发者高效创新、创造愉悦的体验,帮助开发者成长并在世界范围内持续发声。51CTOAI.x社区携手Google举办的...
AI.x社区官方账号
3天前
0回复
9953浏览
AI
Google
Gemma
LangChain v0.2:向稳定性迈进的一大步
还记得四个月前我们发布的LangChain首个稳定版吗?今天,我们继续这一进步,带来了langchainv0.2的预发布版。这个新版本不仅在v0.1的基础上进行了改进,还吸纳了社区的反馈。以下是v0.2版本的主要亮点:实现了社区热切期待的langchain与langchaincommunity的完全分离。引入了新版(而且是有版本控制的!)文档。提供了一个更加成熟和可控的代理框架。对大型语言模型(LLM)的接口进行了标准化改进,特别是在工具调用方面。增强...
ermulong
5天前
0回复
283浏览
LangChain
CLI
工具
最详细人脑3D地图登Science!GPT-4参数只相当于人类0.2%
精华
芝麻粒大小的人脑组织,突触规模就相当于一个GPT4!谷歌与哈佛联手,对局部人脑进行了纳米级建模,论文已登Science。这是迄今为止最大、最详细的人脑复制品,首次展示出了大脑中的突触连接网络。凭借超高分辨率,这个名为H01的重建,已经揭示了一些以前未曾见过的关于人类大脑的细节。项目通讯作者、哈佛大学Lichtman教授介绍说,在此之前,没有人真正看到过这样复杂的突触网络。这一建模成果,将有助于更深入地了解大脑的运作...
Crystalcxt
5天前
0回复
161浏览
GPT-4
3D
SIGGRAPH`24 | 毫米级接近真实动作生成!LGTM:文本驱动!(深大&快手&字节)
论文链接:https:arxiv.orgpdf2405.03485代码&数据集链接:https:github.comLSunLGTM今天和大家一起学习下文本生成动作方面最新的研究成果:LGTM,一种新颖的用于文本到动作生成的局部到全局pipeline。LGTM基于扩散的架构,旨在解决将文本描述准确转换为计算机动画中语义连贯的人体动作的挑战。具体而言,传统方法通常难以处理语义差异,特别是在将特定动作与正确的身体部位对齐方面存在困难。为解决这个问题,本文提出了一个两...
angel
5天前
0回复
229浏览
3D
动作生成
3倍生成速度还降内存成本,超越Medusa2的高效解码框架终于来了
传统上,大型语言模型(LLMs)被认为是顺序解码器,逐个解码每个token。来自上海交通大学、加利福尼亚大学的研究团队展示了预训练的LLMs可以轻松地被教导成为高效的并行解码器,并介绍了一种新的并行解码器族,称为一致性大语言模型(CLLMs),能够通过在每个推断步骤中高效地解码一个ntoken序列来降低推断延迟。在此篇论文中,研究表明:「模仿人类在头脑中形成完整句子后逐字表达的认知过程,可以通过简单地微调预训练的LLMs...
轻薄滴假象
5天前
0回复
149浏览
模型
训练
ControlNet作者新作爆火:P照片换背景不求人,AI打光完美融入
精华
ControlNet作者新作,玩儿得人直呼过瘾,刚开源就揽星1.2k。用于操纵图像照明效果的ICLight,全称lmposingConsistentLight。玩法很简单:上传任意一张图,系统会自动分离人物等主体,选择光源位置,填上提示词,就能毫无破绽的融入新环境了!赶紧来个王家卫式的打光:不喜欢?没关系,换成窗外打进来的自然光,也就分分钟的事。目前,ICLight提供两类模型:文本条件重照明模型,还有背景条件模型。两种模型都需要以前景图像作为...
Crystalcxt
5天前
0回复
224浏览
模型
技术
七个高质量润色论文和文章的指令
原创
编辑润色是写作过程中至关重要的一部分,这是你的言语从美好转变为伟大的地方。今天分享7个高质量的指令:1.修复语法和句法第一个提示是修复语法和句法。这是任何写作的关键部分,因为它确保您的信息清晰且专业。Actasanexperiencedwriter.Reviewmy[content],focusingonensuringverbtenseconsistencythroughoutthedocument.Examinethetextforanyinstanceswhereverbtensesshiftincorrectly,disruptingtheflowandreadability.Iden...
数师兄
6天前
0回复
195浏览
GPT
什么?谷歌AlphaFold 3直接预测生命过程!
当人们还在呼唤GPT5、辗转于各种聊天机器人争夺战时,Google已经把人工智能模型与现实世界的距离又拉近了一大步。最近,GoogleDeepMind的AlphaFold3的问世标志着人工智能在生命科学领域的一个重大突破,其对蛋白质、DNA、RNA以及其他生命分子的结构预测不仅精确无比,还重新定义了我们对生命过程的理解和探究。GoogleDeepMind与IsomorphicLabs合作开发的AlphaFold3,是一个先进的AI模型,专门设计用来预测蛋白质和其他生命分子...
echo_ning
6天前
0回复
225浏览
谷歌
AlphaFold 3
预测
当前 inpainting/outpainting 最优解:PowerPaint + BrushNet
一、概述PowerPaint是一种图像修复模型,它能够实现多种内绘图任务,包括文本引导的对象内绘图、上下文感知图像内绘图、可控形状拟合的对象内绘图以及外绘图。如果单纯从这篇文章来看,并不能达到最好的效果,但是作者受BrushNet启发,重新训练了一版,也是github里面的PowerPaintv2,效果应该算是当前的最优解了。项目地址:PowerPaint项目页面(https:powerpaint.github.io)论文地址:ATaskisWorthOneWord:LearningwithTaskP...
angel
6天前
0回复
253浏览
模型
绘图
问鼎Nature!斯坦福大学Gordon Wetzstein教授团队提出全息增强现实眼镜
原创
近日,斯坦福大学GordonWetzstein教授团队提出一种将反向设计的介质表面波导与人工智能驱动的全息显示相结合的近眼显示设计,能够以紧凑的眼镜形式呈现全彩色3D增强现实。新兴的空间计算系统能够将数字信息无缝叠加在用户所观察到的物理环境上,为娱乐、教育、通信和培训等各个领域提供变革性的体验。然而,由于增强现实(AR)显示器的光学投影部件庞大且无法准确呈现虚拟内容的三维深度线索等因素,其广泛应用受到限制。为此,...
AIGC最前线
6天前
0回复
366浏览
增强现实
AR
人工智能
AI新动能: 数字人三大特征八大场景
原创
精华
随着元宇宙概念的火爆也一同带动了数字人市场的快速升温,据计算全球平均每天都会诞生一个数字人。数字人正成为一股潮流,涌入人们的日常生活——会“捉妖”的虚拟美妆达人柳夜熙,抖音出道三天点赞即超百万,一夜之间成为国内虚拟偶像界的“顶流”;在江苏卫视跨年演唱会上,昔日歌后邓丽君“重返”舞台,与歌手周深同台对唱,交织几代人的青春记忆;而在杭州亚运会上,数字人点燃火炬,成为开幕式的亮点。除此之外,数字人担...
数字化助推器
6天前
0回复
231浏览
AI
数字人
数字经济
Python轴承故障诊断 | 多尺度特征交叉注意力融合模型
前言本文基于凯斯西储大学(CWRU)轴承数据,进行快速傅里叶变换(FFT)和变分模态分解VMD的数据预处理,最后通过Python实现基于交叉注意力BiTCNBiGRUCrossAttention的时空特征融合模型对故障数据的分类。凯斯西储大学轴承数据的详细介绍可以参考下文:Python凯斯西储大学(CWRU)轴承数据解读与分类处理1模型整体结构1.1模型整体结构如下所示:一维故障信号分别经过FFT变换、VMD分解处理,然后把变换分解后的结果进行堆叠,通...
Tang_Lan
6天前
0回复
243浏览
Python
注意力
融合模型
1
2
3
4
5
客服