学堂

精品班

软考社区

免费课

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

angel

LV.7

这个用户很懒，还没有个人简介

帖子 199

声望 1958

关注 0

粉丝 4

社区头条作者热门内容榜上榜作者

私信

关注

主帖 199

回帖

Scaling laws在视觉自回归模型上失效了？谷歌联合MIT发布Fluid：文生图质量刷新纪录！

精华

文章链接：https:arxiv.orgpdf2410.13863缩放法则（Scalinglaws）是大语言模型（LLMs）前所未有成功的基础。实证研究表明，在自回归模型中增加参数数量通常会显著提升性能，并在自然语言处理（NLP）任务中产生新的能力。这一实证关系激励了众多扩展语言模型的努力，导致许多高性能模型的发展。受到这一成功的鼓舞，许多尝试将自回归模型应用并扩展到计算机视觉领域，特别是在文本到图像生成等生成任务中。然而，这些模型生成的...

20h前 125浏览 0点赞 0回复 0收藏

苹果重磅开源俄罗斯套娃扩散模型！MDM：多任务高分辨率生成又快又好！

文章链接：https:arxiv.orgpdf2310.15111项目链接：https:github.comapplemlmdm亮点直击提出了MatryoshkaDiffusionModels(MDM)，通过联合处理多个分辨率的输入，避免了级联或潜在扩散方法的复杂性，并引入了NestedUNet架构，嵌套不同尺度的特征和参数，提升了高分辨率生成的效果。采用了多分辨率损失，显著加速了高分辨率去噪的收敛速度，同时使用渐进式训练策略，从低分辨率开始逐步引入高分辨率内容，实现了训练成本和生成质...

2天前 94浏览 0点赞 0回复 0收藏

矛盾之争，AI合成数据可以骗过大模型吗？中山大学联合上海AI Lab提出合成检测基准LOKI

社区头条

文章链接:https:arxiv.orgpdf2410.09732项目链接:https:opendatalab.github.ioLOKI数据&代码：https:github.comopendatalabLOKI总结速览引入了LOKI基准，以全面评估LMMs在区分合成数据上的表现。LOKI基准的亮点包括：全面模态评估。收集了近期热门合成模型生成的高质量多模态数据，涵盖视频，图像，3D数据，文本，音频等多个模态。异构数据覆盖。数据集中包括28个不同模态的细致分类，包括有专业的卫星，医学等图像，哲学，文...

2天前 146浏览 0点赞 0回复 0收藏

“左脚踩右脚”提升文生图模型综合能力！清北牛津普林斯顿联合发布IterComp

精华

文章链接：https:arxiv.orgpdf2410.07171项目链接：https:github.comYangLing0818IterComp亮点直击提出了第一个基于奖励控制的迭代组合感知框架IterComp，以全面提升基础扩散模型的组合性。精心挑选了模型库，并开发了一个高质量的组合感知模型偏好数据集，该数据集包含大量图像排序对。使用了新的迭代反馈学习框架，逐步增强奖励模型和基础扩散模型。与之前的SOTA方法进行的大量定性和定量比较表明，本文的方法在组合生成能力...

2天前 166浏览 0点赞 0回复 0收藏

阿里商业级视频生成框架——轨迹控制版视频生成 Tora 重磅开源！

论文链接：https:arxiv.orgpdf2407.21705项目链接：https:alivideoai.github.iotoravideo代码链接：https:github.comalibabaTora阿里团队最近在GitHub上推出了其创新的文生视频生成工具——Tora，为学术界和开源社区提供了新的研究资源。Tora基于先进的DiT框架，专注于轨迹控制的视频生成。此次开源的版本包括了完整的推理代码和模型权重，旨在为研究人员和开发者提供高效的工具，促进技术交流与学习。从GitHub上的README文件来...

5天前 206浏览 0点赞 0回复 0收藏

UIUC提出InstructG2I：从多模态属性图合成图像，结合文本和图信息生成内容更丰富有趣！

今天给大家介绍的这项工作是伊利诺伊大学厄巴纳香槟分校的研究者们提出的一个新任务Graph2Image，其特点是通过调节图信息来合成图像，并引入了一种名为InstructG2I的新型图调节扩散模型来解决这个问题。在INSTRUCTG2I的工作中，研究者们开发了一种新方法来生成图像，这种方法不仅依赖于文本描述，还考虑到图中其他相关信息。想象一下，如果你要画一幅画，除了有一个简单的描述，比如“雪中的房子”，你还可以参考与这个房子相关...

6天前 157浏览 0点赞 0回复 0收藏

2024年了，视频生成模型离通用世界模拟器还有多大差距？SOTA模型全面评估

文章链接:https:arxiv.orgpdf2410.05363项目链接:https:phygenbench123.github.io数据&代码：https:github.comOpenGVLabPhyGenBench亮点直击提出了PhyGenBench，它涵盖了广泛的明确物理现象和明确的物理定律。该基准可以全面衡量T2V模型是否理解直观物理学，并间接评估它们与世界模拟器能力之间的差距。提出了一个自动化评估框架PhyGenEval，克服了使用其他指标评估物理常识正确性的问题，并且在PhyGenBench上表现出与人类反馈...

6天前 141浏览 0点赞 0回复 0收藏

视频生成和具身智能强强联合！谷歌&卡内基梅隆&斯坦福发布Gen2Act：泛化超棒！

文章链接：https:arxiv.orgpdf2409.16283项目链接：https:homangab.github.iogen2act亮点直击人类视频生成引导机器人操作：通过生成零样本的人类视频并翻译成机器人执行策略，避免了直接生成机器人视频的复杂性，利用丰富的网络视频数据来提升泛化能力。现成模型与闭环策略结合：不需微调视频生成模型，直接使用现成模型生成视频，并通过结合机器人观察历史与点轨迹优化，确保策略能够动态调整，提升操作准确性。强大的泛化能力...

8天前 197浏览 0点赞 0回复 0收藏

首篇！全面系统解读高效SAM变体：各种加速策略和核心技术展示

精华

文章链接：https:arxiv.orgpdf2410.04960亮点直击提供了一项系统的高效SAM变体全面回顾，旨在加速分割任务。介绍了一个结构良好的分类法，将这些方法根据其采用的加速策略进行分类。据我们所知，这是第一项专门关注该领域的调查。对这些变体的效率和准确性进行了全面的评估和比较，旨在帮助研究人员选择最能满足其性能和应用需求的模型。提出了几个未来研究的潜在方向，为读者提供启发，以推动该领域的持续发展。SegmentAnyth...

9天前 486浏览 0点赞 0回复 0收藏

自回归视觉生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&腾讯等重磅发布CAR

文章链接：https:arxiv.orgpdf2410.04671项目链接：https:github.comMiracleDanceCAR亮点直击CAR是首个为自回归模型家族设计的灵活、高效且即插即用的可控框架。CAR基于预训练的自回归模型，不仅保留了原有的生成能力，还能在有限资源的情况下实现可控生成——所用数据量不到预训练所需数据的10%。设计了一个通用框架来捕捉多尺度的控制表示，这些表示具有鲁棒性，并能无缝集成到预训练的基础模型中。大量实验表明，CAR在各种条...

9天前 226浏览 0点赞 0回复 0收藏

长动画上色质量再创新高！首个基于参考线稿的动画上色视频扩散框架LVCD发布

社区头条

文章链接：https:arxiv.orgpdf2409.12960项目链接：https:luckyhzt.github.iolvcd今天和大家分享的工作是香港城市大学、微信团队、香港大学的研究人员提出的，首个基于参考线稿的动画上色视频扩散框架，效果非常好，往下有demo视频展示。亮点直击第一个基于参考的线稿动画着色视频扩散框架，利用预训练视频扩散模型的能力生成高质量、长时间一致的动画。引入了用于SVD的参考注意力，增强了模型生成快速运动动画的能力。设计了一...

2024-10-12 12:18:35 250浏览 0点赞 0回复 0收藏

3D生成基础模型来了！只需5秒，高质量3D资产规模化生成！南洋理工等重磅开源3DTopia-XL

精华

文章链接：https:arxiv.orgpdf2409.12957项目链接：https:3dtopia.github.io3DTopiaXL今天AI生成未来和大家分享的是南洋理工、北大、上海AILab和港中文联合发布的3DPBR资产生成最新工作3DTopiaXL。通过基于高效且表达力强的3D表示方法PrimX的扩散Transformer（DiT），实现高质量3D资产生成的规模化。去噪过程只需5秒钟，就能从文本或图像输入生成可用于图形pipeline的3DPBR（物理渲染）资产。关键思想是一种新颖的3D表示，即Pri...

2024-10-12 11:18:05 282浏览 0点赞 0回复 0收藏

视觉任务大一统！图像生成，编辑，翻译三合一！全能视觉助手PixWizard来袭！

精华

文章链接：https:arxiv.orgpdf2409.15278github链接：https:github.comAFengxPixWizard亮点直击任务统一：针对视觉任务的多样性，本项目基于生成框架将多种任务转化为图像到图像的翻译问题，并通过后处理将生成的可视化效果转化为所需格式，从而简化表示形式的挑战。数据构建：构建了一个包含3000万条数据的全面训练集，主要支持图像生成、编辑、修复、定位和密集预测等五大功能，旨在整合视觉领域的任务和数据多样性。架构设计...

2024-10-10 09:55:47 534浏览 0点赞 0回复 0收藏

从秒级到小时级：TikTok等发布首篇面向长视频理解的多模态大语言模型全面综述

精华

文章链接：https:arxiv.orgpdf2409.18938亮点直击追踪并总结从图像理解到长视频理解的MMLLMs的进展;回顾了各种视觉理解任务之间的差异，并强调了长视频理解中的挑战，包括更细粒度的时空细节、动态事件和长期依赖性;详细总结了MMLLMs在理解长视频方面的模型设计和训练方法的进展;比较了现有MMLLMs在不同长度视频理解基准上的表现，并讨论了MMLLMs在长视频理解中的潜在未来方向。将大语言模型（LLMs）与视觉编码器的集成最近在视...

2024-10-10 09:45:28 534浏览 0点赞 0回复 0收藏

人人都是音乐家！中科大&科大讯飞重磅开源OpenMusic：音乐生成更高质量，更有乐感

精华

文章链接：https:arxiv.orgpdf2405.15863代码链接：https:github.comivcylcqamdtHuggingface链接：https:huggingface.cospacesjadechoghariOpenMusicDemo链接：https:qamdt.github.io（chatgpt30，musiccaps30）亮点直击提出了一种质量感知训练范式，使模型在训练过程中能够感知数据集的质量，从而在音乐性（美学角度）和音频质量方面实现卓越的音乐生成效果。创新性地将masked扩散Transformer引入到音乐信号中，展示了其在建模...

2024-10-09 10:02:12 540浏览 0点赞 0回复 0收藏

详解大规模基础模型中的幻觉问题（幻觉检测、缓解、任务、数据集和评估指标）

精华

论文链接：https:arxiv.orgpdf2405.09589亮点直击在大规模基础模型的背景下建立了幻觉的精确定义和结构化分类。识别出导致不同模态中幻觉出现的关键因素和机制。提出了在多模态环境中解决幻觉问题的各种检测和缓解策略。提供了关于大规模基础模型中幻觉技术的方法论的综合总结，详细介绍了其幻觉检测、缓解、任务考虑、使用的数据集和评估指标。这将为读者提供该领域最新进展的简明概览。总结速览解决的问题在大规模基础模型中...

2024-10-08 10:27:03 544浏览 0点赞 0回复 0收藏

ECCV`24 | 新加坡国立&华为提出Vista3D: 实现快速且多视角一致的3D生成

文章链接：https:arxiv.orgpdf2409.12193gitbub链接：https:github.comflorinshenVista3D亮点直击提出了Vista3D，一个用于揭示单张图像3Ddarkside的框架，能够高效地利用2D先验生成多样的3D物体。开发了一种从高斯投影到等值面3D表示的转换方法，通过可微等值面方法和解耦纹理来优化粗糙几何，实现纹理化网格的创建。提出了一种角度组合方法用于扩散先验，通过约束其梯度幅度，在不牺牲3D一致性的情况下实现3D潜力的多样性。总...

2024-09-29 10:25:02 251浏览 0点赞 0回复 0收藏

让具身智能更快更强！华东师大&上大提出TinyVLA：高效视觉-语言-动作模型，遥遥领先

论文链接：https:arxiv.orgpdf2409.12514项目链接：https:tinyvla.github.io具身智能近期发展迅速，拥有了大模型"大脑"的机械臂在动作上更加高效和精确，但现有的一个难点是：模型受到算力和数据的制约。如何使用更少的训练数据，以更快的推理速度，实现媲美OpenVLA的性能？今天给大家分享的TinyVLA，就是来解决这个难题的，还有多种规模的模型可供选择！总结速览解决的问题：现有的视觉语言动作（VLA）模型在推理速度慢和需要...

2024-09-27 10:13:10 341浏览 0点赞 0回复 0收藏

GPU和CPU如何混合训练？大模型训练的GPU联手CPU显存优化分析方法

精华

社区头条

随着深度学习模型复杂度和数据集规模的增大，计算效率成为了不可忽视的问题。GPU凭借强大的并行计算能力，成为深度学习加速的标配。然而，由于服务器的显存非常有限，随着训练样本越来越大，显存连一个样本都容不下的现象频频发生。除了升级硬件（烧钱）、使用分布式训练（费力），你知道还有哪些方法吗？即使显存充足，所有运算都在GPU上执行就是最高效吗？只要掌握以下小知识，模型训练的种种问题统统搞定，省时省力省钱，重...

2024-09-27 10:09:33 596浏览 0点赞 0回复 0收藏

ECCV`24 | 高保真目标修复新SOTA！复旦&智象开源CAT-Diffusion，语义视觉双一致

文章链接：https:arxiv.orgpdf2409.08260Github链接：https:github.comNnnsCATdiffusion总结速览解决的问题:单一UNet在所有去噪步骤中对齐文本提示和视觉对象不足以生成期望的对象。扩散模型的复杂采样空间中无法保证对对象生成的可控性。提出的方案:语义预修复：在多模态特征空间中推理目标对象的语义特征。高保真度的对象生成：在扩散的潜在空间中基于已修复的语义特征生成目标对象。应用的技术:采用级联的Transformer语义修...

2024-09-26 11:07:23 250浏览 0点赞 0回复 0收藏

获得成就

已积累 4.2w 人气

获得 1 个点赞

获得 0 次收藏