angel
LV.5
这个用户很懒,还没有个人简介
声望 910
关注 0
粉丝 3
私信
主帖 96
回帖
文章链接:https:arxiv.orgpdf2407.07614github链接:https:github.comfusiming3MARS亮点直击MARS,一个从自回归预训练LLM中改编而来的创新框架,专用于文本到图像(T2I)生成任务。为了确保保留NLP能力,同时为模型配备先进的视觉生成和理解能力,设计了一个名为SemVIE的模块,该模块在预训练LLM的注意力块中添加了并行的视觉专家。MARS放大了自回归方法在T2I生成和联合图像文本合成中的灵活性,并具有扩展到任何任务的潜力。...
17h前 61浏览 0点赞 0回复 0收藏
文字接龙LLM从根本上始终要做的是,针对它得到的任何文本产生“合理的延续”。LLM只是在玩一个“文字接龙”的游戏。当ChatGPT做一些事情,比如写一篇文章时,它实质上只是在一遍又一遍地询问“根据目前的文本,下一个词应该是什么”,并且每次都添加一个词。(这里说的“词”实际上指的是token,它可能只是词的一部分)每个词的出现有一定的概念,并不会在每次添加词的时候选择概率最高的那个,而是在一定范围内随机选择,否则...
1天前 87浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2407.06191github链接:https:tailor3d2024.github.ioHuggingface:https:huggingface.cospacesalexzyqiTailor3D亮点直击:提出了Tailor3D,一种快速的3D编辑pipeline。通过结合2D图像编辑和快速3D重建技术,它显著提高了3D对象编辑的效率。双面LRM结合了LoRATriplaneTransformer,有效处理了前后视图之间的不一致性,提升了整体重建质量。Tailor3D在各种3D编辑和定制任务中表现出色,特别是在局部3...
1天前 72浏览 0点赞 0回复 0收藏
2024年了,Diffusion模型还有什么可做的?
头条 社区头条
热门内容榜 • TOP2
纯属brainstorm,欢迎大家一起探讨。我会尽可能举一些具体例子来分析。部分点在我之前的一个相关回答中也有,大家可以移步参考:当前基于diffusionmodel的文生图模型有些什么缺陷?(https:www.zhihu.comquestion647244779answer3422163670)这个回答对之前的回答做进一步的补充完善。我们通过“数据、模型、优化”三个角度,再加上能做的“任务”,可以将diffusionmodels的全流程解剖一下,然后一个一个来看,个人比较看好的方...
4天前 195浏览 1点赞 1回复 0收藏
我们似乎正步入一个全新的计算范式,类似于计算机技术在1980年代的转型。我们正在进入的新范式,大语言模型就像CPU一样,使用Token而不是字节,并且有一个上下文窗口而不是RAM,这就是大语言模型操作系统(LargeLanguageModelOS,LMOS)。随后在18分钟左右的演讲中,Karpathy分享了从15年前初次接触人工智能至今的感受。过程中还回顾了在OpenAI的经历,描述了公司从八个人在公寓里工作到如今成为市值近千亿美元的行业巨头。不过...
4天前 151浏览 0点赞 0回复 0收藏
本篇博客全面汇总了大型语言模型(LLMs)。从早期的预训练神经语言模型开始,探讨了它们的起源和发展。重点讨论了Transformer架构及其三个主要分类:仅编码器PLMs、仅解码器PLM和编码器解码器PLM。接着,文章聚焦于GPT、LLaMA和PaLM这三大LLM家族,阐述了它们的特点和对语言模型领域的贡献。此外,还涉及了其他重要的LLMs,展现了该领域的广泛性和多样性。这篇博客不仅是对LLMs历史和模型做了完整的梳理,也突出了它们在自然语...
7天前 252浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2310.11448git链接:https:zju3dv.github.io4k4d本文旨在实现动态3D场景在4K分辨率下的高保真和实时视图合成。最近,一些动态视图合成方法在渲染质量方面表现出色。然而,在渲染高分辨率图像时,它们的速度仍然有限。为解决这个问题,本文提出了4K4D,一种支持硬件光栅化的4D点云表示,能够实现前所未有的渲染速度。本文的表示基于4D特征网格构建,因此点云被自然地正则化并可以进行稳健优化。此外...
8天前 229浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2407.02252github链接(待开源):https:github.comOPPOMenteLabGlyphDraw2海报在营销和广告中起着至关重要的作用,通过增强视觉传播和品牌知名度,对工业设计有着显著贡献。随着可控文本到图像扩散模型的最新进展,更简洁的研究现在集中在合成图像中的文本渲染上。尽管文本渲染的准确性有所提高,端到端的海报生成领域仍然探索不足。这项复杂的任务涉及在文本渲染准确性和自动布局之间取得平衡,以...
8天前 254浏览 0点赞 0回复 0收藏
OpenAI的Sora、StabilityAI的StableVideoDiffusion以及许多其他已经发布或未来将出现的文本生成视频模型,是继大语言模型(LLM)之后2024年最流行的AI趋势之一。在这篇博客中,作者将展示如何将从头开始构建一个小规模的文本生成视频模型,涵盖了从理解理论概念、到编写整个架构再到生成最终结果的所有内容。由于作者没有大算力的GPU,所以仅编写了小规模架构。以下是在不同处理器上训练模型所需时间的比较。作者表示,在CPU上运...
9天前 329浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2405.14832github链接:https:nju3dv.github.ioprojectsDirect3D从文本和图像生成高质量的3D资产一直是一项挑战,主要是由于缺乏能够捕捉复杂几何分布的可扩展3D表示。在这项工作中,介绍了Direct3D,这是一种可扩展到inthewild输入图像的原生3D生成模型,不需要多视角扩散模型或SDS优化。方法包括两个主要组件:Direct3DVariationalAutoEncoder(D3DVAE)和Direct3DDiffusionTransformer(D3DDiT...
9天前 213浏览 0点赞 0回复 0收藏
这篇博客全面介绍了大型语言模型(LLMs)的构建流程,从流行架构的选择到实际建模的每个关键步骤。文章首先探讨了LLMs的模型架构,然后详细阐述了数据准备过程,包括数据的收集、清洗和去重,接着是关于如何进行有效标记化的讨论。在模型构建方面,博客详细解释了采用自监督学习方法的预训练过程,以及对模型进行指令微调和对齐的重要性。每个环节都被细致地讲解,使读者能够深入理解LLMs的构建和优化过程。这篇博客为那些对LLM...
9天前 227浏览 0点赞 0回复 0收藏
尤洋团队新作,首个基于DiT的实时视频生成方法来了!​先来直观感受一下效果(右侧为新方法):这是团队在OpenSora上,使用5个4s(192帧)480p分辨率视频进行的测试。新方法名为PyramidAttentionBroadcast(PAB),由新加坡国立大学尤洋以及3位学生推出。具体来说,PAB通过减少冗余注意力计算,可实现高达21.6FPS和10.6倍加速,并且不会牺牲基于DiT的流行视频生成模型(包括OpenSora、OpenSoraPlan和Latte)的质量。作为一种免...
9天前 220浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2406.17777github链接:laulampaul.github.iotextanimator.html视频生成在游戏、电子商务和广告等各行业中都是一个具有挑战性但至关重要的任务。在文本到视频(T2V)生成领域中,有效地在生成的视频中视觉文本是一个尚未解决的重要方面。尽管在文本到视频生成方面取得了一些进展,但现有的方法仍然无法直接在视频中有效地视觉文本,因为它们主要集中在总结语义场景信息、理解和描绘动作。虽然最近...
9天前 228浏览 0点赞 0回复 0收藏
paper:https:arxiv.orgabs2401.13601一篇比较不错的综述型文章梳理了多模态大型语言模型(MMLLM)的近期进展总结了MMLLM的模型架构和训练流程梳理了26个当前最佳的MMLLM模型MMLLM的时间线主要模型架构模型架构模态编码器(ModalityEncoderME):图像:NFNetF6、ViT、CLIPViT等。视频:通常将视频均匀采样成5帧,经过与图像相同的预处理。音频:CFormer、HuBERT、BEATs等。3D点云:ULIP2与PointBERT后端。负责将不同模态的输入编...
2024-06-28 10:30:43 759浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2406.17100今天和大家一起学习的是对现实生活中生成的人脸细节进行优化的工作。扩散模型(DMs)在根据文本描述生成想象力丰富的图像方面取得了显著的成功。然而,在处理现实生活中复杂细节的场景时,它们很可能会表现不佳。文本到图像生成中低质量、不真实的人脸是其中最突出的问题之一,这限制了DMs在实际应用中的广泛应用。为了解决这一问题,本文首先通过人类标注者评估了几种流行预训练DM生成...
2024-06-28 10:23:03 289浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2406.09162git链接:https:tencentqqgylab.github.ioEMMA图像生成的最新进展使得从文本条件创建高质量图像成为可能。然而,当面对多模态条件(如文本结合参考外观)时,现有方法难以有效平衡多种条件,通常表现出对某一种模态的偏好。为了解决这一挑战,引入了EMMA,这是一种基于最先进的文本到图像(T2I)扩散模型ELLA构建的新型图像生成模型,能够接受多模态提示。EMMA通过一种创新的多模态特征...
2024-06-27 10:05:26 238浏览 0点赞 0回复 0收藏
楔子RAG(RetrievalAugmentedGeneration),检索增强生成,即从外部数据库获取额外信息辅助模型生成内容。楼主认为这项技术对于没有能力预算进行大模型训练和微调的大C和小B用户来说,兼具了实用性和灵活性,是更有可操作性的解决方案。如果你是一个AI小白,我来打一个比方:你读完全日制高中的课程(暂不考虑文理分科),咱可以说你已经完成了预训练(Pretraining),已经具备了一个通用大模型的基础能力。然后你填报了计算机科学...
2024-06-26 13:03:21 686浏览 0点赞 0回复 0收藏
文章地址:https:arxiv.orgpdf2406.11831今天和大家一起学习的这个工作展示的效果非常好,对提示的理解能力达到了新的高度。仅基于解码器的Transformer的大语言模型(LLMs)与CLIP和T5系列模型相比,已经展示出卓越的文本理解能力。然而,在文本到图像扩散模型中利用当前先进的大语言模型的范例仍有待探索。本文观察到一个不寻常的现象:直接使用大语言模型作为提示编码器会显著降低图像生成中遵循提示的能力。本文发现了这个问...
2024-06-25 10:18:07 332浏览 0点赞 0回复 0收藏
CNN基本部件介绍1.局部感受野在图像中局部像素之间的联系较为紧密,而距离较远的像素联系相对较弱。因此,其实每个神经元没必要对图像全局进行感知,只需要感知局部信息,然后在更高层局部信息综合起来即可得到全局信息。卷积操作即是局部感受野的实现,并且卷积操作因为能够权值共享,所以也减少了参数量。2.池化池化是将输入图像进行缩小,减少像素信息,只保留重要信息,主要是为了减少计算量。主要包括最大池化和均值池化。...
2024-06-25 10:13:26 219浏览 0点赞 0回复 0收藏
今天看到OpenAI前些年发布的一个模型计算量的分析,感觉很有价值,有需求的人童鞋可以看一下,内容如下:自2012年以来,最大规模AI训练运行中使用的计算量呈指数级增长,翻倍时间为3.4个月(相比之下,摩尔定律的翻倍期为2年)。自2012年以来,这一指标增长了300,000多倍(2年的翻倍期只能产生7倍的增长)。计算能力的提升一直是AI进步的关键组成部分,因此只要这一趋势持续下去,就值得为远远超出当今能力的系统带来的影响做好...
2024-06-25 10:03:14 277浏览 0点赞 0回复 0收藏
获得成就
已积累 1.4w 人气
获得 1 个点赞
获得 0 次收藏