AIRoobt
LV.5
AI人工智能、机器人、具身智能、大模型、机器学习、深度学习技术
声望 748
关注 0
粉丝 1
私信
主帖 76
回帖
摘要奖励反馈学习(ReFL)最近在各种生成任务中展现出了巨大的潜力,能够使模型输出与人类偏好保持一致。在这项工作中,我们首次将ReFL框架引入盲脸修复任务,称之为DiffusionReward。DiffusionReward有效地克服了基于扩散的方法的局限性,这些方法通常无法生成逼真的面部细节,并且身份一致性较差。我们框架的核心是面部奖励模型(FRM),它使用精心注释的数据进行训练。FRM提供反馈信号,在指导修复网络的优化过程中起着关键...
2025-05-30 06:37:39 494浏览 0点赞 0回复 0收藏
摘要交错多模态理解与生成能力——使模型能够以任意顺序生成和解释图像与文本——已成为多模态学习的关键领域。尽管已有显著进展,但对这一能力的评估仍显不足。现有基准在数据规模、范围和评估深度上存在局限,而当前评估指标往往成本高昂或带有偏见,在实际应用中缺乏可靠性。为应对这些挑战,我们推出MMIE,这是一个大规模知识密集型基准,用于评估大型视觉语言模型(LVLMs)的交错多模态理解与生成能力。MMIE包含20,000个精...
2025-05-29 06:32:07 396浏览 0点赞 0回复 0收藏
摘要检索增强生成(RAG)在增强语言模型知识和减少AI生成幻觉方面表现出强大能力,推动了其广泛应用。然而,需要多轮检索的复杂任务仍然具有挑战性,早期尝试往往过于乐观,缺乏良好的自我怀疑意识。当前的多轮RAG系统可能在已经检索到足够信息时继续搜索,或者在没有足够信息或知识时提供错误答案。现有解决方案要么需要大量昂贵的人工标注过程监督数据,要么导致性能不佳。本文旨在通过引入新框架SIMRAG来解决这些限制,明确...
2025-05-27 06:44:36 390浏览 0点赞 0回复 0收藏
摘要我们提出了一种原则性且高效的一步生成模型框架。我们引入了平均速度的概念来表征流场,这与流匹配方法中建模的瞬时速度形成对比。我们推导出了平均速度与瞬时速度之间的明确关系,并用其指导神经网络训练。我们的方法,称为均值流模型,是自包含的,无需预训练、蒸馏或课程学习。均值流模型展示了强大的实证性能:在ImageNet256×256上从头训练,仅用一次函数评估(1NFE)即可达到3.43的FréchetInceptionDistance(FID)...
2025-05-23 06:27:30 795浏览 0点赞 0回复 0收藏
图片图1.我们提出了MonetGPT,这是一种感知图像操作的多模态大语言模型(MLLM),可自动为图像修图提供建议。给定一张照片(左图),MonetGPT会对其进行分析,识别出一系列问题和可能的修复调整。然后,解决方案步骤会根据给定的操作库,转化为一组程序操作以及相应的参数设置,这一过程分为三个阶段。(我们训练MLLM所使用的视觉谜题此处未展示。)摘要修图是原始照片后期处理中的一项基本任务。由文本或笔触引导的生成式编辑...
2025-05-22 09:34:21 1480浏览 0点赞 0回复 0收藏
摘要扩散Transformer(DiT)作为一种前景广阔的视觉生成扩散模型,展现出了令人瞩目的性能,但同时也带来了巨大的计算开销。有趣的是,对预训练DiT模型的分析表明,全局自注意力往往存在冗余,主要捕捉局部模式,这凸显了寻找更高效替代方案的潜力。在本文中,我们重新审视卷积,将其作为构建高效且富有表现力的扩散模型的替代构建块。然而,直接用卷积替换自注意力通常会导致性能下降。我们的研究发现,这种性能差距归因于卷积...
2025-05-21 08:33:54 1155浏览 0点赞 0回复 0收藏
摘要组合式零样本学习(CZSL)旨在通过利用已知组合来识别未见的状态对象组合。现有研究基本依赖CLIP的跨模态对齐能力,但往往忽略了其在捕捉细粒度局部特征方面的局限性,这些局限性源于其架构和训练范式。为解决这一问题,我们提出了一种多阶段跨模态交互(MSCI)模型,该模型有效探索和利用CLIP视觉编码器的中间层信息。具体而言,我们设计了两个自适应聚合器,分别从低层视觉特征中提取局部信息和从高层视觉特征中整合全局...
2025-05-21 06:45:57 621浏览 0点赞 0回复 0收藏
摘要2022年,随着ChatGPT的发布,大规模语言模型受到了广泛关注。ChatGPT不仅在参数量和预训练语料库规模上远超前代模型,还通过大量高质量的人工标注数据进行微调,实现了革命性的性能突破。此类进展使得企业和研究机构认识到,构建更智能、更强大的模型依赖于丰富且高质量的数据集。因此,数据集的建设与优化成为人工智能领域的关键方向。本文对训练大规模语言模型所需的预训练数据和微调数据的现状进行了总结,涵盖了数据规...
2025-05-20 06:34:03 1635浏览 0点赞 0回复 0收藏
摘要尽管下一令牌预测被视为通往通用人工智能的一条有前途的道路,但它在多模态任务中一直难以取得优异成绩,目前多模态任务仍由扩散模型(如StableDiffusion)和组合方法(如CLIP与大语言模型相结合)主导。在本文中,我们介绍Emu3,这是一套全新的最先进的多模态模型,仅通过下一令牌预测进行训练。通过将图像、文本和视频标记化到离散空间中,我们在多模态序列的混合数据上从头开始训练一个单一的Transformer。Emu3在生成和...
2025-05-19 09:19:09 640浏览 0点赞 0回复 0收藏
摘要VILAU是一个统一基础模型,融合了视频、图像和语言的理解与生成能力。传统的视觉语言模型(VLMs)在处理视觉内容的理解和生成任务时,使用独立的模块,这可能导致模块间的不协调和模型复杂度的增加。相比之下,VILAU采用单一的自回归下一个标记预测框架来处理这两项任务,避免了使用如扩散模型等额外组件的需求。这种方法不仅简化了模型结构,还在视觉语言理解和生成任务中取得了接近当前最优水平的性能。VILAU的成功主要归...
2025-05-19 09:12:20 746浏览 0点赞 0回复 0收藏
摘要许多现实世界中的用户查询(例如,“如何制作蛋炒饭?”)都能从能够同时生成文本步骤和配套图像的系统中受益,就像烹饪食谱一样。旨在生成交错文本和图像的模型在确保这些模态内部和之间的一致性方面面临挑战。为了解决这些挑战,我们提出了ISG,这是一个用于交错文本图像生成的综合评估框架。ISG利用场景图结构来捕捉文本和图像块之间的关系,在四个粒度级别上评估生成的结果:整体、结构、块级别和图像特定级别。这种多...
2025-05-19 09:06:08 433浏览 0点赞 0回复 0收藏
大型语言模型(LLM)的性能在很大程度上取决于其预训练数据集的质量和规模。然而,像Llama3和Mixtral这样的前沿开源大语言模型的预训练数据集并未公开,人们对其创建方式也知之甚少。最近,我们发布了FineWeb,这是一个全新的大规模(包含15万亿词元,占用44TB磁盘空间)大语言模型预训练数据集。FineWeb源自96个CommonCrawl快照,与其他开源预训练数据集相比,使用它训练出的大语言模型性能更优。为了让机器学习领域更加透明,...
2025-05-15 06:34:41 3258浏览 0点赞 0回复 0收藏
​摘要:问题求解一直是人类在众多领域取得进步的根本驱动力。随着人工智能的发展,大语言模型(LLMs)已成为能够解决跨多个领域复杂问题的强大工具。与传统计算系统不同,大语言模型将原始计算能力与近似人类推理能力相结合,使其能够生成解决方案、进行推理,甚至利用外部计算工具。然而,将大语言模型应用于实际问题求解面临重大挑战,包括多步推理、领域知识整合和结果验证。本综述探讨了大语言模型在复杂问题求解中的能力...
2025-05-14 10:05:43 765浏览 0点赞 0回复 0收藏
摘要检索增强生成(RAG)通过将模型响应与查询相关的外部知识相结合,在提高事实准确性方面展现出巨大潜力。然而,大多数现有的RAG方法仅限于纯文本语料库。尽管最近的研究努力将RAG扩展到图像和视频等其他模态,但它们通常仅在单一模态特定的语料库上运行。相比之下,现实世界中的查询对知识类型的需求差异很大,单一类型的知识源无法满足这些需求。为了解决这一问题,我们引入了通用检索增强生成(UniversalRAG),这是一种新...
2025-05-14 10:00:07 1005浏览 0点赞 0回复 0收藏
摘要目前构建多模态大语言模型(MLLMs)的高效方法,主要是通过简单的视觉映射网络,如线性投影层、多层感知器(MLP)或BLIP2中的QFormer,将视觉信息融入大语言模型(LLMs)。这类网络仅对图像特征进行一次投影,并未考虑图像与人类输入之间的交互。因此,获取的视觉信息可能与人类意图脱节,无法满足大语言模型生成符合意图的回复,这种信息可称为静态视觉信息。为缓解该问题,本文引入LMEye,这是一种类似人眼的可插拔交互式...
2025-05-12 09:19:28 529浏览 0点赞 0回复 0收藏
摘要大型语言模型(LLMs)的快速发展催化了视觉语言模型(VLMs)的发展。整体VLMs避免了模态特定的编码器,提供了一种有希望的替代方案,但面临着性能较差的挑战。大多数现有的整体VLMs需要调整预训练的LLMs以获得视觉能力,这可能会降低它们处理语言的能力。为了解决这一困境,本文提出了一种新的高性能整体VLM,名为HoVLE。我们注意到,当图像嵌入与文本嵌入对齐时,LLMs已被证明能够解释图像。当前整体VLMs的挑战实际上在于...
2025-05-12 09:12:44 434浏览 0点赞 0回复 0收藏
摘要基于指令的图像编辑能够通过自然语言提示实现强大的图像修改,但当前的方法面临着精度和效率之间的权衡。微调方法需要大量的计算资源和大规模数据集,而免训练技术在指令理解和编辑质量方面存在困难。我们利用大规模扩散变换器(DiT)增强的生成能力和固有的上下文感知来解决这一困境。我们的解决方案有三个贡献:(1)一种基于上下文提示的零样本指令遵从的上下文编辑框架,避免了结构变化;(2)一种LoRAMoE混合调优策略...
2025-05-12 09:06:37 940浏览 0点赞 0回复 0收藏
摘要6G无线通信旨在构建一个无处不在的智能互联世界,提供前所未有的通信体验。与传统人工智能(AI)模型相比,大语言模型(LAM)的显著特点是规模巨大(例如,拥有数十亿甚至数万亿个参数)。大语言模型展现出卓越的认知能力,包括对下游任务进行微调的强大泛化能力,以及处理训练过程中未遇到任务的涌现能力。因此,大语言模型能够有效地为各种通信应用提供人工智能服务,成为应对未来无线通信系统中复杂挑战的关键工具。本研...
2025-05-09 06:33:41 2218浏览 0点赞 0回复 0收藏
摘要现有的感知模型通过从大量标记数据中学习取得了巨大成功,但在开放世界场景中仍存在困难。为缓解这一问题,研究人员引入开放集感知任务,以检测或分割训练集中未见过的对象。然而,这些模型在推理时需要预定义的对象类别作为输入,而在现实场景中无法获取这些类别。最近,研究人员提出了一个新的、更实际的问题,即开放式目标检测,它在没有任何对象类别作为输入的情况下发现未见对象。在本文中,我们提出VLSAM,这是一个免...
2025-05-09 06:33:00 1290浏览 0点赞 0回复 0收藏
摘要最近,DeepSeekR1表明,强化学习(RL)可以通过一种简单而有效的设计,大幅提升大语言模型(LLMs)的推理能力。R1的核心在于其基于规则的奖励公式,它利用具有确定性正确答案的任务,实现精确且稳定的奖励计算。在视觉领域,我们同样观察到,许多视觉理解任务本质上都配备了定义明确的真实标注。这一特性使它们自然地与基于规则的奖励机制兼容。受此启发,我们研究将R1风格的强化学习扩展到视觉语言模型(VLMs)中,旨在提...
2025-05-07 07:01:29 1228浏览 0点赞 0回复 0收藏
获得成就
已积累 5.0w 人气
获得 1 个点赞
获得 0 次收藏