AI研究前瞻
LV.2
您的人工智能研究前沿指南!
声望 117
关注 0
粉丝 0
私信
主帖 15
回帖
RoboRefer:TowardsSpatialReferringwithReasoninginVisionLanguageModelsforRobotics20250604|BUAA,PKU,BAAI🔺32​​http:arxiv.orgabs2506.04308v1​​​​​​https:huggingface.copapers2506.04308​​​​​​https:zhoues.github.ioRoboRefer​​研究背景与意义问题定义与现状空间指称是机器人理解并与三维物理世界交互的基础能力。尽管现有预训练视觉语言模型(VLMs)在二维视觉任务上表现优异,但它们在复杂三维场景的...
8天前 257浏览 0点赞 0回复 0收藏
Perception,Reason,Think,andPlan:ASurveyonLargeMultimodalReasoningModels20250508|HIT,Shenzhen🔺79​​http:arxiv.orgabs2505.04921v1​​​​​​https:huggingface.copapers2505.04921​​​​​​https:github.comHITszTMGAwesomeLargeMultimodalReasoningModels​​研究背景与意义智能推理的核心地位:推理作为智能行为的核心,赋予人工智能系统在多变、不确定及多模态环境中做出决策、归纳总结及跨领域泛化的能力。随...
2025-05-13 07:32:02 796浏览 0点赞 0回复 0收藏
BreakingtheModalityBarrier:UniversalEmbeddingLearningwithMultimodalLLMs20250424|USYD,DeepGlint,AlibabaGroup,ICL(Imperial)🔺28​​http:arxiv.orgabs2504.17432v1​​​​​​https:huggingface.copapers2504.17432​​​​​​https:garygutc.github.ioUniME​​研究背景与意义背景概述:当前多模态表示学习领域,CLIP框架因其跨模态对比学习能力被广泛采用,尤其在图文检索和聚类任务中表现突出。然而,CLIP存在文本...
2025-04-27 23:54:18 780浏览 0点赞 0回复 0收藏
Step1XEdit:APracticalFrameworkforGeneralImageEditing20250424|StepFun,🔺55​​​http:arxiv.orgabs2504.17761v1​​​​​​​​https:huggingface.copapers2504.17761​​​​​​​​https:github.comstepfunaiStep1XEdit​​​研究背景与意义领域现状与挑战近年来,图像编辑技术迅速发展,尤其是在多模态大模型(如GPT4o、Gemini2Flash)推动下,实现了基于自然语言的高质量图像编辑。这些闭源模型在理解复杂编辑指令和...
2025-04-27 23:39:05 846浏览 0点赞 0回复 0收藏
Seaweed7B:CostEffectiveTrainingofVideoGenerationFoundationModel20250411|ByteDance,ByteDanceSeed🔺83​​http:arxiv.orgabs2504.08685v1​​​​​​https:huggingface.copapers2504.08685​​​​​​https:seaweed.video​​研究背景与意义Seaweed7B是一种中等规模的视频生成基础模型,参数量约为70亿。该研究的核心目标是探索一种成本高效的训练策略,在计算资源有限的情况下实现与大规模模型相媲美的性能。视频生成领...
2025-04-16 06:42:44 1019浏览 0点赞 0回复 0收藏
TextCrafter:AccuratelyRenderingMultipleTextsinComplexVisualScenes20250330|NJU,ChinaMobile,HKUST🔺61​​​http:arxiv.orgabs2503.23461v2​​​​​​​​https:huggingface.copapers2503.23461​​​​​​​​https:github.comNJUPCALabTextCrafter.git​​​研究背景与意义复杂视觉文本生成(CVTG)任务近年来受到广泛关注,其核心挑战在于如何在图像的不同区域生成精确、清晰且上下文一致的文本内容。现有模型如FLUX...
2025-04-03 00:24:46 1206浏览 0点赞 0回复 0收藏
TokenHSI:UnifiedSynthesisofPhysicalHumanSceneInteractionsthroughTaskTokenization20250325|ShanghaiAILab,HKU,IndependentResearcher,SEU,FeelingAI|CVPR2025🔺14​​​http:arxiv.orgabs2503.19901v1​​​​​​​​https:huggingface.copapers2503.19901​​​​​​​​https:liangpan99.github.ioTokenHSI​​​研究背景与意义TokenHSI旨在解决当前物理角色控制方法中普遍存在的局限性,即无法有效整合多种复杂的人...
2025-04-03 00:22:01 1461浏览 0点赞 0回复 0收藏
EfficientPersonalizationofQuantizedDiffusionModelwithoutBackpropagation20250319|SNU,INMC&IPAI🔺18​​​http:arxiv.orgabs2503.14868v1​​​​​​​​https:huggingface.copapers2503.14868​​​​​​​​https:ignoww.github.ioZOODiPproject​​​研究背景与意义当前扩散模型在图像生成领域表现出色,但其训练、微调和推理过程需要大量的计算和内存资源。尽管量化技术成功减少了推理时的内存使用,但训练和微调这...
2025-03-24 00:57:40 1552浏览 0点赞 0回复 0收藏
UnifiedRewardModelforMultimodalUnderstandingandGeneration20250307|FDU,SII,ShanghaiAILab,ShanghaiAcademyofArtificialIntelligenceforScience🔺75​​http:arxiv.orgabs2503.05236v1​​​​​​https:huggingface.copapers2503.05236​​​​​​https:codegoat24.github.ioUnifiedReward​​研究背景与意义本文提出了一种名为UNIFIEDREWARD的统一奖励模型,旨在解决多模态理解和生成任务中的偏好对齐问题。现有模型通常...
2025-03-12 00:43:35 2067浏览 0点赞 0回复 0收藏
SWERL:AdvancingLLMReasoningviaReinforcementLearningonOpenSoftwareEvolution20250225|MetaFAIR,UIUC,MetaGenAI,CMU🔺37​​​http:arxiv.orgabs2502.18449v1​​​​​​​​https:huggingface.copapers2502.18449​​​​​​​​https:github.comfacebookresearchswerl​​​研究背景与意义近年来,大型语言模型(LLMs)在软件工程(SE)任务中的应用引起了广泛关注。研究者们探索了LLMs在自动化复杂SE任务中的潜力,例如...
2025-02-27 12:49:30 1977浏览 0点赞 0回复 0收藏
OmniAlignV:TowardsEnhancedAlignmentofMLLMswithHumanPreference20250225|SJTU,ShanghaiAILab,NJU,FDU,ZJU🔺54​​​http:arxiv.orgabs2502.18411v1​​​​​​​​https:huggingface.copapers2502.18411​​​​​​​​https:github.comPhoenixZ810OmniAlignV​​​研究背景与意义随着多模态大语言模型(MLLMs)的快速发展,现有的研究主要集中在提升模型的基础能力,如物体识别、OCR等,而在与人类偏好对齐方面存在显著差...
2025-02-27 12:41:10 2180浏览 0点赞 0回复 0收藏
研究背景与意义在当今的语言模型研究中,长上下文建模被广泛认为是提升模型能力的关键。然而,传统的注意力机制在处理长序列时,计算复杂度高,导致显著的延迟和资源消耗。研究者们逐渐意识到稀疏注意力机制可能是解决这一问题的有效途径。本文提出了一种名为“NativeSparseAttention(NSA)”的机制,旨在通过算法创新与硬件优化的结合,实现高效的长上下文建模。研究背景长上下文建模的重要性:随着应用需求的多样化,长上下...
2025-02-20 10:53:48 2186浏览 0点赞 0回复 0收藏
研究背景与意义在当前的人工智能研究领域,视觉语言模型(VLMs)正迅速发展,特别是在大型语言模型(LLMs)和视觉模型(LVMs)取得显著进展的背景下。本文提出的EVEv2.0模型,旨在解决现有编码器驱动的VLMs在多模态理解和推理中的局限性。研究表明,现有的编码器驱动方法在灵活性和适用性上存在一定挑战,尤其是在处理复杂的视觉信息时。因此,EVEv2.0通过引入无编码器的设计,试图减少视觉和语言之间的干扰,从而提升模型的整...
2025-02-12 14:30:03 2362浏览 0点赞 0回复 0收藏
研究背景与意义研究背景:随着大规模语言模型(LLMs)的迅速发展,训练这些模型所需的计算资源和带宽需求也随之增加。传统的分布式训练方法面临着设备协同和通信延迟等挑战,这使得在数千个加速器上进行有效训练变得复杂。研究意义:本文提出的StreamingDiLoCo方法,旨在通过放宽设备协同的要求,降低训练过程中的带宽需求,从而提高训练效率。这一方法的成功实施将为分布式训练提供新的思路,助力在有限的带宽条件下实现大规模...
2025-02-04 20:45:52 2403浏览 0点赞 0回复 0收藏
研究背景与意义在当前的人工智能研究中,如何提升大型语言模型(LLM)的推理能力是一个重要的课题。传统的推理方法往往依赖于明确的推理步骤和形式化的问题定义,但这在处理复杂的自然语言任务时显得力不从心。本文提出了一种名为“MindEvolution”的进化搜索策略,旨在通过利用语言模型生成、重组和优化候选答案,以应对自然语言规划任务中的推理挑战。研究的意义在于,它不仅提供了一种新的思路来提升LLM的推理深度,还展示了...
2025-01-21 12:19:26 2261浏览 0点赞 0回复 0收藏
获得成就
已积累 5150 人气
获得 0 个点赞
获得 0 次收藏