DesignLab:DesigningSlidesThroughIterativeDetectionandCorrection20250723|Sony,KAIST🔺33http:arxiv.orgabs2507.17202v1https:huggingface.copapers2507.17202https:yeolj00.github.iopersonalprojectsdesignlab研究背景与意义问题定义与现状概述高质量的演示幻灯片设计对于非专业人士而言是一项复杂且挑战性的任务,涉及内容布局、配色方案、字体选择等多方面的细节。现有自...
Pixels,Patterns,butNoPoetry:ToSeeTheWorldlikeHumans20250721|UCAS,NJU,NUS,BUPT,NKU,PSU,PKU,BJTU🔺46http:arxiv.orgabs2507.16863v1https:huggingface.copapers2507.16863https:TuringEyeTest.github.io研究背景与意义多模态大语言模型(MLLMs)近年来在视觉理解与语言处理的结合上取得了显著进展,成为人工智能领域的重要研究方向。尽管已有研究多聚焦于提升MLLMs的推理能力...
3DSceneGeneration:ASurvey20250508|NTU🔺10http:arxiv.orgabs2505.05474v1https:huggingface.copapers2505.05474https:github.comhzxieAwesome3DSceneGeneration研究背景与意义图片3D场景生成旨在创建具有空间结构、语义意义和逼真视觉效果的虚拟环境,支撑沉浸式媒体、机器人、自动驾驶和embodiedAI等多种应用。随着虚拟现实、虚拟制作、城市规划等需求的增长,逼真、多样且具...
2025-07-07 06:29:17 552浏览 0点赞 0回复 0收藏
Perception,Reason,Think,andPlan:ASurveyonLargeMultimodalReasoningModels20250508|HIT,Shenzhen🔺79http:arxiv.orgabs2505.04921v1https:huggingface.copapers2505.04921https:github.comHITszTMGAwesomeLargeMultimodalReasoningModels研究背景与意义智能推理的核心地位:推理作为智能行为的核心,赋予人工智能系统在多变、不确定及多模态环境中做出决策、归纳总结及跨领域泛...
2025-07-07 06:17:39 1197浏览 0点赞 0回复 0收藏
ImprovedIterativeRefinementforCharttoCodeGenerationviaStructuredInstruction20250615|SJTU,ShanghaiInno,LehighU,BIGAI,BIGAI🔺8http:arxiv.orgabs2506.14837v1https:huggingface.copapers2506.14837研究背景与意义问题定义与现状概述多模态大语言模型(MLLMs)在视觉理解领域表现卓越,但在图表到代码生成任务中仍存在明显不足。该任务不仅要求模型精准理解高密度、多维度的图表信息,还需将其准确转...
2025-06-23 06:24:31 672浏览 0点赞 0回复 0收藏
REIMAGINE:SymbolicBenchmarkSynthesisforReasoningEvaluation20250618|MSRCUK,MicrosoftResearchIndia|ICML2025🔺2http:arxiv.orgabs2506.15455v1https:huggingface.copapers2506.15455研究背景与意义问题定义与现状当前大型语言模型(LLMs)在多种推理基准测试中表现出较高准确率,但仍存在争议,即这些结果是否源自真正的推理能力,还是仅仅是训练数据的统计记忆。推理作为一种认知过程,涉及基于事实...
2025-06-23 06:22:11 724浏览 0点赞 0回复 0收藏
RoboRefer:TowardsSpatialReferringwithReasoninginVisionLanguageModelsforRobotics20250604|BUAA,PKU,BAAI🔺32http:arxiv.orgabs2506.04308v1https:huggingface.copapers2506.04308https:zhoues.github.ioRoboRefer研究背景与意义问题定义与现状空间指称是机器人理解并与三维物理世界交互的基础能力。尽管现有预训练视觉语言模型(VLMs)在二维视觉任务上表现优异,但它们在复杂三维场景的...
2025-06-09 22:40:39 847浏览 0点赞 0回复 0收藏
Perception,Reason,Think,andPlan:ASurveyonLargeMultimodalReasoningModels20250508|HIT,Shenzhen🔺79http:arxiv.orgabs2505.04921v1https:huggingface.copapers2505.04921https:github.comHITszTMGAwesomeLargeMultimodalReasoningModels研究背景与意义智能推理的核心地位:推理作为智能行为的核心,赋予人工智能系统在多变、不确定及多模态环境中做出决策、归纳总结及跨领域泛化的能力。随...
2025-05-13 07:32:02 1774浏览 0点赞 0回复 0收藏
BreakingtheModalityBarrier:UniversalEmbeddingLearningwithMultimodalLLMs20250424|USYD,DeepGlint,AlibabaGroup,ICL(Imperial)🔺28http:arxiv.orgabs2504.17432v1https:huggingface.copapers2504.17432https:garygutc.github.ioUniME研究背景与意义背景概述:当前多模态表示学习领域,CLIP框架因其跨模态对比学习能力被广泛采用,尤其在图文检索和聚类任务中表现突出。然而,CLIP存在文本...
2025-04-27 23:54:18 1300浏览 0点赞 0回复 0收藏
Step1XEdit:APracticalFrameworkforGeneralImageEditing20250424|StepFun,🔺55http:arxiv.orgabs2504.17761v1https:huggingface.copapers2504.17761https:github.comstepfunaiStep1XEdit研究背景与意义领域现状与挑战近年来,图像编辑技术迅速发展,尤其是在多模态大模型(如GPT4o、Gemini2Flash)推动下,实现了基于自然语言的高质量图像编辑。这些闭源模型在理解复杂编辑指令和...
2025-04-27 23:39:05 1434浏览 0点赞 0回复 0收藏
Seaweed7B:CostEffectiveTrainingofVideoGenerationFoundationModel20250411|ByteDance,ByteDanceSeed🔺83http:arxiv.orgabs2504.08685v1https:huggingface.copapers2504.08685https:seaweed.video研究背景与意义Seaweed7B是一种中等规模的视频生成基础模型,参数量约为70亿。该研究的核心目标是探索一种成本高效的训练策略,在计算资源有限的情况下实现与大规模模型相媲美的性能。视频生成领...
2025-04-16 06:42:44 1685浏览 0点赞 0回复 0收藏
TextCrafter:AccuratelyRenderingMultipleTextsinComplexVisualScenes20250330|NJU,ChinaMobile,HKUST🔺61http:arxiv.orgabs2503.23461v2https:huggingface.copapers2503.23461https:github.comNJUPCALabTextCrafter.git研究背景与意义复杂视觉文本生成(CVTG)任务近年来受到广泛关注,其核心挑战在于如何在图像的不同区域生成精确、清晰且上下文一致的文本内容。现有模型如FLUX...
2025-04-03 00:24:46 1631浏览 0点赞 0回复 0收藏
TokenHSI:UnifiedSynthesisofPhysicalHumanSceneInteractionsthroughTaskTokenization20250325|ShanghaiAILab,HKU,IndependentResearcher,SEU,FeelingAI|CVPR2025🔺14http:arxiv.orgabs2503.19901v1https:huggingface.copapers2503.19901https:liangpan99.github.ioTokenHSI研究背景与意义TokenHSI旨在解决当前物理角色控制方法中普遍存在的局限性,即无法有效整合多种复杂的人...
2025-04-03 00:22:01 2097浏览 0点赞 0回复 0收藏
EfficientPersonalizationofQuantizedDiffusionModelwithoutBackpropagation20250319|SNU,INMC&IPAI🔺18http:arxiv.orgabs2503.14868v1https:huggingface.copapers2503.14868https:ignoww.github.ioZOODiPproject研究背景与意义当前扩散模型在图像生成领域表现出色,但其训练、微调和推理过程需要大量的计算和内存资源。尽管量化技术成功减少了推理时的内存使用,但训练和微调这...
2025-03-24 00:57:40 1977浏览 0点赞 0回复 0收藏
UnifiedRewardModelforMultimodalUnderstandingandGeneration20250307|FDU,SII,ShanghaiAILab,ShanghaiAcademyofArtificialIntelligenceforScience🔺75http:arxiv.orgabs2503.05236v1https:huggingface.copapers2503.05236https:codegoat24.github.ioUnifiedReward研究背景与意义本文提出了一种名为UNIFIEDREWARD的统一奖励模型,旨在解决多模态理解和生成任务中的偏好对齐问题。现有模型通常...
2025-03-12 00:43:35 2581浏览 0点赞 0回复 0收藏
SWERL:AdvancingLLMReasoningviaReinforcementLearningonOpenSoftwareEvolution20250225|MetaFAIR,UIUC,MetaGenAI,CMU🔺37http:arxiv.orgabs2502.18449v1https:huggingface.copapers2502.18449https:github.comfacebookresearchswerl研究背景与意义近年来,大型语言模型(LLMs)在软件工程(SE)任务中的应用引起了广泛关注。研究者们探索了LLMs在自动化复杂SE任务中的潜力,例如...
2025-02-27 12:49:30 2514浏览 0点赞 0回复 0收藏
OmniAlignV:TowardsEnhancedAlignmentofMLLMswithHumanPreference20250225|SJTU,ShanghaiAILab,NJU,FDU,ZJU🔺54http:arxiv.orgabs2502.18411v1https:huggingface.copapers2502.18411https:github.comPhoenixZ810OmniAlignV研究背景与意义随着多模态大语言模型(MLLMs)的快速发展,现有的研究主要集中在提升模型的基础能力,如物体识别、OCR等,而在与人类偏好对齐方面存在显著差...
2025-02-27 12:41:10 2769浏览 0点赞 0回复 0收藏
研究背景与意义在当今的语言模型研究中,长上下文建模被广泛认为是提升模型能力的关键。然而,传统的注意力机制在处理长序列时,计算复杂度高,导致显著的延迟和资源消耗。研究者们逐渐意识到稀疏注意力机制可能是解决这一问题的有效途径。本文提出了一种名为“NativeSparseAttention(NSA)”的机制,旨在通过算法创新与硬件优化的结合,实现高效的长上下文建模。研究背景长上下文建模的重要性:随着应用需求的多样化,长上下...
2025-02-20 10:53:48 2738浏览 0点赞 0回复 0收藏
研究背景与意义在当前的人工智能研究领域,视觉语言模型(VLMs)正迅速发展,特别是在大型语言模型(LLMs)和视觉模型(LVMs)取得显著进展的背景下。本文提出的EVEv2.0模型,旨在解决现有编码器驱动的VLMs在多模态理解和推理中的局限性。研究表明,现有的编码器驱动方法在灵活性和适用性上存在一定挑战,尤其是在处理复杂的视觉信息时。因此,EVEv2.0通过引入无编码器的设计,试图减少视觉和语言之间的干扰,从而提升模型的整...
2025-02-12 14:30:03 2901浏览 0点赞 0回复 0收藏
研究背景与意义研究背景:随着大规模语言模型(LLMs)的迅速发展,训练这些模型所需的计算资源和带宽需求也随之增加。传统的分布式训练方法面临着设备协同和通信延迟等挑战,这使得在数千个加速器上进行有效训练变得复杂。研究意义:本文提出的StreamingDiLoCo方法,旨在通过放宽设备协同的要求,降低训练过程中的带宽需求,从而提高训练效率。这一方法的成功实施将为分布式训练提供新的思路,助力在有限的带宽条件下实现大规模...
2025-02-04 20:45:52 2995浏览 0点赞 0回复 0收藏