我们提出了一个仅基于状态空间模型(SSM)的高效视频理解架构VideoMamba,并通过大量的实验证明了它具备一系列良好的特性,包括(1)VisualDomainScalability;(2)ShorttermActionSensitivity;(3)LongtermVideoSuperiority;(4)ModalityCompatibility。这使得VideoMamba在一系列视频benchmark上取得不俗的结果,尤其是长视频benchmark,为未来更全面的视频理解提供了更高效的方案。论文题目:VideoMamba:StateSpaceModelforEfficientV...
2024-04-09 10:21:16 1593浏览 0点赞 0回复 0收藏
在构建人工智能系统的过程中,数据的质量至关重要,但现实世界中的数据往往充满了噪声,甚至被恶意投毒,这给人工智能的发展带来了巨大的挑战。如何有效地清洗这些“脏样本”,以确保模型训练的准确性和可靠性,成为了一个亟待解决的问题。近期,香港中文大学(深圳)与腾讯AILab的研究团队在ICLR2024提出了提出了一种通用的数据清洗框架(VDC),利用多模态大模型(MLLM)来识别数据集中的视觉语言不一致性,从而检测出数据集...
2024-04-08 11:00:00 2494浏览 0点赞 0回复 0收藏
针对目前音乐生成3D舞蹈动作中存在的长序列生成动作质量差,生成效率低的问题,本文提出了Lodge,可以高效地根据输入音乐生成极长的3D人体舞蹈动作。本文将Lodge设计为两阶段的由粗到细的Diffusion框架,并提出了特征化的舞蹈基元动作作为两阶段Diffusion的中间层表征,从而让Lodge可以兼顾全局编舞规律和局部的动作质量,并且增强舞蹈的表现力。此外,本文还提出了脚步优化模块以缓解脚和地面的接触问题如脚滑、脚步漂浮等。文...
2024-03-28 14:40:56 1555浏览 0点赞 0回复 0收藏
当前研究关注大型语言模型在处理已知和未知问题时的知识边界。主要问题可分为四类:单一已知问题可通过模型内部知识解决,单一未知问题需调用外部工具获取知识,组合已知问题需要复杂推理,而组合未知问题则包含其他可能性。如何选择使用外部检索或模型内部知识来回答问题是个挑战。一种方法是朴素RAG,另一种是先评估问题的确定性或不确定性,然后调用生成读取或检索读取。然而,这两种方法都有局限性,简单地调用外部检索并不...
2024-03-28 14:30:10 1265浏览 0点赞 0回复 0收藏
人类的语言是一种对复杂世界的高度简洁的编码,特别是语言中颜色的概念,成功地将原本极大的色彩空间(如256三次方真色彩空间)压缩至5到10种颜色。受此启发,来自上海交大,日本理化学研究所,东京大学的研究人员,提出全新的基于视觉任务的色彩量化(colourquantisation)技术,利用深度学习重现人类数万年的颜色概念的演化。这项技术不但能推进文化人类学的研究,更是为网络量化(neuralnetworkquantisation)以及多模态大语言...
2024-03-28 14:23:35 1031浏览 0点赞 0回复 0收藏