1.StopOverthinking:ASurveyonEfficientReasoningforLargeLanguageModels现在的大模型确实很厉害,尤其是在处理复杂任务时。最近像OpenAI的o1和DeepSeekR1这些大推理模型,通过监督微调加强化学习的方法,把那种一步一步的推理能力(也就是CoT)提升了不少。不过这里有个矛盾点——虽然更长的推理链条能提高准确率,但也会因为输出太啰嗦、重复而增加计算成本,我们管这个叫"过度思考"问题。最近我们团队做了个系统的研究综述,...
在数字化时代,视觉信息在知识传递和决策支持中的重要性日益凸显。然而,传统的检索增强型生成(RAG)方法在处理视觉丰富信息时面临着诸多挑战。一方面,传统的基于文本的方法无法处理视觉相关数据;另一方面,现有的视觉RAG方法受限于定义的固定流程,难以有效激活模型的推理能力。来自阿里巴巴通义实验室的最新研究成果——VRAGRL(EmpowerVisionPerceptionBasedRAGforVisuallyRichInformationUnderstandingviaIterativeReaso...
2025-06-06 06:18:32 463浏览 0点赞 0回复 0收藏
背景随着GPT4o在图像生成任务上的横空出世,以及越来越多采用自回归架构(autoregressivearchitecture)的文本到图像(T2I)模型迅速发展,当前一代的生成模型在理解与执行用户复杂指令(prompts)方面,已经实现了飞跃式突破✨。如今的T2I模型不仅能识别多个属性(如颜色、材质、风格等),还能处理带有逻辑推理结构甚至复杂修辞的超长自然语言指令。Asquareimagecontaininga4rowby4columngridcontaining16objectsonawhiteback...
2025-06-06 06:14:42 661浏览 0点赞 0回复 0收藏
在大语言模型(LLMs)的后训练与推理Scaling时代,一个革命性范式正在崛起:LearningfromRewards(奖励驱动学习)。从OpenAIo1和DeepSeekR1中的强化学习,到测试时的BestofN采样,奖励信号不再只是训练噪声的附属,而是引领模型走向主动学习的导航星标。它使模型更贴近人类偏好、具备复杂推理能力,推动迈向更通用、更智能、更可控的AI系统!本文是当前最系统的LearningfromRewards综述之一,全面梳理该范式在LLMs后训练(PostTr...
2025-05-23 06:41:48 550浏览 0点赞 0回复 0收藏
图片论文:MorphMark:FlexibleAdaptiveWatermarkingforLargeLanguageModels链接:https:arxiv.orgabs2505.11541图片一、研究背景随着大型语言模型(LLMs)在自然语言生成领域的广泛应用,AI生成内容的可追溯性和版权保护已成为亟待解决的核心问题。基于红绿表(RedGreenList)机制的水印技术应运而生,通过嵌入可检测的独特模式来区分AI生成内容与人类创作内容。然而,现有方法普遍面临一个根本性矛盾:提升水印有效性往往导致...
2025-05-23 06:39:02 1031浏览 0点赞 0回复 0收藏
今日分享一篇罗格斯大学团队发现了大语言模型注意力机制的查询(Q)和键(K)表示中存在非常集中的大值,并探讨了这些极大值的应用以及来源,该研究已经被机器学习三大顶会之一ICML收录.。这项研究揭示了大型语言模型中一个重要现象:在注意力机制的查询(Q)和键(K)表示中存在集中的大值,而在值(V)表示中却没有这种模式。这一现象在使用旋转位置编码(RoPE)的现代Transformer模型中普遍存在。四大核心发现1.极大值在Q和K中的特定...
2025-05-09 06:02:39 947浏览 0点赞 0回复 0收藏
1.Any2Caption:InterpretingAnyConditiontoCaptionforControllableVideoGeneration在视频创作领域,如何精准理解用户需求一直是个难题。今天,我们带来一项革命性突破——Any2Caption!这个全新框架让视频生成彻底告别"意难平",无论什么条件都能精准把控创作方向。核心优势:智能分离两大步骤:先解析用户需求,再生成视频,避免"理解偏差"全能输入支持:文字、图片、视频甚至专业参数(如镜头运动、拍摄角度)都能"听懂"AI大...
2025-04-24 07:26:36 954浏览 0点赞 0回复 0收藏
1.Qwen2.5OmniTechnicalReport我们全新推出Qwen2.5Omni,一个能同时理解文字、图片、声音和视频的"全能型"AI模型!它像人类一样,不仅能看图听声,还能边思考边生成自然流畅的文本和语音回答。三大创新亮点:1)同步感知:采用独特的"交错处理"技术,让视频画面和音频完美同步,配合创新的"时间对齐"算法,确保多模态信息精准配合。2)双轨生成:独创"思考者说话者"架构——思考者:像超强大脑一样生成文字内容说话者:根据思考...
2025-04-14 01:06:10 1510浏览 0点赞 0回复 0收藏
1.LongContextAutoregressiveVideoModelingwithNextFramePrediction在语言生成领域,长上下文自回归模型已取得显著进展,但视频生成却一直难以有效利用长时间序列信息。为解决这一难题,我们提出了一种名为FrameAutoRegressive的全新视频生成方法。。FAR借鉴了语言模型逐帧学习的思路,通过捕捉视频连续帧之间的时序因果关系,显著提升了模型的收敛效率,表现优于现有主流方法(如TokenAR和视频扩散模型)。然而,长视频生成仍...
2025-04-01 00:57:00 1426浏览 0点赞 0回复 0收藏
1.TransformerswithoutNormalization在现代深度学习模型中,归一化层几乎成了标配,大家普遍认为不可或缺。但我们的研究发现,其实不用归一化层也能让Transformer模型表现优异——只需要一个简单的小技巧就够了。我们提出的动态双曲正切函数(DyT),本质上就是通过调整参数α来控制tanh函数的形状(DyT(x)tanh(αx)),这个方法能完美替代归一化层的功能。这灵感来自于Transformer中常用的层归一化,它其实和tanh函数的S型曲线...
2025-03-20 07:32:59 2221浏览 0点赞 0回复 0收藏
1.ProcessbasedSelfRewardingLanguageModels大型语言模型在各类下游任务中表现都很不错,现在已经在好多场景里广泛应用了。我们通过用人类标注的偏好数据训练语言模型,让它性能得到了进一步提升。不过,这种性能是受限于人类能力上限的。为了突破这个限制,有人提出了自奖励方法,就是让语言模型自己给自己输出的内容奖励,然后用这些奖励数据来训练。但现在已有的自奖励方法在数学推理场景中不太好用,弄不好还会让模型性能变...
2025-03-07 11:20:21 1643浏览 0点赞 0回复 0收藏
1.StepVideoT2VTechnicalReport:ThePractice,Challenges,andFutureofVideoFoundationModel我们提出了StepVideoT2V,这是个有300亿参数的超厉害的文本到视频预训练模型,它能生成有204帧那么长的视频内容。为了做好视频生成这个任务,我们专门设计了一个深度压缩变分自动编码器,也就是VideoVAE。它能把空间压缩到16x16,时间上压缩8倍,还能保证视频重建的质量非常高。。用户要是输入提示内容,我们用两个双语文本编码器来处理...
2025-02-18 13:41:43 2347浏览 0点赞 0回复 0收藏
1.GoldmedalistPerformanceinSolvingOlympiadGeometrywithAlphaGeometry2我们推出了AlphaGeometry2,这是对Trinh等人在2024年提出的AlphaGeometry的重大改进版本,如今它在解决奥林匹克几何问题方面的能力已经超过了普通金牌得主。为了实现这一突破,我们首先对原有的AlphaGeometry语言进行了扩展,使其能够处理涉及物体运动的更难题型,以及包含角度、比例和距离的线性方程的问题。这些改进以及其他新增内容,显著提高了AlphaG...
2025-02-10 12:03:05 2066浏览 0点赞 0回复 0收藏
1.Kimik1.5:ScalingReinforcementLearningwithLLMs语言模型预训练时,通过预测下一个词来提升计算量的方法效果不错,可训练数据量却限制了它的进一步发展。强化学习(RL)的拓展则为人工智能持续进步提供了新途径,让大语言模型(LLMs)有机会通过学习探索扩充训练数据。不过,之前相关研究成果都不太理想,没有特别突出的。基于这样的情况,我们来分享Kimik1.5的训练过程。这是我们新研发的多模态LLM,使用RL训练。我们会讲讲R...
2025-01-26 14:40:21 2083浏览 0点赞 0回复 0收藏
1.算法介绍朴素贝叶斯是一种基于贝叶斯定理的分类算法,广泛应用于文本分类、垃圾邮件过滤、情感分析等领域。它是一种简单但非常有效的分类方法,特别适用于高维度特征空间的分类问题。朴素贝叶斯分类器的"朴素"来源于它对特征之间独立性的假设。尽管这个假设在现实中往往不成立,但该算法在许多实际应用中仍然表现出色。2.算法原理3.案例分析我们使用著名的鸢尾花(Iris)数据集来演示朴素贝叶斯分类器的应用。首先建立朴素贝叶斯分...
2025-01-16 12:17:39 1692浏览 0点赞 0回复 0收藏
1.MiniMax01:ScalingFoundationModelswithLightningAttention我们推出了MiniMax01系列,包括MiniMaxText01和MiniMaxVL01。这两款产品不仅性能可与顶尖模型相媲美,而且在处理更长文本上下文方面具备卓越能力。其核心技术是LightningAttention及其高效的扩展方法。为充分发挥计算能力,我们将其与混合专家(MoE)技术相结合,打造出拥有32个专家模块、共计4560亿参数的模型,每个Token激活459亿参数。针对MoE和闪电注意力机制,...
2025-01-16 12:14:33 2339浏览 0点赞 0回复 0收藏
1.PersonalizedGraphBasedRetrievalforLargeLanguageModels随着大语言模型(LLMs)的演进,它们提供个性化和上下文相关响应的能力具有改变用户体验的潜力。然而,现有的个性化方法通常仅依赖用户历史来增强提示,这在冷启动场景或数据稀疏的情况下限制了其有效性。为了克服这些限制,我们提出了一种基于图的个性化检索增强生成(PGraphRAG)框架,该框架利用用户中心的知识图来丰富个性化。通过直接将结构化的用户知识融入检索...
2025-01-08 13:04:30 1883浏览 0点赞 0回复 0收藏
量化已成为压缩大语言模型(LLMs)的最有效方法之一。然而,现有的量化方案仍然存在不可忽视的准确性下降或系统效率低下的局限性。在本文中,我们全面分析了量化的一般原则对准确性、内存消耗和系统效率三角关系的影响。我们提出了MixLLM,这是一种基于输出特征之间的混合精度量化的方法。MixLLM从全局视角识别高显著性的输出特征,而非仅在单层内部,有效地为最需要的输出特征分配更大的位宽,从而在低内存消耗的情况下实现良...
2024-12-30 13:03:29 2719浏览 0点赞 0回复 0收藏
1.VidTok:AVersatileandOpenSourceVideoTokenizer将视频内容编码为紧凑的潜在token已经成为视频生成和理解中的一个基本步骤,这是为了应对像素级表示中固有的冗余问题。因此,随着以视频为中心的研究日益重要,对高性能、开源视频token化工具的需求也在不断增长。我们推出了VidTok,这是一种多功能的视频Tokenizer,在连续和离散token化方面都提供了最先进的性能。VidTok相较于现有方法引入了几个关键改进:模型架构方面采用了...
2024-12-20 10:36:02 2410浏览 0点赞 0回复 0收藏
1.VideoEspresso:ALargeScaleChainofThoughtDatasetforFineGrainedVideoReasoningviaCoreFrameSelection大型视觉语言模型(LVLMs)的进步显著提升了多模态理解能力,但在视频推理任务中仍面临挑战,主要原因是高质量、大规模数据集的缺乏。现有的视频问答(VideoQA)数据集往往依赖于成本高昂且粒度不足的手动标注,或者使用会产生冗余帧分析的自动构建方法,这限制了它们在复杂推理任务中的可扩展性和有效性。为了解决这些挑战...
2024-12-10 10:30:06 3065浏览 0点赞 0回复 0收藏