大模型自然语言处理
LV.5
这个用户很懒,还没有个人简介
声望 942
关注 0
粉丝 1
私信
主帖 114
回帖
多模态大模型VLMs视觉token数量多会影响推理的计算性能,也有相关工作在token压缩上进行了研究,token剪枝是与token压缩不同的提高计算性能的另一种方法,下面来看一个专为文档理解设计的剪枝思路,在多模态文档理解场景的视觉token的剪枝工作,目标是在VLMs处理文档图像前,提前过滤无信息背景区域,以降低计算成本同时保持文档理解性能。如上图框架三个组件:二值文本区域分类器(绿色)、保持索引的token剪枝(蓝色)以及一...
1天前 209浏览 0点赞 0回复 0收藏
ThinkingAugmentedPreTraining(TPT,思考增强预训练)提出源于当前LLM训练的两大核心瓶颈,这也是方法设计的出发点:高质量数据耗尽:LLM训练依赖海量数据(如最新开源模型已用10万亿Token),但人类创作的高质量Web数据已接近枯竭,继续扩大数据规模成本极高;高价值Token难学习:部分关键Token(如数学题答案“890”、逻辑推理结论)背后依赖复杂的多步推理(如多项式除法、余数定理),固定模型容量下,直接学习这类Token只...
1天前 386浏览 0点赞 0回复 0收藏
看到一篇博客,写的不错,原文:Ahitchhiker'sguideintoLLMposttraining,https:tokensforthoughts.notion.siteposttraining101本文仅作译记录。概述本文档旨在作为理解大语言模型(LLM)后训练基础的指南,涵盖了从预训练模型到指令微调模型的完整流程。指南将梳理后训练的全生命周期,探讨以下内容:从“下一个token预测”到“指令遵循”的转变过程有监督微调(SupervisedFineTuning,SFT)基础,包括数据集构建与损失函数各类...
2025-09-28 07:27:05 2314浏览 0点赞 0回复 0收藏
首先从源码角度看Qwen3VL的改进,核心围绕增强多模态融合深度(DeepStack)、优化视觉特征处理、提升时序建模精度(视频时间戳编码)以及精细化归一化设计(文本专用RMSNorm),整体更注重多模态任务中的特征对齐与深层交互。然后概述DeepStack用于多模态大模型的核心思想。Qwen3VL源码侧改进点代码侧改动如下:1.​​hiddenact"silu"​​​>​​hiddenact"gelupytorchtanh"​​2.Qwen3VLProcessor引入​​Qwen3VLVideoProcesso...
2025-09-25 10:56:38 1590浏览 0点赞 0回复 0收藏
pptRAG主要分下面3种:基于layout+OCR的pipline的以文本主导的RAG方案。基于VLMs+图片向量模型的多模态RAG方案。综合上述两种的混合检索那么哪种方式更好?下面主要记录一下评估结论。数据集SlideVQA和LPM数据集中的示例SlideVQA:是一个为推动演示文稿VQA研究而开发的数据集,包含来自SlideShare的2619个ppt,包含超过52000个ppt和14484个VQA样本。该数据集评估模型在文本和视觉ppt元素之间检索相关内容并进行推理的能力,每个...
2025-09-23 08:13:07 746浏览 0点赞 0回复 0收藏
VLMs性能的持续提升,视觉token的消耗呈指数级增长。例如,一张2048×1024的图片在LLaVA1.5中需要576个视觉token,而在Qwen2.5VL中则需2678个视觉token。因此,避免过度使用视觉token显得尤为重要。大多数方法使用预定的Threshold来修剪或合并固定数量的视觉Token。然而,不同问题和图像中的冗余程度各不相同。因此,是否真的应该在所有场景中应用统一的Token压缩比例?下图探讨了简单地降低了图像分辨率以减少视觉token的数量...
2025-09-19 09:36:27 1460浏览 0点赞 0回复 0收藏
前期在《文档智能专栏》中详细介绍了各种pipline(MinerU、ppstructure、Docling等)、检测+多模态VLM(monkeyocr等)、端到端(olmocr等)的文档解析技术链路及相关方案。piplinelayout+VLMVLMfinetune下面再来看一个端到端的解析方案,腾讯开源的多模态大模型POINTSReader,实测了下效果一般,但可以看看数据合成及思路。方法1、数据形式这个不用多说,基本上各种文档解析的格式都趋向大同,纯文本使用Markdown、表格使用html...
2025-09-16 06:56:28 1180浏览 0点赞 0回复 0收藏
VLMs已具备调用图像中心工具的能力,称为“thinkingwithimage”(以图思考),通过支持细粒度推理提升模型对复杂视觉场景的理解能力。然而,开源VLMs在“需要试错探索的复杂视觉搜索任务”中存在显著短板,表现两大问题:复杂任务上准确率极低高难度视觉搜索数据集熵(如DeepEyes)的准确率远低于实际应用需求。推理模式单一+交互轮次有限现有开源模型(如DeepEyes)无法生成灵活的推理策略,仅能进行“单次定位观察”的简单流...
2025-09-11 09:13:12 1488浏览 0点赞 0回复 0收藏
前文在​​RAG常见13种分块策略大总结(一览表)​​​提到,分块策略在RAG中至关重要,目的是提高效率、相关性和上下文保持。但也会带来冗余。引发长上下文RAG应用的效率痛点:在RAG等依赖外部知识的任务(如多轮对话、长文档总结)中,LLMs需要将检索到的大量段落拼接为长上下文输入,但这会引发两大问题:高延迟与高内存消耗:长上下文需占用大量键值缓存(KVCache),且生成第一个token的时间(TTFT,TimetoFirstToken)随...
2025-09-09 09:44:33 1002浏览 0点赞 0回复 0收藏
多模态大模型在推理上虽然效果好,但会强制执行“逐步思考”流程,导致输出token量激增,冗余思考过程不会提升简单任务的准确性,反而可能因“过度推理”引入噪声。现有模型无法根据任务复杂度自主选择“思考模式”(需推理)或“非思考模式”(直接回答),需要手动触发是否思考的条件(如qwen3的开关控制)或者如KeyeVL通过人工标注“任务复杂度标签”触发思考模式,但人工标注成本高、覆盖场景有限,且推理时需额外输出“复...
2025-09-09 09:33:52 1069浏览 0点赞 0回复 0收藏
前期介绍了通过GRPO的方式解决多模态大模型OCR幻觉的思路《​​GRPO强化学习缓解多模态大模型OCR任务的幻觉思路及数据生成思路​​​》。由于多模态大模型的OCR感知能力不是特别强,容易像LLM一样产生幻觉即生成输入图像中并不存在的词汇。LVLMs设计用于通用目的,在OCR任务上的表现往往不如在特定领域数据集上训练的专家模型。幻觉例子下面来看一个方案,首先通过利用自身的OCR能力识别输入图像中的内容,然后调用其他工具(即...
2025-09-03 10:17:32 1962浏览 0点赞 0回复 0收藏
改进点概述:InternVL3.5系列缝合最新开源模型:主要是语言模型侧的替换,如:qwen3和GPTOSS引入视觉分辨率路由器(ViR)模块,该模块可动态选择视觉token的最小分辨率,从而实现更好的推理效率解耦视觉语言部署(DvD),提升推理速度级联强化学习,提升模型性能InternVL3.5模型架构延续了InternVL的“ViT–MLP–LLM”范式,同时针对性能增强和效率优化目标,衍生出基础版InternVL3.5和高效版InternVL3.5Flash两个分支。本文仅...
2025-08-27 08:02:42 3272浏览 0点赞 0回复 0收藏
前面介绍了《​​多模态大模型Ovis核心技术点、训练方法、数据细节​​​》,最近看到更新了Ovis2.5,来看下有哪些改进及策略。改进点概述:Ovis2采用固定分辨率ViT,需将图像分割为固定大小的子图(tiling)处理,这会破坏复杂视觉内容的全局布局连贯性和细粒度细节,Ovis2.5直接以图像原始分辨率(无需分块)输入,支持448²1792²像素。(从代码看,原生分辨率直接从qwen2.5vlcopy过来的)升级LLM为qwen3,增加思考推理能力...
2025-08-26 09:19:55 1605浏览 0点赞 0回复 0收藏
现有自进化LLMs的训练严重依赖人类标注的任务和标签(通过微调或强化学习等方式),成本高、难以扩展。(左):RZero在挑战者和求解者之间采用了协同演化环。(右):RZero在没有任何预定义任务或人类标签的情况下实现了显著的基准提升。提出了RZero框架,从零外部数据出发,通过初始化具有不同角色的Challenger(挑战者)和Solver(求解者),让两者独立优化并协同进化:Challenger因生成接近Solver能力边缘的任务而获得奖励,...
2025-08-21 09:39:12 2255浏览 0点赞 0回复 0收藏
在AI应用极速发展的当下,LLM与RAG系统已成为构建智能问答、知识管理等高阶应用的核心引擎。然而,许多团队在项目落地时遭遇了现实的挑战:模型的实际表现往往难以达到预期。究其根源,是一个常被低估的关键环节:文档解析的质量。现实中的知识载体——PDF报告、扫描文件、图文结合的技术文档——本质上是高度非结构化的。传统OCR工具就像个“近视的搬运工”,只能机械地把图像上的文字“抠”下来,当缺乏结构、语义断裂的“原...
2025-08-20 12:03:35 1858浏览 0点赞 0回复 0收藏
记录下一些结论:通过对OpenAI的GPTOSS模型(20B和120B参数,混合专家架构)与6个主流开源大语言模型(涵盖14.7B235B参数,含密集型和稀疏型架构)的跨领域评估,得出以下结论:GPTOSS模型的InverseScaling现象:参数更少的GPTOSS20B在多个基准测试中持续优于更大的GPTOSS120B,违背了传统的模型缩放定律(参数越多性能越好)。GPTOSS模型在当前开源大语言模型中处于中等水平,整体性能落后于最新架构代码生成表现相对突出,20B...
2025-08-20 11:32:21 3373浏览 0点赞 0回复 0收藏
本文通过将这些方法可视化呈现为旋转操作和维度拆分,能让旋转位置编码(RoPE)、二维旋转位置编码(2DRoPE)以及多模态旋转位置编码(MRoPE)的核心概念更直观、更易于理解。为什么需要位置嵌入?假设有两个语言模型:一个一次只能处理一个词,另一个则可以并行处理所有词。现在,有一个词序列,比如“Dogeatsfood”。对于第一个模型,输入的顺序很重要,因为它必须先处理“Dog”,再处理“eats”,最后处理“food”。但显然,...
2025-08-18 08:29:45 2042浏览 0点赞 0回复 0收藏
快速看一下GLM4.1V多模态方面架构和数据方面的特点。模型架构核心特点1、视觉编码器特点初始化模型:AIMv2Huge作为视觉编码器的基础。3D卷积适配:为提升视频处理效率,参考Qwen2VL的设计,将原始2D卷积替换为3D卷积。这一改动使视频输入的时间维度下采样2倍,减少计算量;对于单张图像,通过复制图像帧保持处理一致性。动态分辨率支持:a.引入2DRoPE到ViT的自注意力层,使模型能够处理极端宽高比(超过200:1)或高分辨率(4K以...
2025-08-15 11:17:29 3795浏览 0点赞 0回复 0收藏
针对高质量、精确对齐的图像文本对稀缺,提出一种新的数据生成管道SynthVLM,用于生成图像caption对:SynthVLM100K,并通过微调模型,SynthVLM100K上预训练的模型就超越了依赖LLaVA558K的基准方法,方法简单直接,下面看看。方法SynthVLM通过两个步骤构建高质量的图像文本数据集:SynthVLM数据合成方法的流水线如下:首先,筛选高质量的图像标题对;接着,合成高质量数据,并依据CLIP得分进行后续筛选。1、合成数据集构建数据来...
2025-08-14 07:28:07 1962浏览 0点赞 0回复 0收藏
现有布局生成方法多针对特定任务(如海报设计、文档布局等),缺乏跨任务的灵活性和通用性,难以统一处理不同场景下的布局需求。布局生成任务的分类,多样的布局生成任务可分为四类:(a)BFEF(无背景与无元素),(b)BCEF(背景约束与无元素),(c)BFEC(无背景且元素约束)和(d)BCEC(背景约束与元素约束)。不同任务需要不同的模型,这缺乏灵活性。在每个任务内部,存在指标性能与人类感知之间的差异:(“生成布局1”)指标较好...
2025-08-12 08:36:43 1512浏览 0点赞 0回复 0收藏
获得成就
已积累 7.0w 人气
获得 0 个点赞
获得 2 次收藏