大模型自然语言处理
LV.5
这个用户很懒,还没有个人简介
声望 834
关注 0
粉丝 1
私信
主帖 102
回帖
前面介绍了《​​多模态大模型Ovis核心技术点、训练方法、数据细节​​​》,最近看到更新了Ovis2.5,来看下有哪些改进及策略。改进点概述:Ovis2采用固定分辨率ViT,需将图像分割为固定大小的子图(tiling)处理,这会破坏复杂视觉内容的全局布局连贯性和细粒度细节,Ovis2.5直接以图像原始分辨率(无需分块)输入,支持448²1792²像素。(从代码看,原生分辨率直接从qwen2.5vlcopy过来的)升级LLM为qwen3,增加思考推理能力...
3h前 92浏览 0点赞 0回复 0收藏
现有自进化LLMs的训练严重依赖人类标注的任务和标签(通过微调或强化学习等方式),成本高、难以扩展。(左):RZero在挑战者和求解者之间采用了协同演化环。(右):RZero在没有任何预定义任务或人类标签的情况下实现了显著的基准提升。提出了RZero框架,从零外部数据出发,通过初始化具有不同角色的Challenger(挑战者)和Solver(求解者),让两者独立优化并协同进化:Challenger因生成接近Solver能力边缘的任务而获得奖励,...
5天前 1460浏览 0点赞 0回复 0收藏
在AI应用极速发展的当下,LLM与RAG系统已成为构建智能问答、知识管理等高阶应用的核心引擎。然而,许多团队在项目落地时遭遇了现实的挑战:模型的实际表现往往难以达到预期。究其根源,是一个常被低估的关键环节:文档解析的质量。现实中的知识载体——PDF报告、扫描文件、图文结合的技术文档——本质上是高度非结构化的。传统OCR工具就像个“近视的搬运工”,只能机械地把图像上的文字“抠”下来,当缺乏结构、语义断裂的“原...
6天前 1328浏览 0点赞 0回复 0收藏
记录下一些结论:通过对OpenAI的GPTOSS模型(20B和120B参数,混合专家架构)与6个主流开源大语言模型(涵盖14.7B235B参数,含密集型和稀疏型架构)的跨领域评估,得出以下结论:GPTOSS模型的InverseScaling现象:参数更少的GPTOSS20B在多个基准测试中持续优于更大的GPTOSS120B,违背了传统的模型缩放定律(参数越多性能越好)。GPTOSS模型在当前开源大语言模型中处于中等水平,整体性能落后于最新架构代码生成表现相对突出,20B...
6天前 1953浏览 0点赞 0回复 0收藏
本文通过将这些方法可视化呈现为旋转操作和维度拆分,能让旋转位置编码(RoPE)、二维旋转位置编码(2DRoPE)以及多模态旋转位置编码(MRoPE)的核心概念更直观、更易于理解。为什么需要位置嵌入?假设有两个语言模型:一个一次只能处理一个词,另一个则可以并行处理所有词。现在,有一个词序列,比如“Dogeatsfood”。对于第一个模型,输入的顺序很重要,因为它必须先处理“Dog”,再处理“eats”,最后处理“food”。但显然,...
8天前 726浏览 0点赞 0回复 0收藏
快速看一下GLM4.1V多模态方面架构和数据方面的特点。模型架构核心特点1、视觉编码器特点初始化模型:AIMv2Huge作为视觉编码器的基础。3D卷积适配:为提升视频处理效率,参考Qwen2VL的设计,将原始2D卷积替换为3D卷积。这一改动使视频输入的时间维度下采样2倍,减少计算量;对于单张图像,通过复制图像帧保持处理一致性。动态分辨率支持:a.引入2DRoPE到ViT的自注意力层,使模型能够处理极端宽高比(超过200:1)或高分辨率(4K以...
2025-08-15 11:17:29 2944浏览 0点赞 0回复 0收藏
针对高质量、精确对齐的图像文本对稀缺,提出一种新的数据生成管道SynthVLM,用于生成图像caption对:SynthVLM100K,并通过微调模型,SynthVLM100K上预训练的模型就超越了依赖LLaVA558K的基准方法,方法简单直接,下面看看。方法SynthVLM通过两个步骤构建高质量的图像文本数据集:SynthVLM数据合成方法的流水线如下:首先,筛选高质量的图像标题对;接着,合成高质量数据,并依据CLIP得分进行后续筛选。1、合成数据集构建数据来...
2025-08-14 07:28:07 1384浏览 0点赞 0回复 0收藏
现有布局生成方法多针对特定任务(如海报设计、文档布局等),缺乏跨任务的灵活性和通用性,难以统一处理不同场景下的布局需求。布局生成任务的分类,多样的布局生成任务可分为四类:(a)BFEF(无背景与无元素),(b)BCEF(背景约束与无元素),(c)BFEC(无背景且元素约束)和(d)BCEC(背景约束与元素约束)。不同任务需要不同的模型,这缺乏灵活性。在每个任务内部,存在指标性能与人类感知之间的差异:(“生成布局1”)指标较好...
2025-08-12 08:36:43 974浏览 0点赞 0回复 0收藏
前期几篇内容介绍了原生分辨率及相关评估:《​​多模态大模型中图像分辨率packing策略及原生分辨率NaViT的部分结论​​​​》和《​​​多模态大模型中不同分辨率策略研究与原生分辨率的有效性评估​​​》,再来看一个关于多模态大模型处理不同分辨率的trick,提到现有多模态大模型在处理高分辨率图像时,因固定划分图像为全局和局部区域导致视觉token数量过多、推理效率低下,且无法根据任务需求自适应调整视觉粒度的问题。...
2025-08-12 08:31:28 766浏览 0点赞 0回复 0收藏
传统上,ViT会将输入图像调整为固定的正方形纵横比,然后分割为固定数量的patches。但这种做法存在局限性,例如可能破坏图像的原始纵横比,影响模型对图像内容的理解,且在训练和推理效率上有提升空间。前期《​​​多模态大模型中不同分辨率策略研究与原生分辨率的有效性评估​​​》评估结论也通过评估得到,原生分辨率对于多模态大模型有增益,再来看下NaVit的原生分辨率packing策略,该工作由23年提出,但应该是比较早的原...
2025-08-06 06:19:27 639浏览 0点赞 0回复 0收藏
目前多模态在图像分辨率输入上的方法主要有以下几种:1.上采样方法:通过提升位置编码的分辨率,整合多尺度图像表征。代表:QwenVL、S²extension,通过扩展视觉特征的分辨率范围适配高分辨率输入。2.基于裁剪的方法围绕图像的预处理,包括归一化、缩放、裁剪、根据宽高比动态处理等操作如下图:预设一个默认分辨率,称之为tile,随后将图片切分成子图,每个子图的shape与tile一致,再在batch维度做拼接。tiling还会将原图也res...
2025-08-04 08:07:09 1089浏览 0点赞 0回复 0收藏
多模态大模型MLLMs能够处理高分辨率图像、长视频序列和冗长音频输入等复杂上下文,但自注意力机制的二次复杂度使得大量输入token带来了巨大的计算和内存需求。如下图,上:图像、视频和音频数据类型可以在其表示维度上进行扩展,从而导致token数量的相应增加。下:表现最佳的多模态大模型无法满足现实世界的需求,因为多模态输入(尤其是视频)的token数量远远超过文本,并且大多数视觉token是冗余的。因此token压缩对于解决这...
2025-08-04 08:04:45 1171浏览 0点赞 0回复 0收藏
VLMs在多模态推理中虽表现强大,但在处理特定场景时易产生“幻觉”,如:复杂场景适配问题:面对第一视角图像(如智能眼镜拍摄的实时画面)、长尾实体(罕见物体概念)、多跳推理问题(需多步逻辑推导)时,模型易因知识不足或误判生成错误结论;知识时效性问题:模型依赖内部先验知识,对涉及时效性的内容(如实时事件、动态变化的信息)易输出过时答案。比赛链接:https:www.aicrowd.comchallengesmetacragmmchallenge2025方...
2025-07-31 06:40:49 402浏览 0点赞 0回复 0收藏
前面笔者介绍了《​​大模型在知识图谱问答上的核心算法详细思路及实践​​​​》,一般的Text2SparqlText2SQL技术路线图如下,目标是奖自然语言转话为可查询的SQL语句。目前基于KG+LLM+Agent的KBQA方案,在多语言场景未得到充分探索。下面来看一个智能体框架mKGQAgent,通过模拟人类推理过程将自然语言问题转化为SPARQL查询。mKGQAgent架构mKGQAgent工作流演示(在线阶段)。在评估阶段,mKGQAgent利用经验池中的实例来优化规...
2025-07-29 10:00:19 1469浏览 0点赞 0回复 0收藏
多模态大模型在“看不清”文字时瞎编答案,称为“OCR幻觉”,如下图,主要有几点:(1)预训练阶段缺乏相关数据:关键信息提取(KIE)数据以及退化视觉场景的清晰标注显著不足,限制了模型处理复杂视觉输入的能力。指令微调阶段忽视退化场景:现有研究通常假设OCR任务输入为非退化图像,导致模型缺乏处理真实世界退化文档(如模糊、遮挡、低对比度)所需的推理能力。Qwen2.5VL7B(左)与GPT4o(右)在解读退化文本图像中的表现...
2025-07-28 09:54:40 1967浏览 0点赞 0回复 0收藏
前言本文介绍了一个融合RAG(RetrievalAugmentedGeneration)思路的KBQA(KnowledgeBasedQuestionAnswering)系统的核心算法及实现步骤。KBQA系统的目标是通过自然语言处理技术,从知识图谱中提取和生成精确的答案。系统的实现包括多个关键步骤:mention识别、实体链接及排序、属性选择及排序、文本拼接以及最终的Text2SQL生成。通过这些步骤,系统能够准确识别用户提出的问题中的关键实体和属性,并生成相应的查询语句,从而从...
2025-07-28 09:50:50 2807浏览 0点赞 0回复 0收藏
本文仅做记录译自:rawrepo:https:github.comhumanlayer12factoragents因素1.自然语言到工具调用在构建智能体时最常见的模式之一是将自然语言转换为结构化工具调用。这是一种强大的模式,它允许你构建能够推理任务并执行它们的智能体。当原子化地应用此模式时,它可以将类似以下的短语你能为Terri创建一个750美元的支付链接,用于赞助二月的AITinkerers聚会吗?转换为描述StripeAPI调用的结构化对象,例如{"function":{"name":"...
2025-07-28 09:37:17 868浏览 0点赞 0回复 0收藏
AgentarFinR1的开发pipline可概括为“数据→训练→评估→归因→迭代”五个闭环阶段,每一阶段都有明确输入、处理逻辑和输出。一、数据构造AgentarFinR1的数据构造围绕LabelSystem和MultiAgent可信合成展开的三级流水线:1.1LabelSystem(任务标签体系)两类标签:每个样本被打上​​(Scene,Task)​​a.Scene:银行、证券、保险、信托、基金等业务场景b.Task:NER、意图识别、槽位填充、消歧、咨询式问答等任务类型非正交稀疏性...
2025-07-25 09:51:59 1692浏览 0点赞 0回复 0收藏
上图是四种在图片切图上的操作:如动态分辨率仅涉及裁剪图像并将其输入CLIPViT、minigemini在最后层将低分辨率的CLIPViT特征与高分辨率辅助分支进行交互,主要使用交叉注意力机制,c则采用通道级串联。本文介绍的方法使用一个模块将低分辨率和高分辨率进行融合实现交互,下面来看看如何实现。方法方法1.输入图像预处理(动态切图)这个目标是把高分辨率图像切成若干336×336的小块,同时保留一张336×336的“全局缩略图”。步骤...
2025-07-23 08:26:31 1592浏览 0点赞 0回复 0收藏
自最初的GPT架构开发以来,已经过去了七年。乍一看,回顾GPT2(2019年),展望DeepSeekV3和Llama4(20242025年),人们可能会惊讶于这些模型在结构上仍然如此相似。当然,位置嵌入已经从绝对嵌入演进到旋转嵌入(RoPE),多头注意力机制已基本被分组查询注意力机制所取代,而更高效的SwiGLU也取代了GELU等激活函数。但在这些细微的改进背后,我们是否真正看到了突破性的变化,还是仅仅在打磨相同的架构基础?比较LLM以确定有助...
2025-07-22 07:07:52 3648浏览 0点赞 0回复 0收藏
获得成就
已积累 5.5w 人气
获得 0 个点赞
获得 2 次收藏