CourseAI
LV.2
专注发布AI技术实战和案例教程,包括NLP、CV、LLM、RAG、Agent等
声望 178
关注 0
粉丝 0
私信
主帖 19
回帖
一、模型架构jinaembeddingsv4的架构基于Qwen2.5VL模型,并进行了扩展以支持单向量和多向量输出。对于文本输入,模型采用标准的基于Transformer的处理方式,将文本分词后转换为向量序列,然后输入到大型语言模型(LLM)中。对于图像输入,首先通过一个离散的图像模型将图像转换为多向量结果,类似于文本中的“图像标记”,然后将这些“图像标记”传递给LLM,使其能够像处理文本标记一样处理图像信息。一共Lora微调了三个任务,...
3天前 298浏览 0点赞 0回复 0收藏
在PDF文档解析领域,布局检测、阅读顺序预测、手写体文字识别等领域都已经有了很多非常成熟,且可靠的方案。但是,复杂表格的解析,依然是眼前非常难啃的骨头。例如:表格中单元格跨列、跨行的合并;跨页表格的融合;表头重复、冗余等问题今天分享的OCRFlux是基于qwen2.5vl3B模型微调的,一个复杂表格的解决方案。一、OCRFlux创新点1.1单页解析技术复杂表格解析OCRFlux在训练数据中使用HTML格式表示表格,使其能够自然地支持复...
3天前 720浏览 0点赞 0回复 0收藏
一、多智能体系统的优点应对研究工作的不可预测性:研究工作通常面临开放性问题,难以提前预知所需步骤。多智能体系统能够根据调查过程中出现的新线索动态调整研究方向,与人类研究者类似,自主决策探索路径,适应复杂多变的研究主题,避免了线性、一次性流程的局限性。促进信息压缩与专注:子智能体通过并行处理不同问题方面,利用各自独立的上下文窗口,同时探索问题的多个维度,之后提炼出重要信息传递给主研究智能体,实现...
2025-06-19 06:43:50 938浏览 0点赞 0回复 0收藏
一、多模态训练的诸多难点多模态模型在处理不同模态数据时(如文本、图像、音频和视频)需要面临许多挑战:模态间的表示差异:不同模态的数据在特征表示上存在显著差异。例如,图像数据通常是像素级的二维信息,而文本数据是离散的符号序列,音频数据则是连续的时间序列。这种差异使得在单一模型中融合多种模态变得困难。训练过程中的收敛速度不一致:不同模态的数据量和复杂度不同,导致模型在训练过程中,各模态的收敛速度不...
2025-06-19 06:34:54 846浏览 0点赞 0回复 0收藏
2025年是Agent之年。AI能力现在已经在多个领域达到了人类水平,我们都将拥有触手可及的代理团队,在我们的个人生活、工作及其他方面帮助我们。随着代理群的到来,通过MCP、A2A和其他协议连接起来,我们认为这些协议的核心必须具有坚实、开放、透明和可审计的基础。对于真正重要的事情尤其如此——管理我们的健康、教育我们的孩子、协调我们的财务系统等等。这些可以集成专有和专家系统,以两全其美。今天分享的IIAgent,不仅在...
2025-06-06 07:54:12 1085浏览 0点赞 0回复 0收藏
需要解决的问题统一图像理解和生成:以前的方案没有融合图像理解和生成量大任务,例如:在生成复杂场景、特定对象或高质量图像时表现不足,同时在图像理解和生成任务之间缺乏有效的协同训练机制。提升生成质量和效率:传统的基于VAE(变分自编码器)的图像表示方法在生成图像时存在分辨率限制和训练效率低下的问题在统一框架中高效地生成高质量图像并保持图像理解能力,是需要解决的关键问题之一。核心思想融合自回归模型和扩散...
2025-05-26 00:50:58 841浏览 0点赞 0回复 0收藏
一、现有方案的局限性现有的文档图像解析解决方案主要分为两大类:基于集成的方法和端到端的方法。基于集成的方法通过将多个专家模型组装到一个多阶段的流水线中来实现文档解析,这些方法虽然在特定任务上表现出色,但需要对每个模型进行独立优化,并且在组件间协调方面面临挑战。端到端的方法则利用通用或专家视觉语言模型(VLMs)直接自回归地生成页面级内容,虽然能够捕捉页面级语义,但在解析长文档和复杂布局时,常常会遇...
2025-05-26 00:43:11 822浏览 0点赞 0回复 0收藏
OpenAIo1和DeepSeekR1,通过奖励驱动的学习,而无需依赖于明确的逐步监督,在逻辑推理和迭代推理方面取得了显著的成果。使用RL训练能够更有效地搜索相关信息的策略模型。例如,SearchR1、R1Searcher和ReSearch等模型都尝试通过强化学习来提升模型的搜索能力。这些方法通常使用静态的本地文本语料库,如维基百科,无法捕捉到现实世界交互的复杂性。DeepResearcher引入了与商业搜索引擎(如谷歌)的实时交互,使得模型能够在接近...
2025-05-12 01:17:01 822浏览 0点赞 0回复 0收藏
训练一个好的向量模型的重点在于最大限度地利用了更多、更高质量的负样本,来训练模型。腾讯提出的Conanembedding,采用了动态硬负样本挖掘方法,以便在整个训练过程中向模型展示更多具有挑战性的负样本。最近发布ConanembeddingV2版本,在MTEB榜单上已经超越了BGE等一众传统豪强。支持中、英双语一、ConanembeddingV2V1版本主要基于通用预训练的双向Bert模型进行Embedding任务的训练。V2版本从头训练了原创词表和模型结构的大...
2025-04-25 06:47:48 1978浏览 0点赞 0回复 0收藏
文档问答太难了含有丰富文本和视觉元素(如图表、图像等)的长文档,在进行文档问答时,现有的方案有其局限性:传统的大型语言模型(LLMs)仅能处理文本信息大型视觉语言模型(LVLMs)虽然能够处理视觉内容,但在处理长文档时往往效率低下,并且难以对文本和视觉信息进行有效的融合与推理。现有的检索增强生成(RAG)方法虽然能够从长文档中提取关键信息,但它们通常仅依赖于单一模态(文本或图像)进行检索,缺乏跨模态的信息...
2025-04-14 23:56:55 1333浏览 0点赞 0回复 0收藏
AutoAgent是将智能体开发过程从传统的编程模式转变为一种自然语言驱动的自动化过程。通过模拟现代计算机操作系统的工作方式,将复杂的智能体开发任务分解为多个模块化的组件通过自然语言接口实现这些组件之间的交互和协调。这种方法不仅降低了智能体开发的门槛,还提高了开发效率和系统的灵活性。AutoAgent架构AutoAgent框架基于其四个关键组件:智能体系统工具(AgenticSystemUtilities)提供了基础的多智能体架构,其中包含专...
2025-04-02 00:11:16 1660浏览 0点赞 0回复 0收藏
LLM代理正变得越来越普遍,似乎取代了我们熟悉的“常规”对话式LLM。这些令人难以置信的功能并不容易创建,需要许多组件协同工作。本文中提供了60多个自定义视觉对象,您将探索LLM代理领域、它们的主要组件,并探索多代理框架。什么是LLM代理要了解什么是LLM代理,让我们首先探索LLM的基本功能。传统上,LLM只做下一个标记预测。通过连续对许多tokens进行采样,我们可以模拟对话并使用LLM为我们的查询提供更广泛的答案。然而,...
2025-03-21 07:26:54 1978浏览 0点赞 0回复 0收藏
Instructor是一个用于处理大型语言模型(LLMs)结构化输出的库,基于Pydantic构建,支持多种LLM。主要功能包括验证、重试管理、流式响应等。主要目的是简化与LLM交互时的结构化输出处理,避免手动解析文本带来的麻烦。优点:通过Pydantic模型定义输出结构,直接映射LLM的响应到类型安全的Python对象。例如,从自然语言中提取用户信息时,只需定义​​User(name:str,age:int)​​模型,即可自动解析并验证结果支持OpenAI、Anthro...
2025-03-10 00:42:41 2187浏览 0点赞 0回复 0收藏
最近DeepseekR1大火,标题党纷纷凑热闹,s1真的有这么牛吗?下面,我们来解读一下S1S1用了不到50美元,训练出了媲美Deepseek的原因微调样本量小,所需训练资源少:构造微调样本时,精心挑选了1000个问题,通过GeminiThinkingExperimental中提取这些问题的推理轨迹和答案。实验中发现,随机选择、选择具有最长推理轨迹的样本或仅选择最大多样性的样本,都会导致性能显著下降。因此,使用59K个示例的完整数据池(s1K的超集)进行...
2025-02-11 13:37:29 2482浏览 0点赞 0回复 0收藏
一、JanusPro能做5种任务1.1图片描述1.2地点识别1.3背景推理1.4OCR文字识别1.5文图生成二、JanusPro原理JanusPro的核心设计原则采用自回归框架,通过解耦视觉编码,解决多模态理解和生成任务之间的冲突。通过独立的编码方法将原始输入转换为特征,然后由统一的自回归变换器进行处理。对于多模态理解任务,使用SigLIP编码器从图像中提取高维语义特征,并将其展平为一维序列,通过理解适配器将图像特征映射到语言模型的输入空间。...
2025-02-03 13:57:12 6157浏览 0点赞 0回复 0收藏
在商业环境中,决策过程通常涉及数据分析,以选择最合适的方案来实现特定目标。例如,制药公司Pfizer可能需要决定哪些工厂应该运营或停止,以及每个工厂应该雇佣多少员工,以最小化生产成本并保持准时交付。这一过程通常分为三个步骤:制定分析计划、检索必要数据、基于数据做出决策。其中最困难的部分就是,人类需要制定分析决策planRAG的目标是用LLM替代人类角色,实现整个决策过程的自动化。PlanRAG决策问答(DecisionQA)任...
2025-01-17 12:49:06 2043浏览 0点赞 0回复 0收藏
QueryOptmization查询优化(QueryOptmization)旨在提高LLMs理解和回答查询的效率和质量,尤其是在涉及复杂查询的检索增强生成(RetrievalAugmentedGeneration,RAG)场景中。RAG通过动态检索和利用最新相关信息来弥补LLMs的局限性,从而提供一种成本效益高的解决方案,以应对LLMs可能产生看似合理但不准确回答的挑战。四种主要的查询优化方法介绍扩展(Expansion)通过内部扩展和外部扩展两种方式,增加查询的覆盖范围和上下文信...
2025-01-09 12:51:58 2876浏览 0点赞 0回复 0收藏
当前RAG的检索、召回模块,受到了传统BERT模型只支持512长度的极大限制。导致文档切分后的chunksize,极大影响RAG的性能。本文介绍的ModernBERT,在BERT的基础上进行了重大改进,以提高下游任务的性能和效率,尤其是在更长序列长度上的表现。ModernBERT在2万亿个token上进行训练,原生支持8192序列长度,展现了在多样化分类任务和单向、多向检索任务上的卓越性能。ModernBERT解决的问题问题1:传统Bert序列长度512的限制ModernB...
2024-12-31 13:03:19 2591浏览 0点赞 0回复 0收藏
一、摘要SigLIP【全称:SigmoidLossforLanguageImagePreTraining】,SigLIP是在batch内,利用sigmod对文图对做二分类;CLIP是在batch内,利用softmax对文图对做多分类。SigLIP不需要对两两相似进行全局归一化,这样的做法允许扩大batch的大小,同时在较小的batch下也能表现的好。如下图所示:SigLIP利用sigmod对文图对做二分类,是在指导模型朝着文字Tokens和图像Tokens的两个序列的对角线上值越来越大,非对角线上的值越来越小...
2024-12-23 08:54:30 1.1w浏览 0点赞 0回复 0收藏
获得成就
已积累 9519 人气
获得 0 个点赞
获得 0 次收藏