Jina 第4版:多模态向量检索,统一适配,挑战3大任务

发布于 2025-7-2 07:11
浏览
0收藏

一、模型架构

  • jina-embeddings-v4 的架构基于 Qwen2.5-VL 模型,并进行了扩展以支持单向量和多向量输出。
  • 对于文本输入,模型采用标准的基于 Transformer 的处理方式,将文本分词后转换为向量序列,然后输入到大型语言模型(LLM)中。
  • 对于图像输入,首先通过一个离散的图像模型将图像转换为多向量结果,类似于文本中的“图像标记”,然后将这些“图像标记”传递给 LLM,使其能够像处理文本标记一样处理图像信息。

Jina 第4版:多模态向量检索,统一适配,挑战3大任务-AI.x社区

  • 一共Lora微调了三个任务,每个 LoRA 适配器仅包含 60M 参数:

a.非对称查询 - 文档检索:通过为查询和文档分配不同的编码方式来提高检索性能,这对于处理结构与文档不同的查询(如短查询、问题等)非常有效。

b.语义相似性和对称检索:用于寻找相似内容,适用于语义文本相似性任务

c.代码检索:专门针对自然语言到代码的检索、代码到代码的相似性搜索以及技术问答任务进行了优化。

  • 提供了两种输出选项:传统的单向量嵌入和 ColBERT 风格的多向量嵌入。
  • 单向量嵌入具有 2048 维,但可以通过截断减少到 128 维,且精度损失极小。这是通过 Matryoshka 表示学习实现的,使得单向量嵌入的标量值按语义重要性排序。
  • 多向量嵌入则是对输入标记(包括“图像标记”)进行分析后得到的未池化结果,每个标记对应一个 128 维的输出向量。这种多向量输出方式在处理复杂文档时能够更好地保留语义信息,尤其是在涉及视觉丰富内容的场景中。

二、训练与推理

2.1 对比学习训练

  • 在对比学习训练阶段,模型首先对文本对和文本 - 图像对进行编码,生成单向量和多向量嵌入。
  • 然后,通过 InfoNCE 损失函数计算这些嵌入之间的相似性,并根据相似性对模型进行优化。
  • Jina 第4版:多模态向量检索,统一适配,挑战3大任务-AI.x社区

Jina 第4版:多模态向量检索,统一适配,挑战3大任务-AI.x社区

Jina 第4版:多模态向量检索,统一适配,挑战3大任务-AI.x社区

  • 具体来说,模型将输入对分为相关和不相关两类,目标是使相关对的嵌入在语义空间中更接近,而不相关对的嵌入则更远离。
  • 通过这种方式,模型能够学习到不同模态数据之间的语义关系,从而在统一的语义空间中实现对不同模态数据的语义理解。

Jina 第4版:多模态向量检索,统一适配,挑战3大任务-AI.x社区

Jina 第4版:多模态向量检索,统一适配,挑战3大任务-AI.x社区

2.2 任务特化训练

  • 在任务特化训练阶段,模型将第一阶段训练得到的 LoRA 适配器复制三份,并针对不同的任务进行特定训练。
  • 对于非对称检索任务,模型使用包含正负样本的三元组数据进行训练,通过扩展的 InfoNCE 损失函数(LNCE+)来优化模型的非对称检索性能。

Jina 第4版:多模态向量检索,统一适配,挑战3大任务-AI.x社区

  • 对于语义相似性任务,模型使用具有已知语义相似性值的数据对进行训练,通过 CoSENT 损失函数来优化模型的对称检索性能。

Jina 第4版:多模态向量检索,统一适配,挑战3大任务-AI.x社区

  • 而对于代码检索任务,模型则使用代码相关的数据集进行训练,通过 InfoNCE 损失函数来优化模型的代码检索性能。
  • 通过这种任务特化训练,模型能够在不同的应用任务中实现性能的显著提升。

2.3 推理

  • 在推理阶段,用户可以根据具体的应用需求选择不同的 LoRA 适配器。
  • 对于文本和图像输入,模型分别生成单向量或多向量嵌入,然后根据选择的适配器对嵌入进行微调。
  • 最后,通过计算目标嵌入与候选嵌入之间的相似性,模型可以快速准确地找到与目标内容相关的其他内容。
  • 这种推理方式不仅能够充分利用模型的多模态处理能力,还能够根据不同的任务需求实现性能的优化。

Jina 第4版:多模态向量检索,统一适配,挑战3大任务-AI.x社区

​https://huggingface.co/collections/jinaai/jinavdr-visual-document-retrieval-684831c022c53b21c313b449​

https://huggingface.co/datasets/warshakhan/donut_vqa_ISynHMP https://huggingface.co/datasets/jlli/JDocQA-nonbinary https://huggingface.co/datasets/jlli/HungarianDocQA-OCR

​https://github.com/laituan245/StackExchangeQA​

​https://huggingface.co/datasets/mteb/arguana​

​https://huggingface.co/jinaai/jina-embeddings-v4​

​https://arxiv.org/pdf/2506.18902​

本文转载自​CourseAI​,作者:CourseAI

已于2025-7-2 11:54:00修改
收藏
回复
举报
回复
相关推荐