付费Mathpix公式识别不香了~不要钱舒服!

发布于 2025-8-12 06:27
浏览
0收藏

复杂科学文献中数学公式识别的问题,对于科学文献的智能化分析至关重要,但现有的特定任务模型和通用视觉语言模型在处理公式结构多样性、复杂性和现实变化时仍存在不足。

一、当前方案的局限性

  • 依赖特定任务模型:大多数现有公式识别方法依赖于为特定任务设计的模型架构,这些模型在新任务中需要重新设计架构,缺乏通用性。
  • 复杂性和多样性不足:现有数据集和方法主要关注结构简单、符号种类有限的公式,而忽略了多学科、高度复杂且结构多样的真实科学公式。
  • 结构适应性和泛化能力有限:大多数方法仅关注单行公式,忽视了多行公式和页面级复杂布局,导致在真实文档中的性能下降。

二、DocTron-Formula

DocTron-Formula 通过简单监督微调即可在多种复杂场景中实现最先进的性能,并且引入了 CSFormula 数据集,这是一个涵盖多学科、结构复杂且具有挑战性的大规模数据集,包含行、段落和页面级别的公式。

付费Mathpix公式识别不香了~不要钱舒服!-AI.x社区

2.1 CSFormula 数据集构造

付费Mathpix公式识别不香了~不要钱舒服!-AI.x社区

包含来自数学、物理、化学等多个学科的复杂公式,涵盖了单行、多行和页面级别的复杂布局结构。数据集分为三个类别:

  • 行级别:包含单个打印公式,包括单行和多行表达式。
  • 段落级别:关注公式嵌入自然语言段落的场景。
  • 页面级别:包含完整的科学文档图像,包括公式、文本、表格等元素。

2.2 模型架构

DocTron-Formula 基于Qwen2.5-VL微调,其核心架构包括视觉编码器和语言模型两部分:

  • 视觉编码器:将文献图像作为输入,通过视觉变换器(ViT)处理图像,生成视觉特征序列。视觉编码器结合了二维旋转位置嵌入(2D-RoPE)和窗口注意力机制,支持原生输入分辨率并加速计算。
  • 语言模型:将视觉特征和指令文本投影到统一的嵌入空间中,通过多头自注意力机制和前馈网络进行处理。模型直接使用输入图像的实际尺寸(绝对坐标)来表示边界框、点等空间特征,从而学习尺度信息,提高对不同分辨率图像的处理能力。

三、模型效果

付费Mathpix公式识别不香了~不要钱舒服!-AI.x社区

  • Im2LaTeX-160K数据集上,ED 为 0.245,与任务特定的 SOTA 模型 UniMERNet(0.240)相当,优于其他基线方法。
  • UniMER数据集上,平均 ED 为 0.098,低于 UniMERNet(0.103),尤其在屏幕截图表达式(SCE)和手写表达式(HWE)子集上表现突出。
  • CSFormula数据集上,平均 ED 为 0.164,显著优于第二名 Gemini-2.5-flash(0.394)。

​https://huggingface.co/DocTron/DocTron-Formula​

​https://github.com/DocTron-hub/DocTron-Formula/tree/main​

​https://arxiv.org/pdf/2508.00311​

本文转载自​​​​CourseAI​​​​,作者:CourseAI


收藏
回复
举报
回复
相关推荐