再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法
原创
文档解析这条赛道真卷,《文档智能》目前整体技术路线分三类:pipline式、两阶段式和端到端,如下:piplinelayout+VLMVLMfinetune下面再来看一个两阶段方案,由layout+VLM组成PaddleOCRVL0.9B。方法PaddleOCRVL正如上图,PaddleOCRVL分两阶段:阶段1:PPDocLayoutV2,负责布局分析,定位语义区域并预测其阅读顺序。PPDocLayoutV2结构式RTDETR以及一个具有六个transformer层的轻量级指针网络,以准确预测布局元素的阅读顺序。版...