经过需求征集https://github.com/PaddlePaddle/PaddleOCR/issues/10334 和每周技术研讨会 https://github.com/PaddlePaddle/PaddleOCR/issues/10223 讨论,我们确定了DocTr++版面矫正任务,该任务在文档比对、关键字提取、合同篡改确认等重要场景发挥作用。本任务的完成能显著OCR结果的细粒度,并有众多场景应用。 通过定量实验和定性对比,作者团队验证了 DocTr++ 的性能优势及泛化性,并在现有及所提出的基准测试中刷新了多项最佳记录,是目前最优的文档矫正方案。 暂时没有预训练权重和训练代码,需要按照论文描述重新训练尝试。
解决步骤- 根据开源代码进行网络结构、评估指标转换。代码链接:https://github.com/fh2019ustc/DocTr-Plus
- 结合论文复现指南,进行前反向对齐等操作,达到论文Table.1中的指标。
- 参考PR提交规范提交代码PR到ppocr中。
数据集:
-
训练数据集:获取Doc3D数据集后进行边缘裁剪,使得分成论文中的三类图片(全部包含边缘、部分包含边缘、不包含边缘)
-
验证数据集:Doc Unet数据集