testOCR

测试两款开源OCR工具以及百度飞桨在线产品PP-OCRv4的识别效果

  • 先说结论:百度的飞桨在线产品PP-OCRv4 对文字、数字、排版的识别都很不错;开源paddleOCR和Umi-OCR对文字、数字的识别效果都还可以,但是对排版的识别及其导致的输出顺序效果都不太好,二者差不多,相同与不同如下;

  • 相同点:

    • 都可批量OCR
    • 对文本、数字等等效果比较好,但对布局格式识别、输出顺序不太行。
    • 对图片、pdf等文件都可以识别
  • 不同之处

    • Umi-OCR通过应用程序鼠标点击进行操作
    • PaddleOCR通过命令行/python进行操作,输出结果中含有置信度
    • Umi-OCR可识别二维码
  • 如下是测试过程:

Umi-OCR

  • 设置规则
    • 多栏:自动识别多栏布局输出
    • 单栏:不识别布局,从上往下按照一行行的顺序识别和输出

alt text

纯文本

  • 效果很好,连格式几乎都一样,除了有些缩进和换行被忽略了;
    alt text

发票1

alt text

  • 多栏-按自然段换行:最上面盖章处,识别有少许偏差,上面中间部分一行行识别和输出效果还可以,下面列与列之间间隙较大,就变成了一列列识别和输出,键与值之间错位,不方便对应;最右下角可能是光线不好,没识别出来;

alt text

  • 多栏,总是换行:识别效果和顺序和上方差不多,但每识别一段就换行;

alt text

  • 单栏:自然换行:从上往下按照一行行的顺序识别和输出,但是遇到一些格式不一样的一起识别就会出现顺序问题

alt text

发票2

alt text

  • 多栏-按自然段换行:尽管除了少数和印章重叠的字识别有误之外(蓝色圈出),文字和数字都识别出来了,但是识别和输出格式和输出顺序很糟糕,整体上也是从左向右一列列识别和输出,但他并不是以每列相同的宽度去读取的,像圈1和圈4所在列就比较规则,所以它也能准确读出来,但有些列的宽度并不能包含相应格式的数据保证他们的连贯性;(如图中圈3)

alt text

  • 单栏:自然换行 :从上往下按照一行行的顺序识别和输出,语意不连贯,键值不对应,盖章文字未识别出;

alt text

  • 总结:对纯文本效果比较好,但对布局格式识别不太行;

开源PaddleOCR

纯文本

alt text
alt text

发票1

alt text

发票2

alt text

  • 总结:和前者效果差不多:对纯文本效果比较好,但对布局格式识别不太行;

PP-OCRv4 在线

  • 对文本、数字、布局、排版格式等等识别的都很好;唯一缺点就是印章重叠处的文字识别不太精准;

纯文本

alt text

发票

alt text
alt text
alt text


testOCR
https://tolsz.me/2025/01/02/testOCR/
作者
wbj_Lsz
发布于
2025年1月2日
许可协议