testMinerU

测试minerU的过程与结果

minerU

可本地部署的一站式开源高质量数据提取工具，将PDF转换成Markdown和JSON格式。转换成这两种格式的目的就是方便将数据提取出来更好地存储/传递给相关大模型进行逻辑处理提高解答的准确率；（大模型都是通过markdown或json格式的数据进行训练和响应的）
首先要配置相关环境
- 具体见 https://github.com/opendatalab/MinerU/blob/master/docs/README_Windows_CUDA_Acceleration_zh_CN.md?tab=readme-ov-file#command-line
- 每次使用之前，先conda activate MinerU 进入环墶
- GPU配置CUDA加速之后，速度明显提升好几倍，但是效果似乎没变；
运行命令
- 简单来讲主要功能：magic-pdf -p {pdf文件（夹）路径} -o {输出路径} -m {模式：ocr/text/auto(default)} –lang (语言：ch、en)
  - 提示：选择正确的语言可以显著提高识别准确率。对于混合语言文档，建议使用自动检测模式（默认）。
- 比如 magic-pdf -p test.pdf -o ./Output -m ocr –lang ch 后会在当前目录下生成一个Output文件夹，结构如下
  - Output/相应pdf文件名/模式/识别结果
  - 具体意义详见：https://mineru.readthedocs.io/en/latest/user_guide/tutorial/output_file_description.html
- 详见： https://mineru.readthedocs.io/en/latest/user_guide/quick_start/command_line.html
测试结果：类似于如下，排版比较简单的合同、文章等等大多是文字的图片，可以ocr识别出来提取文字；而像发票、车票等排版复杂的图片目前minerU识别不了，还是以图片的形式存在于markdown中，
- 合同、文章：
- 发票、车票
分析原因：
- 也许是没开GPU加速的原因？试试
  - 开了之后，速度确实加快了很多，之前30-40s一张pdf，现在不到15s，时长取决于内容的多少,但是发票等图片还是以图片的形式存在于markdown中
- 谷歌之后发现github也有人提出类似的issue
- 查看项目readme.md文档
  - 作者已在Known Issues 说明 some uncommon list formats may not be recognized.
    - https://github.com/opendatalab/MinerU?tab=readme-ov-file#known-issues
- 尝试解决办法
  - 不用命令行，改用python代码进行调用强制开启OCR
    - 结果：无用
  - 通过paddle去识别那些minerU识别不了的内容
    - https://github.com/PaddlePaddle/PaddleOCR
  - 我已提交issue，等待作者和大佬们升级项目
    - https://github.com/opendatalab/MinerU/issues/1415

testMinerU

https://tolsz.me/2025/01/06/testMinerU/

作者

wbj_Lsz

发布于

2025年1月6日

许可协议

Test Markdownit对比MinerU 上一篇

testOCR 下一篇