MARTINPOTTER
发布于 2025-02-26 / 416 阅读
21

MinerU 一款开源的智能文档解析工具

MinerU是一款开源的智能文档解析工具,旨在将PDF等文档高效转换为机器可读的格式,如Markdown和JSON。该工具专注于处理科研文献,支持移除页眉、页脚、脚注、页码等元素,确保语义连贯。此外,MinerU能够处理多栏布局,提取图像、表格,并将公式转换为LaTeX格式。其OCR功能支持84种语言的检测与识别,适用于多语言文档和复杂布局的PDF文件批量处理。MinerU兼容Windows、Linux和macOS平台,支持在CPU、GPU(CUDA)和NPU(Ascend)环境下运行。

主要功能:

  • 文本提取:删除页眉、页脚、脚注、页码等元素,输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版。
  • 结构保留:保留原文档的结构,包括标题、段落、列表等。
  • 多模态内容提取:提取图像、图片描述、表格、表格标题及脚注。
  • 公式识别:自动识别并转换文档中的公式为LaTeX格式。
  • 表格识别:自动识别并转换文档中的表格为HTML格式。
  • OCR支持:自动检测扫描版PDF和乱码PDF,并启用OCR功能,支持84种语言的检测与识别。
  • 多种输出格式:支持多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等。
  • 可视化结果:提供layout可视化、span可视化等,便于高效确认输出效果与质检。

安装说明:

  1. 创建虚拟环境:

    conda create -n MinerU python=3.10
    conda activate MinerU
    

    请确保使用Python 3.10版本。

  2. 安装MinerU:

    pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple
    

    此命令将安装MinerU及其所有依赖项。

  3. 下载模型权重文件:

    pip install huggingface_hub
    wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models_hf.py -O download_models_hf.py
    python download_models_hf.py
    

    该脚本将自动从Hugging Face下载所需的模型权重文件。

  4. 配置环境:
    下载模型后,脚本会在用户目录下生成magic-pdf.json配置文件,并自动配置默认模型路径。您可以根据需要修改该文件中的配置,例如启用或禁用表格识别功能。

相关链接:

通过以上步骤,您可以在本地环境中安装并使用MinerU,实现对PDF文档的高效解析和转换。