MinerU 一款开源的智能文档解析工具

MinerU是一款开源的智能文档解析工具，旨在将PDF等文档高效转换为机器可读的格式，如Markdown和JSON。该工具专注于处理科研文献，支持移除页眉、页脚、脚注、页码等元素，确保语义连贯。此外，MinerU能够处理多栏布局，提取图像、表格，并将公式转换为LaTeX格式。其OCR功能支持84种语言的检测与识别，适用于多语言文档和复杂布局的PDF文件批量处理。MinerU兼容Windows、Linux和macOS平台，支持在CPU、GPU（CUDA）和NPU（Ascend）环境下运行。

主要功能：

文本提取：删除页眉、页脚、脚注、页码等元素，输出符合人类阅读顺序的文本，适用于单栏、多栏及复杂排版。
结构保留：保留原文档的结构，包括标题、段落、列表等。
多模态内容提取：提取图像、图片描述、表格、表格标题及脚注。
公式识别：自动识别并转换文档中的公式为LaTeX格式。
表格识别：自动识别并转换文档中的表格为HTML格式。
OCR支持：自动检测扫描版PDF和乱码PDF，并启用OCR功能，支持84种语言的检测与识别。
多种输出格式：支持多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等。
可视化结果：提供layout可视化、span可视化等，便于高效确认输出效果与质检。

安装说明：

创建虚拟环境：

conda create -n MinerU python=3.10
conda activate MinerU

请确保使用Python 3.10版本。

安装MinerU：

pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

此命令将安装MinerU及其所有依赖项。

下载模型权重文件：

pip install huggingface_hub
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models_hf.py -O download_models_hf.py
python download_models_hf.py

该脚本将自动从Hugging Face下载所需的模型权重文件。

配置环境：
下载模型后，脚本会在用户目录下生成magic-pdf.json配置文件，并自动配置默认模型路径。您可以根据需要修改该文件中的配置，例如启用或禁用表格识别功能。

相关链接：

GitHub仓库：https://github.com/opendatalab/MinerU
在线体验：https://mineru.opdatahub.com/
官方文档：https://mineru.readthedocs.io/zh-cn/latest/

通过以上步骤，您可以在本地环境中安装并使用MinerU，实现对PDF文档的高效解析和转换。

菜单

分享

MinerU 一款开源的智能文档解析工具

物理学习：全息原理

MinerU 一款开源的智能文档解析工具

在 Windows WLS2 下安装 Vina

AI 编辑器 Cursor：提升编程效率的智能助手

与AI同行：在智能浪潮中破浪前行

走进AI时代：明天的生活会怎样？