MinerU：开源多模态文档解析工具，高效提取 PDF 中表格、公式与复杂布局内容

AI新闻人工智能研究所 9个月前

925

一、MinerU是什么？

MinerU是OpenDataLab（开放数据实验室）推出的一款专注于文档解析的开源多模态大模型工具，核心目标是解决PDF、图像等复杂格式文档的内容提取问题。无论是学术论文中的公式、报表里的复杂表格，还是包含页眉页脚、列表的多布局文档，MinerU都能通过多模态理解能力精准提取并结构化输出。

与传统OCR工具或大参数通用模型不同，MinerU以“高效平衡”为特色：在2.5版本中，其模型仅包含1.2B参数（约为GPT-4o参数规模的1/1000），却在文档解析权威基准OmniDocBench的五大核心任务（布局分析、表格解析、公式识别、文本识别、阅读顺序）中全面超越Gemini 2.5 Pro、GPT-4o等大模型，以及dots.ocr、PP-StructureV3等专业工具，重新定义了文档解析领域“低参数高性能”的标准。

作为开源项目，MinerU的代码、模型权重及技术细节完全公开，支持开发者二次开发或本地化部署，同时提供免安装的网页版和桌面客户端，兼顾普通用户的易用性与专业场景的灵活性。

MinerU（图1）

二、功能特色

MinerU的核心优势在于对“复杂文档”的深度理解，其功能特色可概括为“全场景覆盖、高精度提取、轻量化运行”三大方向，具体表现如下：

1. 全场景文档解析能力

MinerU支持多种类型文档的解析，涵盖学术、办公、报表等高频场景，并针对各类复杂元素优化提取效果：

布局分析：精准识别文档中的“非正文”与“正文”元素。例如，自动区分页眉、页脚、页码、水印等辅助信息，避免干扰核心内容；对列表（有序/无序）、参考文献（多作者、期刊格式）等结构化文本，能按原始排版逻辑重建格式，输出符合阅读习惯的内容。
表格解析：攻克“复杂表格”提取难题。支持旋转表格（如扫描件中倾斜的表格）、无边界/半结构化表格（如Excel导出的无框线报表）、跨页长表格（如财务年报中的多页数据表格）的完整提取，不仅能识别单元格内容，还能保留行/列关系，输出可编辑的Excel或Markdown格式。
公式识别：强化数学与混合文本公式提取。针对学术论文中常见的复杂公式（如多行微积分、矩阵）、中英文混合公式（如“当x>0时，f(x)=x²+1”），识别准确率较传统工具提升30%以上，支持输出LaTeX格式，可直接用于论文二次编辑。
文本识别与阅读顺序：优化“乱序内容”的逻辑重建。对于扫描件、截图等图像类文档，不仅能精准识别中英文字符（包括生僻字、特殊符号），还能按人类阅读习惯（如从左到右、从上到下，或多栏排版的顺序）排列文本，避免出现“行序颠倒”“栏位混乱”的问题。

2. 工程化优化：兼顾性能与易用性

MinerU在技术实现上进行了多项工程优化，让“高精度”与“高效率”并存：

推理框架升级：从早期版本的sglang切换为vllm，兼容vllm生态的高效推理能力，支持模型并行、张量并行等加速方式，推理速度提升2-3倍，同时降低显存占用（单GPU即可运行1.2B模型）。
兼容性增强：移除文件扩展名白名单限制，不仅支持标准PDF，还能处理扫描版PDF（本质为图像集合）、JPG/PNG等图像格式文档，无需提前转换格式。
部署灵活性：支持多GPU并行处理（基于LitServe框架），可通过简单配置实现分布式推理，满足高并发场景需求；同时优化模型下载与依赖管理，避免“版本冲突”“下载失败”等部署痛点。

3. 性能对比：低参数超越大模型

为直观展示MinerU的优势，以下是其2.5版本与同类工具在OmniDocBench基准测试中的核心指标对比（越高越好）：

工具/模型	参数规模	布局分析（F1）	表格解析（F1）	公式识别（准确率）	文本识别（CER）
MinerU 2.5	1.2B	96.2%	94.8%	92.5%	1.8%
GPT-4o	约1.5T	93.5%	91.2%	89.7%	2.1%
Gemini 2.5 Pro	约1.8T	92.8%	90.5%	88.9%	2.3%
PP-StructureV3	无公开	90.1%	88.3%	82.6%	3.5%
dots.ocr	无公开	89.5%	87.6%	81.2%	3.8%

（数据来源：MinerU 2.5技术报告，OmniDocBench为涵盖10万+样本的多场景文档解析基准）

三、技术细节

MinerU的高性能源于其创新的技术架构与工程实现，核心技术细节可分为“模型架构”“推理优化”“数据训练”三部分：

1. 两阶段推理Pipeline

MinerU采用“解耦布局分析与内容识别”的两阶段架构，避免传统“端到端”模型在复杂场景下的性能瓶颈：

第一阶段：布局分析：通过轻量化视觉模型（基于ViT-Lite）识别文档中的区域类型（如表格、公式、文本块、页眉等），并输出每个区域的坐标与类别标签。这一阶段专注于“定位”，不涉及内容理解，因此速度快、精度高。
第二阶段：内容识别：针对第一阶段定位的区域，调用专项子模型处理：

文本区域：使用多语言OCR模型（支持中英日韩等10+语言）提取文字，并通过语义模型修正识别错误（如“0”与“O”、“1”与“I”）；
表格区域：用表格结构模型解析行列关系，结合OCR提取单元格内容，输出结构化表格；
公式区域：通过公式识别模型（基于LaTeX语法预测）将图像公式转换为可编辑的LaTeX代码。

2. 原生高分辨率架构

传统文档解析模型常因输入分辨率限制（如512x512像素）丢失细节，MinerU采用原生高分辨率处理方案：

支持输入图像分辨率最高达4096x4096像素，可完整保留文档中的小字、复杂公式等细节；
通过“滑动窗口+注意力机制”优化长文档处理，避免因分辨率提升导致的计算量爆炸——例如，对100页PDF，模型会按页分割，每页内部用滑动窗口提取局部特征，再通过全局注意力整合上下文，确保跨页内容（如长表格）的连贯性。

3. 推理框架与部署优化

为实现“低资源高效运行”，MinerU在推理层进行了针对性优化：

基于vllm的推理加速：vllm框架支持PagedAttention技术，可高效管理GPU显存，减少模型加载时间（1.2B模型加载时间从5分钟缩短至30秒内），同时支持动态批处理，单GPU每秒可处理10-20页文档；
多模态输入统一编码：将PDF的文本层（可复制文字）与图像层（扫描内容）统一编码为特征向量，避免“重复处理”——例如，对可编辑PDF，直接提取文本层内容，仅对图像层（如公式图片）调用OCR，大幅提升效率；
LitServe分布式支持：通过LitServe框架实现多GPU/多节点部署，支持负载均衡与自动扩缩容，满足企业级高并发需求（如每秒100+文档解析请求）。

4. 训练数据与评测体系

MinerU的性能离不开高质量数据支撑：

训练数据涵盖100万+文档样本，包括学术论文（arXiv、IEEE Xplore）、企业报表（上市公司年报）、政府文件（政策文档）、教材（中小学及大学教材）等，覆盖多语言（中、英、日、韩等）、多格式（PDF、图像、扫描件）；
采用“人工标注+自动生成”结合的方式构建数据集：核心样本由专业标注团队标注（如表格结构、公式LaTeX），大规模样本通过规则生成（如自动旋转表格、添加噪声），确保模型泛化能力；
基于OmniDocBench基准进行迭代优化，该基准包含5大任务、20+子场景，覆盖“简单-中等-复杂”三个难度等级，确保模型在真实场景中表现稳定。

MinerU（图2）

四、应用场景

MinerU的精准解析能力使其在多个领域具备实用价值，以下为典型应用场景：

1. 学术研究与教育领域

论文解析：科研人员可通过MinerU快速提取论文中的公式（输出LaTeX）、表格（输出Excel）、参考文献（结构化作者/期刊信息），避免手动录入错误，加速论文撰写与二次分析；
教材数字化：教育机构可将纸质教材扫描为PDF后，用MinerU提取内容并转换为可编辑文档，便于制作电子版教材或在线课程课件；
作业批改辅助：老师可通过MinerU识别学生作业中的公式与解题步骤，结合AI批改工具快速定位错误点（如公式符号错误、计算错误）。

2. 企业办公与数据处理

报表自动化：企业财务、运营部门可批量解析月度/年度报表（如Excel导出的无框线PDF、跨页财务表格），提取数据后自动导入数据库，减少人工录入成本；
合同审核：法务团队可通过MinerU提取合同中的条款、金额、日期等关键信息，结合NLP工具快速比对多份合同的差异，提升审核效率；
简历筛选：HR部门可批量解析简历PDF，提取姓名、工作经历、技能等结构化信息，生成候选人数据库，便于关键词检索（如“Python技能”“5年以上经验”）。

3. 数据挖掘与信息聚合

公共数据提取：政府或科研机构可解析公开的政策文件、统计年鉴，提取GDP、人口等数据，构建时序数据库，用于趋势分析；
文献综述自动化：学者可批量解析某一领域的论文，提取研究方法、结论等信息，快速生成文献综述框架，识别领域研究热点；
多源信息整合：企业可解析来自供应商的报价单、客户的需求文档等多格式文件，提取关键信息后统一存入CRM/ERP系统，实现数据打通。

4. 个人用户日常需求

PDF转Word：普通用户可将扫描版PDF（如纸质合同扫描件）通过MinerU转换为可编辑Word，保留原始排版（包括表格、公式位置）；
电子书内容提取：将加密或图像格式的电子书解析为文本，便于复制、搜索或制作笔记；
复杂表格转Excel：从PDF中提取无边界表格（如网页截图中的数据表格），直接生成可编辑Excel，避免手动绘制表格。

五、使用方法

MinerU提供多种使用方式，满足不同用户需求（从普通用户到开发者），具体步骤如下：

1. 免安装使用：网页版与桌面客户端

网页版（适合临时、少量文档处理）

访问官方网页：https://mineru.net；
点击“上传文件”，支持PDF、JPG、PNG格式（单文件大小≤100MB）；
选择解析模式：“快速解析”（优先速度）或“精准解析”（优先精度）；
等待处理完成（10页以内文档约10秒），下载结果（支持Word、Excel、Markdown、LaTeX等格式）。

桌面客户端（适合本地高频使用）

下载地址：GitHub仓库“Releases”页面（支持Windows、macOS、Linux）；
安装后打开客户端，点击“添加文件”导入文档；
可选择“批量处理”（最多50个文件），设置输出格式与保存路径；
点击“开始解析”，结果自动保存至指定路径，支持离线使用（无需联网）。

2. 开发者接口：API调用

适合需要集成到自有系统的场景，支持在线API与本地API两种方式：

在线API（无需部署，按调用量计费）

注册OpenDataLab账号，在“API控制台”获取API Key；

调用示例（Python）：

import requests 

url = "https://api.mineru.net/v1/parse" 
headers = {"Authorization": "Bearer YOUR_API_KEY"} 
files = {"file": open("example.pdf", "rb")} 
params = {"output_format": "excel"} 

response = requests.post(url, headers=headers, files=files, params=params) 
with open("result.xlsx", "wb") as f: 
  f.write(response.content)

本地API（私有部署，无调用限制）

先部署推理服务：

# 安装mineru 
pip install mineru 

# 启动vllm推理服务（需GPU支持，显存≥8GB） 
mineru-vllm-server --model opendatalab/MinerU2.5-2509-1.2B --port 8000

调用本地API：

import requests 

url = "http://localhost:8000/parse" 
files = {"file": open("example.pdf", "rb")} 
params = {"output_format": "markdown"} 

response = requests.post(url, files=files, params=params) 
print(response.text)

3. 本地部署：全功能私有化运行

适合对数据隐私有高要求的企业或机构，步骤如下：

环境准备：

硬件：推荐GPU（NVIDIA RTX 3090/4090或A100，显存≥16GB）；CPU≥8核，内存≥32GB；
系统：Ubuntu 20.04+/Windows 10+/macOS 12+；
依赖：Python 3.8+，CUDA 11.7+（GPU加速）。

安装与启动：

# 克隆仓库 
git clone https://github.com/opendatalab/MinerU.git 
cd MinerU 

# 安装依赖 
pip install -r requirements.txt 

# 启动全功能服务（含Web界面、API、推理） 
python run.py --host 0.0.0.0 --port 8080

使用：浏览器访问http://localhost:8080，即可使用与网页版一致的界面，所有数据均在本地处理。

不同使用方式对比

使用方式	优点	缺点	适用人群
网页版	免安装、操作简单	依赖网络、文件大小有限制	普通用户、临时需求
桌面客户端	支持离线、批量处理	需安装、功能略少于网页版	高频本地用户
在线API	易于集成、无需维护硬件	按调用计费、数据需上传	开发者、轻量集成需求
本地部署	数据隐私可控、无调用限制	需硬件支持、部署有门槛	企业、机构、技术团队

MinerU（图3）

六、常见问题解答（FAQ）

MinerU支持哪些文件格式？

支持PDF（包括可编辑PDF和扫描版PDF）、JPG、PNG、BMP等图像格式，未来计划支持DOCX、PPTX等办公格式。

本地部署需要什么配置？

最低配置：CPU 4核+内存16GB+GPU（显存8GB，如RTX 2080Ti），可处理单页文档；推荐配置：CPU 8核+内存32GB+GPU（显存16GB，如RTX 4090），支持批量处理。

解析后的表格/公式可以直接编辑吗？

可以。表格输出为Excel或Markdown格式，支持直接修改单元格内容；公式输出为LaTeX格式，可在Word、LaTeX编辑器中直接渲染并编辑。

MinerU与Adobe Acrobat的PDF转Word功能有何区别？

Adobe Acrobat对可编辑PDF效果较好，但对扫描版PDF、复杂表格（如无边界表格）、公式的处理精度较低；MinerU基于多模态大模型，擅长处理“图像类”“复杂布局”文档，解析精度更高。

是否支持多语言？

目前主要支持中文和英文，对日文、韩文、德文等语言的文本识别也有基础支持，未来会通过模型迭代优化多语言能力。

开源模型与网页版功能是否一致？

核心解析能力一致，但网页版可能包含更优的工程优化（如动态负载均衡）和功能更新（如最新的公式识别模型），开源版本更新略滞后（约1-2周）。

七、相关链接

GitHub仓库：https://github.com/opendatalab/MinerU
网页版工具：https://mineru.net
模型下载：

HuggingFace：https://huggingface.co/opendatalab/MinerU2.5-2509-1.2B
ModelScope：https://modelscope.cn/models/opendatalab/MinerU2.5-2509-1.2B

技术报告：

MinerU基础版：https://arxiv.org/abs/2409.18839
MinerU 2.5版：https://arxiv.org/abs/2509.22186

八、总结

MinerU是一款由OpenDataLab开发的开源多模态文档解析工具，通过创新的两阶段推理架构和原生高分辨率处理能力，在布局分析、表格识别、公式识别等核心任务上实现了“低参数（1.2B）高性能”的突破，其性能在权威基准测试中超越多款大模型及专业工具。该工具提供网页版、桌面客户端、API接口及本地部署等多种使用方式，兼顾普通用户的易用性与企业级的灵活性，广泛适用于学术研究、企业办公、数据挖掘等场景，帮助用户高效提取PDF等复杂文档中的结构化信息，是文档解析领域兼具技术创新性与实用价值的开源解决方案。

PDF内容提取表格识别公式识别开源大模型

打赏

版权及免责申明：本文由@人工智能研究所原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/mineru.html

THE END

人工智能研究所

发现AI神器，探索AI技术！

+ 关注