Qianfan-OCR：百度千帆开源的端到端文档智能模型，一站式实现OCR、版面分析与文档理解

原创发布日期：2026-03-21

一、Qianfan-OCR是什么

Qianfan-OCR是由百度千帆团队自主研发的4B参数端到端统一文档智能模型，于2026年3月正式开源，模型权重发布在Hugging Face平台，采用Apache-2.0开源协议，允许商用与二次开发。

该模型彻底颠覆传统OCR多阶段流水线模式，不再拆分版面检测、文字识别、语义理解独立模块，而是通过统一视觉语言架构，实现图像输入到结构化输出的端到端处理，直接支持图像转Markdown、JSON、HTML等格式，同时覆盖文档解析、版面分析、表格识别、公式识别、图表理解、关键信息抽取、手写体识别、场景文字识别、多语言OCR等全链路文档智能能力，是一款轻量化、高精度、一体化的文档处理大模型。

Qianfan-OCR定位为通用型企业级与开发者级文档智能底座，兼顾精度与效率，4B参数规模可在单张A100 GPU上高效运行，适配从个人开发到企业大规模部署的全场景需求，在OmniDocBench v1.5、OlmOCR Bench、关键信息抽取KIE等权威基准测试中均斩获端到端模型第一名，超越DeepSeek-OCR-v2、Gemini-3 Pro、Qwen3-VL等主流模型，代表当前端到端OCR技术的顶尖水平。

二、功能特色

1. 端到端一体化，告别多阶段流水线

传统OCR需要依次完成版面检测、文本识别、语义理解，环节多、误差累积、视觉信息丢失严重。Qianfan-OCR实现图像直接到结构化文本的一站式转换，输入文档图片，输出标准Markdown、JSON、HTML，无需预处理、后处理，大幅简化开发流程，提升处理稳定性与准确率。

2. 全场景文档能力覆盖

基础OCR：支持印刷体、手写体、场景文字（路牌、标签）识别
结构化解析：复杂表格（合并单元格、旋转表格）、数学公式（行内/独立公式）LaTeX输出
版面分析：25类元素分类、目标框检测、阅读顺序还原
高级理解：图表问答、趋势分析、数据提取、文档VQA
信息抽取：发票、收据、证件、病历等关键字段JSON输出
多语言支持：覆盖192种语言，包含拉丁、西里尔、阿拉伯、东南亚、CJK等文种

3. 创新Layout-as-Thought思考机制

模型支持通过特殊标记⟨think⟩激活版面即思考模式，先生成结构化版面信息（边框、类型、阅读顺序），再输出最终结果，显著提升试卷、技术报告、报纸等复杂混合版面文档的解析精度，简单单栏文档可关闭以降低延迟、提升速度。

4. 多项基准测试登顶，精度行业领先

基准测试	成绩	排名
OmniDocBench v1.5	93.12分	端到端模型第一
OlmOCR Bench	79.8分	端到端模型第一
关键信息抽取KIE	87.9分	全球第一
OCRBench	880分	领先主流模型

模型在文档解析、公式识别、表格提取、信息抽取等维度全面领先，图表理解能力远超两阶段OCR+LLM方案，解决传统方案丢失图表结构导致推理失效的问题。

5. 轻量化高效部署

4B参数规模，单A100 GPU即可运行，W8A8量化下推理吞吐量达1.024页/秒，支持vLLM一键服务化部署，满足高并发、大规模生产环境需求，兼顾精度与成本，适配中小企业与个人开发者。

6. 提示词灵活控制

全任务通过提示词驱动，无需修改模型、无需定制化训练，简单指令即可切换OCR、表格提取、信息抽取、文档问答等功能，支持中英文提示词，上手门槛极低。

三、技术细节

1. 核心架构

Qianfan-OCR基于千帆Qianfan-VL多模态架构，由三大组件构成：

视觉编码器：Qianfan-ViT，24层Transformer，AnyResolution设计最高支持4K分辨率，单张图片最大4096个视觉Token
语言模型：Qwen3-4B（非嵌入层3.6B），36层，隐藏维度2560，GQA架构，32K上下文可扩展至131K
跨模态适配器：2层MLP+GELU激活，实现1024维视觉特征到2560维语言特征的映射，完成图文对齐

2. Layout-as-Thought技术原理

该机制是端到端框架下的创新突破，通过⟨think⟩标记触发，模型在生成最终结果前，先显式输出文档版面结构，包括元素位置、类型、阅读顺序，相当于先"分析布局"再"生成内容"，既保留端到端简洁性，又恢复传统流水线的版面分析能力，有效解决复杂文档结构错乱、阅读顺序错误问题。

3. 训练与优化

模型在海量多语言、多类型文档数据上训练，覆盖表格、公式、图表、手写体、复杂版面等场景，采用多任务统一训练，同时优化OCR、解析、理解、抽取目标，兼顾通用能力与专业场景精度；推理支持BF16、W8A8量化，在精度损失极小的前提下大幅提升速度、降低显存占用，适配主流GPU环境。

4. 推理性能

量化类型	吞吐量（PPS，页/秒）
W8A8	1.024
W16A16	0.503

测试环境为单NVIDIA A100 GPU、vLLM 0.10.2，吞吐量接近行业主流轻量化OCR模型，适合大规模批量处理。

Qianfan-OCR：百度千帆开源的端到端文档智能模型，一站式实现OCR、版面分析与文档理解

四、应用场景

1. 金融票据处理

银行、保险、财务场景，自动识别发票、收据、保单、对账单，提取金额、日期、账号、公司名等关键字段，输出结构化JSON，替代人工录入，提升效率、降低错误率。

2. 政务与证件办理

政务大厅、派出所、社区服务，识别身份证、户口本、营业执照、结婚证等证件，自动提取信息用于表单填写、系统录入，实现"免填单"服务，优化办事流程。

3. 教育与学术场景

试卷、作业、论文、学术图表识别，还原公式、表格、图表内容，支持题目解析、答案批改、文献资料数字化，适配在线教育、图书馆数字化、科研文档处理。

4. 医疗文档处理

病历、处方、检查报告识别，提取患者信息、诊断结果、用药清单、检查数据，助力电子病历录入、医疗数据结构化、医保报销自动化。

5. 企业办公数字化

合同、报告、表单、会议纪要识别，转换为可编辑Markdown/Word，提取关键条款、数据、结论，支持文档检索、内容审核、知识沉淀，提升办公效率。

6. 多语言跨境场景

外贸、跨境电商、国际物流，识别多语言单据、标签、合同，支持小语种文字提取与信息结构化，解决跨境业务语言障碍。

7. 个人开发者工具

开发OCR小程序、笔记软件、扫描App、文献管理工具，快速集成高精度OCR与文档理解能力，无需从零搭建复杂流水线。

五、使用方法

1. 环境准备

安装依赖库：

pip install torch torchvision transformers pillow vllm

2. 基础调用（图像转Markdown）

import torch
import torchvision.transforms as T
from torchvision.transforms.functional import InterpolationMode
from transformers import AutoModel, AutoTokenizer
from PIL import Image

# 图像预处理
def build_transform(input_size):
  MEAN = (0.485, 0.456, 0.406)
  STD = (0.229, 0.224, 0.225)
  return T.Compose([
    T.Lambda(lambda img: img.convert('RGB')),
    T.Resize((input_size, input_size), interpolation=InterpolationMode.BICUBIC),
    T.ToTensor(),
    T.Normalize(mean=MEAN, std=STD)
  ])

def load_image(image_file, input_size=448, max_num=12):
  image = Image.open(image_file).convert('RGB')
  transform = build_transform(input_size=input_size)
  # 动态分块预处理（省略细节，参考官方代码）
  pixel_values = transform(image).unsqueeze(0)
  return pixel_values

# 加载模型
MODEL_PATH = "baidu/Qianfan-OCR"
model = AutoModel.from_pretrained(
  MODEL_PATH, torch_dtype=torch.bfloat16, trust_remote_code=True, device_map="auto"
).eval()
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_code=True)

# 推理
pixel_values = load_image("document.png").to(torch.bfloat16)
prompt = "Parse this document to Markdown."
with torch.no_grad():
  response = model.chat(tokenizer, pixel_values=pixel_values, question=prompt, generation_config={"max_new_tokens": 16384})
print(response)

3. Layout-as-Thought思考模式

提示词添加⟨think⟩标记，激活版面增强：

prompt = "Parse this document to Markdown."

4. 关键信息抽取（JSON输出）

prompt = "请从图片中提取以下字段：姓名、日期、总金额，使用标准JSON格式输出。"

5. vLLM高吞吐部署

vllm serve baidu/Qianfan-OCR --trust-remote-code

六、常见问题解答（FAQ）

Qianfan-OCR支持哪些输入格式？

支持JPG、PNG、BMP等常见图片格式，PDF需先转换为图片后输入，模型直接处理图像数据。

模型对硬件有什么要求？

推荐使用NVIDIA GPU，最低支持16GB显存显卡，单A100/A10、3090/4090均可流畅运行，CPU推理速度较慢，不推荐生产环境使用。

什么场景适合开启Layout-as-Thought？

复杂混合版面文档，如试卷、技术报告、报纸、多栏文档、包含表格+公式+图表的页面；简单单栏文本、纯表单建议关闭，速度更快、结果更简洁。

模型支持多少种语言，中文效果如何？

支持192种语言，覆盖全球主流文种，中文（简体/繁体）识别精度优异，在OCRBenchv2中文测试集达60.77分，领先同参数模型。

识别结果不准确怎么办？

优先保证图片清晰、光线充足、无遮挡、无严重倾斜；复杂文档开启⟨think⟩模式；提示词更具体，明确要求输出格式、需提取字段、忽略内容。

能否处理倾斜、模糊、手写文档？

具备一定鲁棒性，支持轻度倾斜、模糊文档，可识别中英文手写体；严重模糊、重度倾斜、遮挡密集文档建议先校正、增强后再识别。

表格、公式识别效果如何？

支持复杂合并单元格、旋转表格，输出标准HTML；支持行内与独立公式，输出LaTeX格式，在OmniDocBench公式、表格指标均领先主流模型。

模型是否支持商用，是否需要付费？

开源协议为Apache-2.0，完全免费商用，可自由修改、分发、集成到商业产品，无授权费用。

如何提升推理速度？

使用W8A8量化；采用vLLM部署；简单文档关闭⟨think⟩模式；降低输入图像分辨率；批量处理文档。

是否支持多页PDF处理？

模型单轮处理单张图片，多页PDF需逐页转图片后循环调用，可自行开发批量处理脚本。

报错trust_remote_code=True怎么办？

加载模型必须添加trust_remote_code=True，因模型包含自定义代码，这是官方推荐配置，确保安全性前提下正常使用。

模型与传统PaddleOCR有什么区别？

PaddleOCR是多阶段流水线，侧重纯文字识别；Qianfan-OCR是端到端视觉语言模型，侧重文档理解、结构化解析、复杂版面与图表处理，能力更全面。

七、相关链接

HuggingFace模型主页：https://huggingface.co/baidu/Qianfan-OCR
技术论文arXiv：https://arxiv.org/abs/2603.13398
GitHub开源仓库：https://github.com/baidubce/Qianfan-VL
百度千帆大模型平台：https://cloud.baidu.com/product/qianfan
项目官方文档：https://baidubce.github.io/Qianfan-VL/

八、总结

Qianfan-OCR作为百度千帆团队开源的4B参数端到端文档智能模型，以统一视觉语言架构重构文档处理流程，集OCR识别、版面分析、表格公式提取、图表理解、关键信息抽取、多语言识别于一体，凭借创新Layout-as-Thought机制、顶尖基准测试成绩、高效部署能力与宽松开源协议，成为面向开发者与企业的优质文档智能底座，可广泛落地金融、政务、教育、医疗、办公等场景，大幅降低文档智能化开发门槛与成本，为端到端OCR技术落地提供成熟可行的方案。

OCR 表格识别开源模型

打赏

版权及免责申明：本文由@AI工具箱原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/qianfan‑ocr.html

THE END

AI工具箱

一个喜欢收集AI工具的小萌新

+ 关注

Qianfan-OCR：百度千帆开源的端到端文档智能模型，一站式实现OCR、版面分析与文档理解

文章目录

一、Qianfan-OCR是什么

二、功能特色

1. 端到端一体化，告别多阶段流水线

2. 全场景文档能力覆盖

3. 创新Layout-as-Thought思考机制

4. 多项基准测试登顶，精度行业领先

5. 轻量化高效部署

6. 提示词灵活控制

三、技术细节

1. 核心架构

2. Layout-as-Thought技术原理

3. 训练与优化

4. 推理性能

四、应用场景

1. 金融票据处理

2. 政务与证件办理

3. 教育与学术场景

4. 医疗文档处理

5. 企业办公数字化

6. 多语言跨境场景

7. 个人开发者工具

五、使用方法

1. 环境准备

2. 基础调用（图像转Markdown）

3. Layout-as-Thought思考模式

4. 关键信息抽取（JSON输出）

5. vLLM高吞吐部署

六、常见问题解答（FAQ）

七、相关链接

八、总结

相关文章