Qianfan-OCR:百度千帆开源的端到端文档智能模型,一站式实现OCR、版面分析与文档理解
一、Qianfan-OCR是什么
Qianfan-OCR是由百度千帆团队自主研发的4B参数端到端统一文档智能模型,于2026年3月正式开源,模型权重发布在Hugging Face平台,采用Apache-2.0开源协议,允许商用与二次开发。
该模型彻底颠覆传统OCR多阶段流水线模式,不再拆分版面检测、文字识别、语义理解独立模块,而是通过统一视觉语言架构,实现图像输入到结构化输出的端到端处理,直接支持图像转Markdown、JSON、HTML等格式,同时覆盖文档解析、版面分析、表格识别、公式识别、图表理解、关键信息抽取、手写体识别、场景文字识别、多语言OCR等全链路文档智能能力,是一款轻量化、高精度、一体化的文档处理大模型。
Qianfan-OCR定位为通用型企业级与开发者级文档智能底座,兼顾精度与效率,4B参数规模可在单张A100 GPU上高效运行,适配从个人开发到企业大规模部署的全场景需求,在OmniDocBench v1.5、OlmOCR Bench、关键信息抽取KIE等权威基准测试中均斩获端到端模型第一名,超越DeepSeek-OCR-v2、Gemini-3 Pro、Qwen3-VL等主流模型,代表当前端到端OCR技术的顶尖水平。
二、功能特色
1. 端到端一体化,告别多阶段流水线
传统OCR需要依次完成版面检测、文本识别、语义理解,环节多、误差累积、视觉信息丢失严重。Qianfan-OCR实现图像直接到结构化文本的一站式转换,输入文档图片,输出标准Markdown、JSON、HTML,无需预处理、后处理,大幅简化开发流程,提升处理稳定性与准确率。
2. 全场景文档能力覆盖
基础OCR:支持印刷体、手写体、场景文字(路牌、标签)识别
结构化解析:复杂表格(合并单元格、旋转表格)、数学公式(行内/独立公式)LaTeX输出
版面分析:25类元素分类、目标框检测、阅读顺序还原
高级理解:图表问答、趋势分析、数据提取、文档VQA
信息抽取:发票、收据、证件、病历等关键字段JSON输出
多语言支持:覆盖192种语言,包含拉丁、西里尔、阿拉伯、东南亚、CJK等文种
3. 创新Layout-as-Thought思考机制
模型支持通过特殊标记⟨think⟩激活版面即思考模式,先生成结构化版面信息(边框、类型、阅读顺序),再输出最终结果,显著提升试卷、技术报告、报纸等复杂混合版面文档的解析精度,简单单栏文档可关闭以降低延迟、提升速度。
4. 多项基准测试登顶,精度行业领先
| 基准测试 | 成绩 | 排名 |
|---|---|---|
| OmniDocBench v1.5 | 93.12分 | 端到端模型第一 |
| OlmOCR Bench | 79.8分 | 端到端模型第一 |
| 关键信息抽取KIE | 87.9分 | 全球第一 |
| OCRBench | 880分 | 领先主流模型 |
模型在文档解析、公式识别、表格提取、信息抽取等维度全面领先,图表理解能力远超两阶段OCR+LLM方案,解决传统方案丢失图表结构导致推理失效的问题。
5. 轻量化高效部署
4B参数规模,单A100 GPU即可运行,W8A8量化下推理吞吐量达1.024页/秒,支持vLLM一键服务化部署,满足高并发、大规模生产环境需求,兼顾精度与成本,适配中小企业与个人开发者。
6. 提示词灵活控制
全任务通过提示词驱动,无需修改模型、无需定制化训练,简单指令即可切换OCR、表格提取、信息抽取、文档问答等功能,支持中英文提示词,上手门槛极低。
三、技术细节
1. 核心架构
Qianfan-OCR基于千帆Qianfan-VL多模态架构,由三大组件构成:
视觉编码器:Qianfan-ViT,24层Transformer,AnyResolution设计最高支持4K分辨率,单张图片最大4096个视觉Token
语言模型:Qwen3-4B(非嵌入层3.6B),36层,隐藏维度2560,GQA架构,32K上下文可扩展至131K
跨模态适配器:2层MLP+GELU激活,实现1024维视觉特征到2560维语言特征的映射,完成图文对齐
2. Layout-as-Thought技术原理
该机制是端到端框架下的创新突破,通过⟨think⟩标记触发,模型在生成最终结果前,先显式输出文档版面结构,包括元素位置、类型、阅读顺序,相当于先"分析布局"再"生成内容",既保留端到端简洁性,又恢复传统流水线的版面分析能力,有效解决复杂文档结构错乱、阅读顺序错误问题。
3. 训练与优化
模型在海量多语言、多类型文档数据上训练,覆盖表格、公式、图表、手写体、复杂版面等场景,采用多任务统一训练,同时优化OCR、解析、理解、抽取目标,兼顾通用能力与专业场景精度;推理支持BF16、W8A8量化,在精度损失极小的前提下大幅提升速度、降低显存占用,适配主流GPU环境。
4. 推理性能
| 量化类型 | 吞吐量(PPS,页/秒) |
|---|---|
| W8A8 | 1.024 |
| W16A16 | 0.503 |
测试环境为单NVIDIA A100 GPU、vLLM 0.10.2,吞吐量接近行业主流轻量化OCR模型,适合大规模批量处理。

四、应用场景
1. 金融票据处理
银行、保险、财务场景,自动识别发票、收据、保单、对账单,提取金额、日期、账号、公司名等关键字段,输出结构化JSON,替代人工录入,提升效率、降低错误率。
2. 政务与证件办理
政务大厅、派出所、社区服务,识别身份证、户口本、营业执照、结婚证等证件,自动提取信息用于表单填写、系统录入,实现"免填单"服务,优化办事流程。
3. 教育与学术场景
试卷、作业、论文、学术图表识别,还原公式、表格、图表内容,支持题目解析、答案批改、文献资料数字化,适配在线教育、图书馆数字化、科研文档处理。
4. 医疗文档处理
病历、处方、检查报告识别,提取患者信息、诊断结果、用药清单、检查数据,助力电子病历录入、医疗数据结构化、医保报销自动化。
5. 企业办公数字化
合同、报告、表单、会议纪要识别,转换为可编辑Markdown/Word,提取关键条款、数据、结论,支持文档检索、内容审核、知识沉淀,提升办公效率。
6. 多语言跨境场景
外贸、跨境电商、国际物流,识别多语言单据、标签、合同,支持小语种文字提取与信息结构化,解决跨境业务语言障碍。
7. 个人开发者工具
开发OCR小程序、笔记软件、扫描App、文献管理工具,快速集成高精度OCR与文档理解能力,无需从零搭建复杂流水线。
五、使用方法
1. 环境准备
安装依赖库:
pip install torch torchvision transformers pillow vllm
2. 基础调用(图像转Markdown)
import torch
import torchvision.transforms as T
from torchvision.transforms.functional import InterpolationMode
from transformers import AutoModel, AutoTokenizer
from PIL import Image
# 图像预处理
def build_transform(input_size):
MEAN = (0.485, 0.456, 0.406)
STD = (0.229, 0.224, 0.225)
return T.Compose([
T.Lambda(lambda img: img.convert('RGB')),
T.Resize((input_size, input_size), interpolation=InterpolationMode.BICUBIC),
T.ToTensor(),
T.Normalize(mean=MEAN, std=STD)
])
def load_image(image_file, input_size=448, max_num=12):
image = Image.open(image_file).convert('RGB')
transform = build_transform(input_size=input_size)
# 动态分块预处理(省略细节,参考官方代码)
pixel_values = transform(image).unsqueeze(0)
return pixel_values
# 加载模型
MODEL_PATH = "baidu/Qianfan-OCR"
model = AutoModel.from_pretrained(
MODEL_PATH, torch_dtype=torch.bfloat16, trust_remote_code=True, device_map="auto"
).eval()
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_code=True)
# 推理
pixel_values = load_image("document.png").to(torch.bfloat16)
prompt = "Parse this document to Markdown."
with torch.no_grad():
response = model.chat(tokenizer, pixel_values=pixel_values, question=prompt, generation_config={"max_new_tokens": 16384})
print(response)3. Layout-as-Thought思考模式
提示词添加⟨think⟩标记,激活版面增强:
prompt = "Parse this document to Markdown."
4. 关键信息抽取(JSON输出)
prompt = "请从图片中提取以下字段:姓名、日期、总金额,使用标准JSON格式输出。"
5. vLLM高吞吐部署
vllm serve baidu/Qianfan-OCR --trust-remote-code
六、常见问题解答(FAQ)
Qianfan-OCR支持哪些输入格式?
支持JPG、PNG、BMP等常见图片格式,PDF需先转换为图片后输入,模型直接处理图像数据。
模型对硬件有什么要求?
推荐使用NVIDIA GPU,最低支持16GB显存显卡,单A100/A10、3090/4090均可流畅运行,CPU推理速度较慢,不推荐生产环境使用。
什么场景适合开启Layout-as-Thought?
复杂混合版面文档,如试卷、技术报告、报纸、多栏文档、包含表格+公式+图表的页面;简单单栏文本、纯表单建议关闭,速度更快、结果更简洁。
模型支持多少种语言,中文效果如何?
支持192种语言,覆盖全球主流文种,中文(简体/繁体)识别精度优异,在OCRBenchv2中文测试集达60.77分,领先同参数模型。
识别结果不准确怎么办?
优先保证图片清晰、光线充足、无遮挡、无严重倾斜;复杂文档开启⟨think⟩模式;提示词更具体,明确要求输出格式、需提取字段、忽略内容。
能否处理倾斜、模糊、手写文档?
具备一定鲁棒性,支持轻度倾斜、模糊文档,可识别中英文手写体;严重模糊、重度倾斜、遮挡密集文档建议先校正、增强后再识别。
表格、公式识别效果如何?
支持复杂合并单元格、旋转表格,输出标准HTML;支持行内与独立公式,输出LaTeX格式,在OmniDocBench公式、表格指标均领先主流模型。
模型是否支持商用,是否需要付费?
开源协议为Apache-2.0,完全免费商用,可自由修改、分发、集成到商业产品,无授权费用。
如何提升推理速度?
使用W8A8量化;采用vLLM部署;简单文档关闭⟨think⟩模式;降低输入图像分辨率;批量处理文档。
是否支持多页PDF处理?
模型单轮处理单张图片,多页PDF需逐页转图片后循环调用,可自行开发批量处理脚本。
报错trust_remote_code=True怎么办?
加载模型必须添加trust_remote_code=True,因模型包含自定义代码,这是官方推荐配置,确保安全性前提下正常使用。
模型与传统PaddleOCR有什么区别?
PaddleOCR是多阶段流水线,侧重纯文字识别;Qianfan-OCR是端到端视觉语言模型,侧重文档理解、结构化解析、复杂版面与图表处理,能力更全面。
七、相关链接
HuggingFace模型主页:https://huggingface.co/baidu/Qianfan-OCR
技术论文arXiv:https://arxiv.org/abs/2603.13398
GitHub开源仓库:https://github.com/baidubce/Qianfan-VL
百度千帆大模型平台:https://cloud.baidu.com/product/qianfan
八、总结
Qianfan-OCR作为百度千帆团队开源的4B参数端到端文档智能模型,以统一视觉语言架构重构文档处理流程,集OCR识别、版面分析、表格公式提取、图表理解、关键信息抽取、多语言识别于一体,凭借创新Layout-as-Thought机制、顶尖基准测试成绩、高效部署能力与宽松开源协议,成为面向开发者与企业的优质文档智能底座,可广泛落地金融、政务、教育、医疗、办公等场景,大幅降低文档智能化开发门槛与成本,为端到端OCR技术落地提供成熟可行的方案。
版权及免责申明:本文由@AI工具箱原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/qianfan‑ocr.html

