dots.mocr：小红书联合华科开源的多模态 OCR 模型，文档解析与图表转 SVG 一体化引擎

原创发布日期：2026-03-28

179

一、dots.mocr是什么

dots.mocr是由小红书人文智能实验室HiLab携手华中科技大学联合研发、完全开源的轻量化多模态文档解析与增强型OCR大模型，隶属于dots系列AI视觉技术生态，专为解决传统OCR技术局限而生。区别于常规仅能完成文字提取的识别工具，该项目彻底打破“文本检测+文字识别+版面分析”多模型拼接的传统技术范式，采用单一视觉语言模型（VLM）构建端到端解析体系，将视觉定位、多语言识别、语义理解、结构化图形重建四大能力深度融合。

项目整体定位为“万物可解析”的全能型文档智能引擎，核心聚焦通用文档、学术资料、商业图表、UI界面、科学图形等多类素材的深度解析，不仅能精准提取纯文本、表格、公式、排版布局，更具备业内突出的图形转SVG无损重建能力，可直接将图片化图表、流程图、矢量图形转化为标准可编辑的SVG代码。模型整体参数控制在3B级别，兼顾轻量化部署与顶尖性能，在多项国际权威文档解析评测基准中稳居开源模型榜首，综合能力仅次于谷歌Gemini 3 Pro闭源模型，是当前中小体量开源OCR项目中的标杆级产品。

同时，dots.mocr配套推出专属优化变体dots.mocr-svg，针对性强化图像转矢量图形的解析精度，适配高精度图形重构场景；仓库原生支持Python开发、Gradio可视化演示、vLLM高速推理部署，提供完整的代码工程、依赖配置、测试案例与开发工具，个人开发者、企业技术团队均可快速完成本地部署、二次开发与商业化落地。

dots.mocr：小红书联合华科开源的多模态 OCR 模型，文档解析与图表转 SVG 一体化引擎

二、功能特色

2.1 多语言全域识别，覆盖全品类文字体系

dots.mocr原生支持全球百余种人类语言文字与特殊符号识别，涵盖中文、英文、小语种、少数民族文字、专业公式符号、手写批注、古籍异体字等，尤其优化小语种、低资源语言的解析精度，解决传统OCR对冷门文字识别失效、乱码、漏识的痛点。无论是印刷体文档、扫描件、手机截图、模糊翻拍图片，均可稳定完成文字提取，同时保留原文排版层级、段落间距、文字对齐等细节信息，满足全球化文档处理、跨境资料解析、多语种知识库搭建需求。

2.2 一体化结构化解析，深度理解文档逻辑

依托单模型统一架构，项目可一站式完成文档全元素解析，无需拆分多个工具协同作业。支持常规文字段落精准提取、表格自动识别并输出标准化结构化文本、数学公式转化为可编辑格式、文档阅读顺序智能排序、页眉页脚与批注区分隔归类。相较于传统多模块OCR方案，dots.mocr彻底规避多模型联动带来的误差累积问题，解析准确率大幅提升，同时简化开发集成流程，代码复用率显著提高。

2.3 核心王牌能力：图形无损转SVG代码

这是dots.mocr区别于绝大多数开源OCR项目的独家核心特色。模型可精准解析柱状图、折线图、饼图、科学实验图表、UI界面布局、流程图、工程绘图等结构化图形，直接生成原生标准SVG矢量代码。转化后的SVG文件支持无限放大无模糊、可直接编辑修改、适配网页嵌入、设计复用、学术论文排版等场景，无需手动二次绘图重构；专属变体dots.mocr-svg进一步优化图形轮廓、线条比例、配色参数的还原精度，实现近乎原图级别的无损复刻。

2.4 轻量化高性能，兼顾效率与精度

3B紧凑级参数设计打破“大模型才具备高精度”的固有认知，依托定制化高分辨率视觉编码器与轻量化语言解码器，实现低算力消耗下的顶尖推理效果。模型原生支持超大尺寸图像原生输入，最高可适配约1100万像素高清素材，无需强制降采样压缩，完美保留小字、细线条、微小符号等细节特征；搭配vLLM推理加速框架后，单页文档解析速度大幅提升，可满足批量PDF处理、高并发接口服务、边缘设备轻量化部署等场景。

2.5 全场景兼容适配，部署门槛极低

项目适配图片（JPG、PNG、WEBP）、PDF多页文档、网页截图、移动端实拍图等主流素材格式；同时提供多元化落地方式，包含本地Python脚本调用、Gradio网页可视化演示、vLLM云端API部署、批量离线处理工具，兼容Linux主流服务器系统，支持单机本地推理、私有化内网部署、公有云服务搭建，零基础开发者也可依托仓库自带案例快速上手测试。

2.6 通用视觉能力均衡，拓展性极强

在深耕文档解析的同时，dots.mocr保留对标Qwen3-VL-4B量级的通用多模态视觉能力，可兼顾常规图像内容理解、场景文字检测、简单图文问答等衍生任务，无需额外集成其他视觉模型。开发者可基于原生代码拓展功能，搭建图文对话机器人、文档智能问答系统、图文检索知识库等衍生应用，大幅降低多模态项目的开发成本。

三、技术细节

3.1 整体架构设计：单模型端到端融合体系

dots.mocr摒弃传统OCR“检测模型+识别模型+布局分析模型”的串联流水线架构，采用高分辨率视觉编码器+多模态连接器+轻量化自回归语言解码器三段式统一架构，实现从图像像素到结构化文本、SVG代码的全链路端到端输出。整套架构所有任务共享底层特征参数，通过动态提示词切换即可适配文字识别、版面解析、图形转码、公式提取等不同需求，无需针对单一任务单独微调模型，极大简化优化与维护成本。

3.2 核心组件参数与定制化优化

视觉编码器为项目专属从零训练开发，不依赖通用预训练视觉模型，原生适配文档、图表、小字密集场景的特征提取，支持超高像素原生输入，杜绝降采样导致的细节丢失；语言解码器基于Qwen2.5 1.5B基础版本优化搭建，舍弃对话类模型的冗余先验逻辑，精准适配SVG代码、公式字符、结构化表格等非自然语言序列的生成任务，避免常规对话模型干扰专业代码输出精度。多模态连接器采用轻量化跨模态注意力机制，高效打通视觉特征与语言语义的深度融合，保障图文信息精准对齐。

3.3 训练体系：三阶段渐进式精准优化

模型采用专业化三阶段训练流程，层层夯实解析能力：第一阶段完成视觉编码器大规模文档图像预训练，积累海量文字、图表、排版的基础特征认知；第二阶段开展多任务联合微调，融合文字识别、版面分割、表格解析、图形标注等多元任务数据，强化多场景泛化能力；第三阶段针对性强化SVG代码生成专项训练，投喂海量图表与矢量代码配对数据，优化图形轮廓、坐标参数、配色逻辑的还原精度，最终实现结构化图形的高质量转码输出。

3.4 性能基准：开源梯队顶尖水准

dots.mocr在三大国际主流文档解析权威基准中取得突破性成绩，综合Elo评分达1124.7，稳居开源模型第一梯队。

评测基准名称	核心得分	行业定位
olmOCR-Bench	1104.4（刷新开源SOTA至83.9分）	通用多语言OCR核心评测集
OmniDocBench v1.5	1059.0	文档版面与排版解析黄金基准
XDocParse	1210.7	结构化文档与图表解析专项评测集

横向对比MonkeyOCR-pro-3B、GLM-OCR、PaddleOCR-VL-1.5等主流开源OCR模型，dots.mocr综合得分全面领先；在图形重构专项能力上，部分场景解析效果可超越Gemini 3 Pro闭源模型，充分验证轻量化架构下的技术优越性。

3.5 推理优化：高效落地技术加持

项目原生集成FlashAttention加速技术，适配CUDA 12及以上版本显卡，大幅降低推理显存占用；支持vLLM高性能推理框架部署，实现接口化高并发调用；内置批量处理线程优化，可自定义线程数完成大容量PDF、图片合集的离线批量解析；同时配备图像预处理工具，自动优化低分辨率、倾斜、模糊素材，提升复杂原图的解析成功率。

dots.mocr：小红书联合华科开源的多模态 OCR 模型，文档解析与图表转 SVG 一体化引擎

四、应用场景

4.1 学术科研领域

适配论文PDF解析、实验图表提取、数学公式识别、科研插图重构，可将期刊论文中的折线图、原理图、数据图表转为可编辑SVG矢量图，方便论文二次修改、课件制作、学术汇报素材复用；同时精准提取文献段落、引用标注、参考文献排版，助力科研人员快速搭建文献检索知识库，提升资料整理效率。

4.2 企业办公与数字化归档

企业可依托模型完成纸质档案扫描件电子化、合同票据文字结构化提取、财务报表表格自动解析、员工手册与制度文档排版还原；批量处理历史PDF归档文件，将非可编辑图文档案转化为可检索、可编辑的数字化文档，搭建企业内部智能档案库，实现档案快速检索与信息复用。

4.3 教育教学场景

支持教材教辅图片解析、知识点图文提取、试卷错题图文归档、教学流程图重构；教师可将课件中的手绘图表、教材插图转为SVG代码，优化课件排版；培训机构可批量解析题库图片，完成题目文字、配图、公式的结构化录入，搭建智能题库系统。

4.4 互联网产品与前端开发

前端开发者可借助图表转SVG能力，快速复刻竞品UI界面、数据可视化图表，直接嵌入网页、小程序、APP开发；内容平台可实现图文内容智能结构化排版，自动提取配图文字、优化图文排版；设计行业可快速还原手绘草图、参考图表，降低矢量绘图的人力成本。

4.5 跨境多语种业务

外贸企业、跨境平台可实现多语种合同、海外资料、小语种票据的精准识别与翻译预处理；跨境知识库搭建过程中，完成全球多语言文档的统一解析归档，打破文字体系差异带来的信息提取壁垒。

4.6 私有化AI赋能开发

技术团队可基于dots.mocr二次开发，集成到RAG检索增强生成系统、智能问答机器人、本地文档AI助手等产品中，赋予模型精准读取图文资料、解析图表数据、理解复杂排版文档的能力；内网私有化部署可保障涉密文档、内部资料的数据安全，杜绝外部接口调用的信息泄露风险。

五、使用方法

5.1 前期环境准备

首先确保部署设备搭载NVIDIA显卡，CUDA版本不低于12.0，配套安装对应版本cuDNN依赖；推荐使用Linux Ubuntu系统搭建环境，Windows系统仅支持基础测试，不适配高并发批量推理。新建独立Python虚拟环境，保障依赖包版本纯净，避免与其他AI项目冲突，基础Python版本要求3.9及以上。

5.2 源码下载与依赖安装

直接克隆官方GitHub开源仓库到本地服务器，获取完整工程代码：通过Git命令拉取rednote-hilab/dots.mocr源码，解压后进入项目根目录。执行pip命令读取requirements.txt文件，自动安装所有基础依赖库；如需启用vLLM高速推理，额外安装指定版本vLLM框架，同时根据提示配置FlashAttention加速组件，完成底层推理优化。

5.3 基础本地脚本调用

仓库demo目录内置多套现成调用案例，新手可直接复用测试。运行demo_hf.py脚本，可快速完成单张图片、单页PDF的基础OCR文字解析；修改脚本内文件路径，替换为自定义测试素材，即可输出提取后的纯文本、排版结构化内容；如需测试图表转SVG功能，调用对应解析接口，输入图表图片，终端会直接生成完整SVG代码文件并保存到本地目录。

5.4 Gradio可视化网页部署

执行demo目录下的demo_gradio.py启动脚本，系统会自动搭建本地网页可视化服务，默认端口7860。打开浏览器输入本地IP+端口号，即可进入可视化操作界面，支持直接上传图片、PDF文件，下拉选择解析模式（全文排版解析、纯文字识别、图表转SVG），一键生成解析结果，直观查看文字内容、表格结构、SVG原图预览，无需编写代码即可快速验证模型效果。

5.5 vLLM云端接口部署

适合高并发、多用户调用的业务场景，执行仓库自带的vLLM启动脚本，配置显卡显存利用率、异步调度参数，启动模型API服务。部署完成后，可通过标准HTTP接口发送图文解析请求，支持第三方系统、小程序、业务平台无缝对接；同时可自定义批量处理线程数，针对大容量PDF合集设置多线程并发解析，提升批量处理效率。

5.6 进阶二次开发

开发者可修改dots_mocr核心目录下的parser.py解析逻辑、utils工具函数，自定义解析规则；基于模型微调流程，投喂行业专属数据（如医疗图表、工程图纸），强化垂直场景解析精度；也可对接向量数据库，将解析后的结构化文档内容入库，搭建专属图文检索RAG系统。

dots.mocr：小红书联合华科开源的多模态 OCR 模型，文档解析与图表转 SVG 一体化引擎

六、常见问题解答

问题：部署时提示CUDA版本不兼容、FlashAttention安装失败该怎么解决？

答：该模型依赖CUDA 12.0及以上高阶版本，低于此版本会直接导致加速组件编译失败。首先升级显卡驱动与CUDA配套环境，严格匹配官方要求的版本标准；若本地升级困难，可改用官方提供的Docker镜像快速搭建标准化环境，规避本地环境适配问题，无需手动配置底层依赖。

问题：解析低分辨率、模糊翻拍的图片时，文字漏识、乱码情况严重怎么办？

答：首先启用项目内置的图像预处理工具，调高PDF解析DPI至200及以上，对模糊图片进行清晰度增强；其次避免过小尺寸原图输入，可适当放大素材再解析；若为密集小字文档，优先使用原生高像素输入模式，关闭自动降采样功能，保留更多细节特征提升识别精度。

问题：图表转SVG生成的代码存在线条错位、配色偏差如何优化？

答：常规场景可切换调用dots.mocr-svg优化变体模型，该版本专门强化图形还原能力；复杂工程绘图、精细UI图表，可提前裁剪无关背景区域，仅保留核心图形再解析；生成SVG后，可借助常规矢量编辑工具微调参数，快速修正细微偏差。

问题：显存不足，无法加载完整模型进行推理该怎么处理？

答：可降低显卡显存利用率配置，关闭不必要的后台加速组件；采用模型轻量化加载模式，启用梯度检查点节省显存；小算力设备优先处理单张图片、短页PDF，避免一次性加载大容量多页文档；企业场景可拆分批量任务，分时段分批完成解析。

问题：多语种识别时，小语种文字出现方块乱码该如何解决？

答：首先确认部署环境已安装全量字体库，补齐冷门语种字符渲染依赖；其次切换多语言专属解析提示词，启用模型低资源语言强化识别模式；同时升级到仓库最新代码版本，官方持续迭代优化小语种识别数据集，新版本会修复大量冷门文字识别漏洞。

问题：Gradio网页打开空白、上传文件无响应是什么原因？

答：优先检查端口7860是否被其他程序占用，修改启动脚本端口参数重新运行；确认服务器防火墙已放行对应端口，本地访问需核对正确IP地址；同时排查依赖包完整性，缺失前端相关依赖会导致网页交互功能失效，重新重装全套基础依赖即可修复。

七、相关链接

官方GitHub开源仓库地址：https://github.com/rednote-hilab/dots.mocr
官方在线演示体验地址：https://dotsocr.xiaohongshu.com
官方技术论文地址：https://arxiv.org/pdf/2603.13032

八、总结

dots.mocr作为小红书HiLab与华中科技大学联合打造的开源轻量化多模态OCR项目，彻底重构传统文档解析的技术逻辑，以单一端到端视觉语言模型打破多模块拼接的行业痛点，凭借3B紧凑参数实现开源梯队顶尖的解析性能，不仅精准覆盖百种多语言文字识别、文档版面结构化提取、表格公式解析等常规OCR需求，更凭借独家图表转SVG无损重构能力形成差异化优势。项目配套完善的部署方案、可视化演示工具与二次开发接口，兼顾个人开发者轻量化测试、企业私有化落地、垂直行业定制化拓展等多元场景，在学术科研、企业数字化、教育教学、前端开发等领域具备极高实用价值，其开源开放的特性也为整个文档智能行业提供了低成本、高性能的技术参考与落地范本。

打赏

版权及免责申明：本文由@AI工具集原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/dots-mocr.html

THE END

AI工具集

工具不孤岛，AI集大成——这里有你要的一切智能解法

+ 关注

dots.mocr：小红书联合华科开源的多模态 OCR 模型，文档解析与图表转 SVG 一体化引擎

文章目录

一、dots.mocr是什么

二、功能特色

2.1 多语言全域识别，覆盖全品类文字体系

2.2 一体化结构化解析，深度理解文档逻辑

2.3 核心王牌能力：图形无损转SVG代码

2.4 轻量化高性能，兼顾效率与精度

2.5 全场景兼容适配，部署门槛极低

2.6 通用视觉能力均衡，拓展性极强

三、技术细节

3.1 整体架构设计：单模型端到端融合体系

3.2 核心组件参数与定制化优化

3.3 训练体系：三阶段渐进式精准优化

3.4 性能基准：开源梯队顶尖水准

3.5 推理优化：高效落地技术加持

四、应用场景

4.1 学术科研领域

4.2 企业办公与数字化归档

4.3 教育教学场景

4.4 互联网产品与前端开发

4.5 跨境多语种业务

4.6 私有化AI赋能开发

五、使用方法

5.1 前期环境准备

5.2 源码下载与依赖安装

5.3 基础本地脚本调用

5.4 Gradio可视化网页部署

5.5 vLLM云端接口部署

5.6 进阶二次开发

六、常见问题解答

七、相关链接

八、总结

相关文章