olmocr:开源文档 OCR 工具包,高效处理复杂格式文档并转换为结构化 Markdown
olmocr 是由AllenAI开源的文档 OCR 工具包,专注于将 PDF、PNG、JPEG 等图像格式的文档转换为结构化、可读的纯文本(尤其是 Markdown 格式)。它基于 7B 参数的视觉语言模型...
olmocr 是由AllenAI开源的文档 OCR 工具包,专注于将 PDF、PNG、JPEG 等图像格式的文档转换为结构化、可读的纯文本(尤其是 Markdown 格式)。它基于 7B 参数的视觉语言模型...
DeepSeek-OCR 是由 deepseek-ai 团队开源的高性能 OCR 模型,核心聚焦于从 LLM 视角探索视觉 - 文本压缩技术,支持图像、PDF 等多模态输入的文本提取。该模型提供 Native和...
Qwen3-VL 是 Qwen 系列开源的强大多模态视觉 - 语言模型,支持图像 / 视频理解、文本交互、视觉代理等全场景任务,具备长上下文处理、空间感知、跨语言 OCR 等核心能力,提...
Dolphin是字节跳动推出的一款多模态文档图像解析框架,采用"分析-解析"两阶段范式,通过异构锚点提示技术实现高精度文档理解。该框架能够有效识别和解析文档中的文本段落、...
PaddleOCR是由百度飞桨(PaddlePaddle)团队开发的开源光学字符识别(OCR)引擎,旨在为开发者提供工业级的文本识别与文档解析解决方案。作为百度飞桨生态的重要组成部分,...