DeepOCR:开源Deepseek-OCR复现项目,以令牌压缩实现高效多场景OCR
DeepOCR是基于VILA代码库复现Deepseek-OCR的开源项目,核心聚焦于通过视觉-文本令牌压缩技术实现高效OCR任务。其创新的DeepEncoder架构融合SAM(窗口注意力)与CLIP(全局注...
DeepOCR是基于VILA代码库复现Deepseek-OCR的开源项目,核心聚焦于通过视觉-文本令牌压缩技术实现高效OCR任务。其创新的DeepEncoder架构融合SAM(窗口注意力)与CLIP(全局注...
HunyuanOCR是腾讯混元开源的端到端OCR专家模型,基于混元原生多模态架构构建,仅1B参数便实现了业界多项SOTA性能。该工具覆盖文字检测识别、复杂文档解析、开放字段信息抽取...
olmocr 是由AllenAI开源的文档 OCR 工具包,专注于将 PDF、PNG、JPEG 等图像格式的文档转换为结构化、可读的纯文本(尤其是 Markdown 格式)。它基于 7B 参数的视觉语言模型...
DeepSeek-OCR 是由 deepseek-ai 团队开源的高性能 OCR 模型,核心聚焦于从 LLM 视角探索视觉 - 文本压缩技术,支持图像、PDF 等多模态输入的文本提取。该模型提供 Native和...
Qwen3-VL 是 Qwen 系列开源的强大多模态视觉 - 语言模型,支持图像 / 视频理解、文本交互、视觉代理等全场景任务,具备长上下文处理、空间感知、跨语言 OCR 等核心能力,提...
Dolphin是字节跳动推出的一款多模态文档图像解析框架,采用"分析-解析"两阶段范式,通过异构锚点提示技术实现高精度文档理解。该框架能够有效识别和解析文档中的文本段落、...
PaddleOCR是由百度飞桨(PaddlePaddle)团队开发的开源光学字符识别(OCR)引擎,旨在为开发者提供工业级的文本识别与文档解析解决方案。作为百度飞桨生态的重要组成部分,...