olmocr:开源文档 OCR 工具包,高效处理复杂格式文档并转换为结构化 Markdown
olmocr 是由AllenAI开源的文档 OCR 工具包,专注于将 PDF、PNG、JPEG 等图像格式的文档转换为结构化、可读的纯文本(尤其是 Markdown 格式)。它基于 7B 参数的视觉语言模型...
olmocr 是由AllenAI开源的文档 OCR 工具包,专注于将 PDF、PNG、JPEG 等图像格式的文档转换为结构化、可读的纯文本(尤其是 Markdown 格式)。它基于 7B 参数的视觉语言模型...
SAIL-VL2 是字节跳动开源的视觉语言模型,以 2B/8B 参数规模实现了行业顶尖性能,在 106 个数据集上验证了其在视觉问答、文档理解、图表解读等多任务中的有效性。该模型通过...
LLaVA-OneVision-1.5 是由 EvolvingLMMs-Lab 开发的全开源多模态模型框架,专注于通过原生分辨率图像训练实现高性能、低成本的大型多模态模型(LMMs)。该项目提供从数据处...
Logics-Parsing 是阿里巴巴开源的一款基于视觉语言模型的文档解析框架,能够直接从文档图像输出结构化的 HTML 内容。该项目特别优化了对科学公式、化学结构和复杂表格的识别...
TrafficVLM 是一个专注于交通场景的可控视觉语言模型,主要用于交通视频的字幕生成任务。该模型融合了多粒度视觉特征(全局、子全局、局部)与时间编码机制,能够精准理解交...