视觉语言模型

MiMo-Embodied是小米公司具身智能团队推出的一款开源跨具身视觉语言模型（Vision-Language Model, VLM），于2025年正式发布。作为全球首个整合自动驾驶与具身AI两大关键领域...

olmocr 是由AllenAI开源的文档 OCR 工具包，专注于将 PDF、PNG、JPEG 等图像格式的文档转换为结构化、可读的纯文本（尤其是 Markdown 格式）。它基于 7B 参数的视觉语言模型...

SAIL-VL2 是字节跳动开源的视觉语言模型，以 2B/8B 参数规模实现了行业顶尖性能，在 106 个数据集上验证了其在视觉问答、文档理解、图表解读等多任务中的有效性。该模型通过...

LLaVA-OneVision-1.5 是由 EvolvingLMMs-Lab 开发的全开源多模态模型框架，专注于通过原生分辨率图像训练实现高性能、低成本的大型多模态模型（LMMs）。该项目提供从数据处...

Logics-Parsing 是阿里巴巴开源的一款基于视觉语言模型的文档解析框架，能够直接从文档图像输出结构化的 HTML 内容。该项目特别优化了对科学公式、化学结构和复杂表格的识别...

TrafficVLM 是一个专注于交通场景的可控视觉语言模型，主要用于交通视频的字幕生成任务。该模型融合了多粒度视觉特征（全局、子全局、局部）与时间编码机制，能够精准理解交...

视觉语言模型新闻、工具、教程及资源推荐