多模态模型

InternVL-U是由上海人工智能实验室OpenGVLab团队推出的40亿参数轻量级统一多模态开源模型，在单一框架内融合多模态理解、逻辑推理、图像生成、图像编辑四大核心能力，以“统...

SenseNova-SI 是由商汤科技开源的多模态空间智能项目，聚焦于提升基础大模型的空间认知能力。该项目依托 800 万规模的专用数据集，基于 Qwen3-VL、InternVL3 等主流基础模...

Mistral 3 是由 Mistral AI 开发的全规模开源多模态 AI 模型家族，该家族涵盖从 3B 参数的边缘轻量模型（Ministral 3 系列）到 675B 参数的云端旗舰模型（Mistral Large 3）...

HunyuanImage-3.0是腾讯混元团队推出的原生多模态图像生成模型，核心定位是“统一多模态理解与生成的自回归框架工具”。与传统基于DiT的图像生成模型不同，它突破性地采用“...

Glyph是一个创新的开源框架，通过视觉-文本压缩技术解决大模型长上下文处理难题。其核心逻辑是将超长文本渲染为紧凑图像，借助视觉-语言模型（VLMs）实现高效语义理解，在降...

LLaVA-OneVision-1.5 是由 EvolvingLMMs-Lab 开发的全开源多模态模型框架，专注于通过原生分辨率图像训练实现高性能、低成本的大型多模态模型（LMMs）。该项目提供从数据处...

多模态模型新闻、工具、教程及资源推荐