Molmo2:AllenAI开源的先进多模态语言模型,支持单图/多图/视频输入与深度语义理解
Molmo2是由艾伦人工智能研究所(AllenAI) 研发并开源的一款先进多模态开放语言模型,旨在打破文本与视觉模态之间的壁垒,实现对图像、视频与文本信息的联合理解与处理。Mo...
Molmo2是由艾伦人工智能研究所(AllenAI) 研发并开源的一款先进多模态开放语言模型,旨在打破文本与视觉模态之间的壁垒,实现对图像、视频与文本信息的联合理解与处理。Mo...
VideoLLaMA3是由阿里巴巴达摩院新加坡NLP团队研发并开源的多模态基础模型,聚焦于图像与视频的内容理解与分析任务。作为VideoLLaMA系列模型的升级版本,该模型基于字节跳动...
Kaleido是由智谱AI、合肥工业大学、清华大学等机构联合研发的开源多主体参考视频生成模型,该模型支持512P分辨率视频生成,提供完整的训练、推理代码及预训练权重,适配Pyt...
Keye-VL是快手Keys团队面向多模态AI领域开源的高性能多模态大语言模型(VLM),全称为Kwai Keye-VL,是快手先进AI技术生态中的核心开源项目。该项目并非单一模型,而是包含...
STARFlow-V 是苹果团队研发的首款基于归一化流的因果视频生成模型,打破了视频生成领域扩散模型的技术垄断。该模型采用全局 - 局部架构实现时空特征解耦,结合流分数匹配去...
Mistral 3 是由 Mistral AI 开发的全规模开源多模态 AI 模型家族,该家族涵盖从 3B 参数的边缘轻量模型(Ministral 3 系列)到 675B 参数的云端旗舰模型(Mistral Large 3)...
BAGEL是字节跳动Seed团队开源的一款All-in-One多模态统一基础模型,具备7B活跃参数(总参数14B),采用创新的混合Transformer专家(MoT)架构,基于大规模交错式文本、图像...
WithAnyone是由复旦大学与阶跃星辰联合开源的多身份AI合照生成项目,基于FLUX扩散模型架构构建,核心解决传统人像生成中的“复制粘贴”伪影问题。该项目通过大规模配对数据...
LongCat-Video是美团LongCat团队开源的基础视频生成模型,基于13.6B参数构建,采用统一架构原生支持文本转视频、图像转视频、视频续接三大任务,核心优势在于高效生成分钟级...