Molmo2:AllenAI开源的先进多模态语言模型,支持单图/多图/视频输入与深度语义理解
Molmo2是由艾伦人工智能研究所(AllenAI) 研发并开源的一款先进多模态开放语言模型,旨在打破文本与视觉模态之间的壁垒,实现对图像、视频与文本信息的联合理解与处理。Mo...
Molmo2是由艾伦人工智能研究所(AllenAI) 研发并开源的一款先进多模态开放语言模型,旨在打破文本与视觉模态之间的壁垒,实现对图像、视频与文本信息的联合理解与处理。Mo...
MiMo-V2-Flash 是小米公司开源的千亿级混合专家(MoE)架构语言模型,总参数规模达3090亿,活跃参数仅150亿,实现了高性能与低推理成本的平衡。该模型创新采用混合注意力架...
LongCat-Video-Avatar 是美团开源的统一音频驱动角色动画模型,支持音频 - 文本到视频、音频 - 文本 - 图像到视频及视频续播三大核心任务,兼容单流与多流音频输入。该模型...
SAM-Audio是Meta研究院推出一款能够通过多模态提示实现通用音频分离的开源基础模型。SAM-Audio的核心理念是“提示即指令”,用户无需编写复杂的代码或调整繁琐的参数,只需...
TRELLIS.2是微软开源的高保真图像到3D生成大模型,具备4B参数规模,核心采用创新O-Voxel无场稀疏体素结构,突破传统3D生成模型的拓扑限制与效率瓶颈。该模型支持512³-1536...
SHARP 是苹果公司开源的单目视图合成方法,依托 ml-sharp 项目实现,核心通过单张照片回归场景的 3D 高斯表示,在标准 GPU 上仅需一次前馈传递即可在 1 秒内完成高分辨率、...
VTP是一款聚焦于视觉分词器预训练的深度学习框架,旨在解决传统视觉分词器在生成模型中存在的预训练缩放问题。该框架整合对比学习、自监督学习与重构学习三大核心范式,构建...
Sana是NVIDIA实验室开源的基于线性扩散Transformer技术的高分辨率图像与视频生成项目,该项目支持512px-4Kpx高清图像生成、分钟级视频生成,通过线性化注意力机制、少步扩散...
Liquid Audio是Liquid AI推出的开源端到端语音到语音基础模型项目,核心模型为LFM2-Audio-1.5B。该项目以低延迟为设计理念,基于轻量级LFM2骨干网络,支持实时语音到语音对...
Kani TTS是由nineninesix-ai团队开发并开源的轻量级高性能文本转语音(Text-to-Speech,TTS)框架,旨在为开发者和企业提供快速、高效、类人化的语音生成解决方案。该项目基...