LongCat-Video-Avatar:美团开源的多任务音频驱动动画生成模型
LongCat-Video-Avatar 是美团开源的统一音频驱动角色动画模型,支持音频 - 文本到视频、音频 - 文本 - 图像到视频及视频续播三大核心任务,兼容单流与多流音频输入。该模型...
LongCat-Video-Avatar 是美团开源的统一音频驱动角色动画模型,支持音频 - 文本到视频、音频 - 文本 - 图像到视频及视频续播三大核心任务,兼容单流与多流音频输入。该模型...
SAM-Audio是Meta研究院推出一款能够通过多模态提示实现通用音频分离的开源基础模型。SAM-Audio的核心理念是“提示即指令”,用户无需编写复杂的代码或调整繁琐的参数,只需...
TRELLIS.2是微软开源的高保真图像到3D生成大模型,具备4B参数规模,核心采用创新O-Voxel无场稀疏体素结构,突破传统3D生成模型的拓扑限制与效率瓶颈。该模型支持512³-1536...
SenseNova-SI 是由 商汤科技开源的多模态空间智能项目,聚焦于提升基础大模型的空间认知能力。该项目依托 800 万规模的专用数据集,基于 Qwen3-VL、InternVL3 等主流基础模...
LLaDA2.0 是蚂蚁集团推出的一系列离散扩散大型语言模型(dLLMs),涵盖 16B 参数的基础版本与 100B 参数的混合专家(MoE)版本,是目前参数规模最大的扩散语言模型之一。该...
DeepSeek-V3.2是一款智能水平位居开源权重模型第二名的高效能大模型,其核心优势源于DeepSeek稀疏注意力技术脱离实验性阶段并实现规模化应用,不仅超越Grok 4、Claude Sonn...
DeepSeek-Math-V2 是由深度求索(deepseek-ai)团队基于 DeepSeek-V3.2-Exp-Base 模型打造的开源数学推理大模型,核心聚焦于可自我验证的数学推理能力构建。该模型创新性地...
Emu3.5是由北京人工智能研究院开源的大规模原生多模态世界模型,其基于单一340亿参数Transformer架构,以“下一状态预测(NSP)”为核心训练目标,在超13万亿多模态Token上...
Z-Image Turbo Controlnet Union是阿里通义实验室开源的ControlNet扩展模型,基于Z-Image系列单流扩散架构,6B参数实现 photorealistic 渲染,支持Canny、HED、姿态等多模态...
MOSS-Speech是由复旦大学邱锡鹏教授领衔的OpenMOSS团队(国内知名AI开源团队,曾推出MOSS大模型系列)研发的原生语音到语音(Speech-to-Speech, S2S)开源大模型,旨在打破...
Z-Image是阿里巴巴通义实验室开源的轻量级图像生成基础模型,以6B参数实现接近20B级商业模型的视觉质量,包含Turbo(高效推理)、Base(基础微调)、Edit(图像编辑)三个变...
Depth Anything 3是字节跳动Seed团队开源的3D视觉基础模型,旨在从任意数量、任意视角的视觉输入中恢复空间一致的三维几何结构。该模型采用“单Transformer主干+Depth-Ray统...
HunyuanOCR是腾讯混元开源的端到端OCR专家模型,基于混元原生多模态架构构建,仅1B参数便实现了业界多项SOTA性能。该工具覆盖文字检测识别、复杂文档解析、开放字段信息抽取...
Ruyi是Ruyi-Models项目的核心图像到视频(Image-to-Video, i2v)生成模型,由CreateAI团队开发并开源,旨在为用户提供“低门槛、高性能、高自由度”的视频生成解决方案。不...
MiMo-Embodied是小米公司具身智能团队推出的一款开源跨具身视觉语言模型(Vision-Language Model, VLM),于2025年正式发布。作为全球首个整合自动驾驶与具身AI两大关键领域...