OmniShow：字节跳动和香港中文大学等联合开源的全模态人-物交互视频生成模型

原创发布日期：2026-04-18

113

一、OmniShow是什么

OmniShow是由字节跳动、香港中文大学、莫纳什大学、香港大学联合研发并开源的端到端多模态人-物交互视频生成（HOIVG）统一模型。它是业界首个完整支持RAP2V（Reference+Audio+Pose→Video）的单架构模型，以12.3B参数统一处理文本、参考图像、音频、姿态四类条件输入，直接生成最长10秒、高保真、自然流畅的人-物交互视频。

核心定位：解决多模态条件下人物与物体交互视频生成的一致性、同步性、真实性难题，让一张图片+一段语音/姿态序列，即可自动生成人物拿取、操作、展示物体的完整视频，无需多模型拼接、后期剪辑。

OmniShow：字节跳动和香港中文大学等联合开源的全模态人-物交互视频生成模型

二、功能特色

2.1 全模态统一条件支持（四大输入）

参考图像（Reference）：单张人物/物体图，精准保留外观、身份、物体细节
音频（Audio）：语音/音效驱动口型、表情、动作节奏，毫秒级同步
姿态（Pose）：SMPL/XR姿态序列，控制肢体运动轨迹、关节角度
文本（Text）：描述交互动作、场景、风格，补充语义约束

2.2 四大生成模式全覆盖

R2V（参考图→视频）：单图生成动态交互视频（如人物拿起杯子、展示商品）
RA2V（参考图+音频→视频）：语音驱动人物说话+动作（如主播讲解产品）
RP2V（参考图+姿态→视频）：姿态序列控制精准动作（如弹奏乐器、操作工具）
RAP2V（全条件→视频）：图+音+姿+文联合驱动，业界唯一完整支持，效果最精准

2.3 核心能力亮点

高保真参考保留：人脸、物体纹理、服饰细节高度一致，无畸变、身份稳定
自然运动动态：肢体、手部、物体交互符合物理规律，无穿模、动作流畅
精准音画同步：口型、表情、动作与音频时间对齐，误差<人类感知阈值
长视频原生支持：最长10秒连续视频，无需分段拼接、动态连贯
人-物交互特化：针对抓取、握持、操作、展示优化，物体稳定性强
端到端一键生成：单模型推理，无中间步骤、无需专业后期

三、技术细节

3.1 整体架构（12.3B参数DiT主干）

基于视频扩散Transformer（Video DiT）架构，三大核心模块：

条件编码器：分别编码图像（CLIP+ViT）、音频（Whisper+CNN）、姿态（SMPL Transformer）、文本（T5）
统一条件注入器：通道级拼接（Channel-wise Concatenation），将多模态特征融合为统一条件向量
时空DiT主干：3D卷积+时间注意力，建模视频时序与空间依赖
3D VAE解码器：输出高清视频帧（720P/1080P，30fps）

3.2 三大技术创新

（1）通道式统一条件注入

原理：将参考图、姿态特征沿通道维度拼接，与文本/音频特征融合后注入DiT
优势：不破坏预训练视频先验，高效传递外观+运动+语义信号，兼容性强

（2）门控局部上下文注意力（Gated Local Context Attention）

音频特征打包为上下文向量，通过掩码注意力聚焦面部/手部/物体区域
可学习门控向量：动态平衡多模态特征权重，抑制干扰、强化同步关联
效果：音画同步误差<0.1s，口型自然、动作节奏精准

（3）解耦-联合训练范式

阶段1：专项解耦训练

R2V子模型：学习图像→视频映射
A2V子模型：学习音频→视频映射

阶段2：权重插值融合

两子模型权重线性插值，初始化全模态模型

阶段3：联合微调

混合HOIVG-Bench等数据，优化多模态协同一致性

3.3 评测基准：HOIVG-Bench

135个精标样本：覆盖人物+物体交互、多场景、多模态条件
指标：NexusScore（综合）、AES（动作自然度）、VQ（视频质量）、MQ（物体稳定性）、FaceSim（人脸相似度）、TA（时序对齐）
结果：OmniShow在R2V/RA2V/RAP2V全任务SOTA，NexusScore领先竞品5%~12%

OmniShow：字节跳动和香港中文大学等联合开源的全模态人-物交互视频生成模型

四、应用场景

4.1 电商广告与商品展示

产品演示：单张模特+产品图+讲解音频→生成手持展示、功能演示视频
短视频带货：批量生成商品开箱、试用、对比视频，降本90%+

4.2 AI数字人与虚拟主播

音频驱动数字人：真人/卡通形象+语音→生成口型精准、动作自然的播报视频
虚拟偶像：姿态+音频→生成唱歌、跳舞、互动视频

4.3 内容创作与短视频

静态图转动态：照片→人物互动、场景动态化
视频混剪/修复：参考图+音频→补全片段、替换人物/物体
教育/科普：示意图+讲解→生成操作演示、原理动画

4.4 游戏与元宇宙

角色动画：单张角色图+姿态→生成NPC交互动作
虚拟场景：人物+物体交互视频填充虚拟世界

4.5 企业与营销

企业文化：员工照片+语音→生成致辞、介绍视频
产品教程：步骤图+语音→生成操作教学视频

五、使用方法

5.1 环境部署（代码开源后）

# 1. 克隆仓库
git clone https://github.com/Correr-Zhou/OmniShow.git
cd OmniShow

# 2. 安装依赖（Python 3.10+，CUDA 11.7+）
pip install torch torchvision torchaudio
pip install -r requirements.txt

# 3. 下载模型权重（Hugging Face）
bash scripts/download_weights.sh

5.2 输入准备

参考图：JPG/PNG，人物正面/半身、物体清晰，分辨率≥512×512
音频：WAV/MP3，单声道，16kHz，时长≤10秒
姿态：.npy/.json（SMPL-X），帧率30fps，与音频时长匹配
文本：英文/中文提示词（如："A woman holding a white mug and speaking clearly"）

5.3 推理命令（示例）

# RAP2V 全模态推理
python infer.py \
 --mode RAP2V \
 --ref_img assets/demo/ref.jpg \
 --audio assets/demo/speech.wav \
 --pose assets/demo/pose.npy \
 --text "A person holding a product and explaining its features" \
 --output outputs/demo.mp4 \
 --duration 10 \
 --resolution 720p

5.4 输出结果

格式：MP4，30fps，720P/1080P
时长：最长10秒
内容：人物+物体自然交互、音画同步、参考高度保留

OmniShow：字节跳动和香港中文大学等联合开源的全模态人-物交互视频生成模型

六、竞品对比

表1：OmniShow vs OmniHuman vs DreaMoving vs Runway Gen-3

对比维度	OmniShow	OmniHuman	DreaMoving	Runway Gen-3
研发机构	字节+港中文+港大+莫纳什	字节跳动	开源社区	Runway
核心定位	人-物交互视频（全模态）	人物全身动画（单图+音频）	姿态驱动人物视频	通用文生视频
模态支持	图+音+姿+文（RAP2V）	图+音	图+姿	文本为主
人-物交互	✅ 原生特化、最优	✅ 支持、一般	❌ 弱、无物体优化	❌ 差、易穿模
音画同步	✅ 毫秒级（<0.1s）	✅ 优秀（<0.2s）	❌ 无音频支持	⚠️ 需插件、一般
最长时长	10秒（原生）	8秒	5秒	4~6秒
参考保留	✅ 人脸/物体双高保真	✅ 人脸高保真	⚠️ 人脸一般	❌ 低、易形变
开源状态	✅ 已开源（2026.4）	✅ 已开源	✅ 已开源	❌ 闭源服务
参数规模	12.3B	6.7B	3.4B	20B+（未公开）
最佳场景	电商、产品演示、数字人	虚拟主播、肖像动画	姿态动画、短视频	创意文生视频

七、常见问题解答（FAQ）

Q：OmniShow支持中文语音驱动吗？

A：支持。模型采用多语言音频编码器，可处理中文、英文、日语等主流语言语音，口型同步效果一致。

Q：生成10秒视频需要什么硬件配置？

A：推荐NVIDIA RTX 4090/3090Ti（24GB+显存）、CUDA 11.7+；10秒720P视频生成约3~5分钟。

Q：可以生成非真人、卡通/动漫风格视频吗？

A：支持。输入卡通形象参考图+对应条件，可生成卡通风格人-物交互视频；风格一致性取决于参考图质量。

Q：物体交互支持哪些类型？是否稳定？

A：支持抓取、握持、展示、操作、移动等主流交互；模型在HOIVG-Bench上物体稳定性（MQ）达5.885（SOTA），几乎无抖动、掉落。

Q：文本提示词用中文还是英文效果更好？

A：英文提示词精度更高（模型训练数据以英文为主）；中文提示词可正常使用，但建议简洁明确（如："男人手持红色手机，微笑讲解"）。

Q：是否支持本地部署、离线使用？

A：支持。模型完全开源，权重可本地下载，无网络、无API调用，隐私数据安全。

Q：与OmniHuman的核心区别是什么？

A：OmniHuman专注人物全身动画（无物体交互）；OmniShow原生强化人-物交互，支持姿态+音频全模态，是OmniHuman的场景扩展升级版。

Q：生成视频有水印或版权限制吗？

A：开源版本无水印、无版权限制，个人/商业均可免费使用；需遵循MIT开源协议。

OmniShow：字节跳动和香港中文大学等联合开源的全模态人-物交互视频生成模型

八、相关链接

项目主页：https://correr-zhou.github.io/OmniShow/
GitHub仓库：https://github.com/Correr-Zhou/OmniShow
技术论文（arXiv）：https://arxiv.org/abs/2604.11804

九、总结

OmniShow作为业界首个全模态统一人-物交互视频生成开源模型，以单架构整合文本、参考图、音频、姿态四类条件，通过通道式条件注入、门控局部注意力、解耦-联合训练三大技术突破，在人-物交互真实性、音画同步精度、参考保留度、长视频稳定性上全面达到SOTA水平，覆盖R2V/RA2V/RP2V/RAP2V全任务场景，适配电商广告、AI数字人、短视频创作、产品演示等多元落地需求，凭借完全开源、本地部署、无版权限制的特性，为内容创作者、企业开发者、研究人员提供了高效、低成本、高质量的视频生成解决方案，是当前多模态视频生成领域最具实用价值的开源工具之一。

AI视频生成开源视频模型 AI数字人视频

打赏

版权及免责申明：本文由@AI工具箱原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/omnishow.html

THE END

AI工具箱

一个喜欢收集AI工具的小萌新

+ 关注

OmniShow：字节跳动和香港中文大学等联合开源的全模态人-物交互视频生成模型

文章目录

一、OmniShow是什么

二、功能特色

2.1 全模态统一条件支持（四大输入）

2.2 四大生成模式全覆盖

2.3 核心能力亮点

三、技术细节

3.1 整体架构（12.3B参数DiT主干）

3.2 三大技术创新

（1）通道式统一条件注入

（2）门控局部上下文注意力（Gated Local Context Attention）

（3）解耦-联合训练范式

3.3 评测基准：HOIVG-Bench

四、应用场景

4.1 电商广告与商品展示

4.2 AI数字人与虚拟主播

4.3 内容创作与短视频

4.4 游戏与元宇宙

4.5 企业与营销

五、使用方法

5.1 环境部署（代码开源后）

5.2 输入准备

5.3 推理命令（示例）

5.4 输出结果

六、竞品对比

表1：OmniShow vs OmniHuman vs DreaMoving vs Runway Gen-3

七、常见问题解答（FAQ）

八、相关链接

九、总结

相关文章