OmniHuman-1.5：字节跳动推出的多模态AI数字人生成系统，一张图+音频秒变逼真视频

原创发布日期：2025-08-28

近日，字节跳动研究团队发布了一项备受注目的AI项目——OmniHuman-1.5。这是一个基于单张图像和语音音频，能够生成高度逼真、富有表现力的虚拟角色视频的多模态系统。只需提供一张静态人物图像和一段语音或音乐，OmniHuman-1.5便能生成与音频内容高度匹配的动态视频，涵盖面部表情、肢体动作、镜头运动等多个维度，真正实现了“一张图+音频秒变逼真视频”的技术突破。

OmniHuman-1.5

一、核心技术亮点：双系统认知模型驱动

OmniHuman-1.5的核心创新在于其双系统认知模型架构，灵感来源于心理学中“系统1与系统2”的人类思维理论。系统1代表快速、直觉的反应机制，系统2代表慢速、理性的推理机制。OmniHuman-1.5通过结合多模态大语言模型（MLLM）与扩散变换器（Diffusion Transformer），模拟这两种思维模式的协同作用。

1.1 多模态大语言模型（MLLM）

负责对输入音频进行语义理解。
提取语音中的情感、意图与语义信息。
生成角色动作与场景变化的高层规划。

1.2 扩散变换器（Diffusion Transformer）

基于MLLM的输出生成高质量视频帧。
实现自然流畅的动作过渡与动态表现。
支持长时间视频生成（超过一分钟）。

这一双系统架构不仅提升了生成视频的表现力，也增强了模型在复杂场景中的控制能力。

二、核心功能：从语音到动作的智能映射

OmniHuman-1.5在多个维度上展现了其强大的生成能力，涵盖了情境感知动画生成、音乐驱动表演、文本引导动画、多人场景生成等多个方面。

2.1 情境感知音频驱动动画

超越唇形同步：不仅能实现语音与口型的同步，还能根据语义内容生成对应的表情与动作。
情感表达：识别语音中的情绪（如愤怒、喜悦、悲伤），并生成相应的面部表情与肢体语言。
真实互动感：角色会根据语音内容做出手势、眼神交流，仿佛具有自主意识。

2.2 音乐驱动表演

从单图生成歌手：仅需一张人物图像与一段音乐，即可生成富有情感的数字歌手。
风格匹配：支持从抒情独唱到欢快演唱会等多种音乐风格。
动态动作生成：包括自然停顿、节奏变化、舞蹈动作等复杂表现。

2.3 文本引导多模态动画

支持文本提示输入：用户可通过文本控制镜头运动、角色动作、场景元素等。
精准执行指令：例如“镜头快速拉近至女性的鞋子，然后缓慢上移至脸部”、“角色伸手轻触镜头后后退并交叉双臂说话”等。
保持音频同步：所有动作均与音频内容保持高度同步，避免脱节。

示例文本提示：

“手持摄像机，女性望向远方，背景有烟花，风在吹动她的头发与衣服，具有艺术电影氛围。”
“镜头围绕男性向右旋转，聚焦面部时保持静止以营造低沉情绪。”
“角色向前移动并注视镜头，伸手轻触镜头后后退并交叉双臂开始讲话。”

2.4 多人场景表现

支持多人互动：可在同一画面中生成多个角色的对话与互动。
音频分离与分配：将不同音频轨道分配给对应角色，实现自然的群体对话。
动态场景构建：如乐队演出、观众欢呼、角色走动等复杂场景。

三、输入多样性与生成质量

OmniHuman-1.5在输入多样性方面表现出极强的鲁棒性，支持多种类型的输入图像与音频，生成高质量、同步的视频内容。

3.1 输入类型覆盖广泛

真实人物图像：可用于生成真实感极强的虚拟角色动画。
拟人化角色：如卡通形象、动物角色等也可生成相应动作。
风格化卡通：支持不同艺术风格的角色生成，拓展应用边界。

3.2 视频生成质量

时长支持：可生成超过一分钟的视频。
动态动作表现：包含丰富的肢体语言与自然运动轨迹。
镜头运动多样性：支持连续镜头移动、旋转、拉近拉远等复杂镜头语言。

四、相关链接

项目主页：https://omnihuman-lab.github.io/v1_5/
论文地址：https://arxiv.org/abs/2508.19209

结语

OmniHuman-1.5作为字节跳动在AI虚拟角色生成领域的一项重要突破，成功地将多模态理解、动作生成与视频合成融合为一体，实现了从单张图像与语音生成高质量、富有表现力的虚拟角色视频。其技术架构的创新性、功能的多样性、生成质量的稳定性，都为影视制作、虚拟主播、教育演示等多个应用场景提供了全新的解决方案。未来，OmniHuman系列模型有望进一步推动数字内容生成技术的发展，为行业带来更丰富的可能性。