OmniHuman-1.5:字节跳动推出的多模态AI数字人生成系统,一张图+音频秒变逼真视频

原创 发布日期:
4

近日,字节跳动研究团队发布了一项备受注目的AI项目——OmniHuman-1.5。这是一个基于单张图像和语音音频,能够生成高度逼真、富有表现力的虚拟角色视频的多模态系统。只需提供一张静态人物图像和一段语音或音乐,OmniHuman-1.5便能生成与音频内容高度匹配的动态视频,涵盖面部表情、肢体动作、镜头运动等多个维度,真正实现了“一张图+音频秒变逼真视频”的技术突破。

OmniHuman-1.5

一、核心技术亮点:双系统认知模型驱动

OmniHuman-1.5的核心创新在于其双系统认知模型架构,灵感来源于心理学中“系统1与系统2”的人类思维理论。系统1代表快速、直觉的反应机制,系统2代表慢速、理性的推理机制。OmniHuman-1.5通过结合多模态大语言模型(MLLM)与扩散变换器(Diffusion Transformer),模拟这两种思维模式的协同作用。

1.1 多模态大语言模型(MLLM)

  • 负责对输入音频进行语义理解。

  • 提取语音中的情感、意图与语义信息。

  • 生成角色动作与场景变化的高层规划。

1.2 扩散变换器(Diffusion Transformer)

  • 基于MLLM的输出生成高质量视频帧。

  • 实现自然流畅的动作过渡与动态表现。

  • 支持长时间视频生成(超过一分钟)。

这一双系统架构不仅提升了生成视频的表现力,也增强了模型在复杂场景中的控制能力。

二、核心功能:从语音到动作的智能映射

OmniHuman-1.5在多个维度上展现了其强大的生成能力,涵盖了情境感知动画生成、音乐驱动表演、文本引导动画、多人场景生成等多个方面。

2.1 情境感知音频驱动动画

  • 超越唇形同步:不仅能实现语音与口型的同步,还能根据语义内容生成对应的表情与动作。

  • 情感表达:识别语音中的情绪(如愤怒、喜悦、悲伤),并生成相应的面部表情与肢体语言。

  • 真实互动感:角色会根据语音内容做出手势、眼神交流,仿佛具有自主意识。

2.2 音乐驱动表演

  • 从单图生成歌手:仅需一张人物图像与一段音乐,即可生成富有情感的数字歌手。

  • 风格匹配:支持从抒情独唱到欢快演唱会等多种音乐风格。

  • 动态动作生成:包括自然停顿、节奏变化、舞蹈动作等复杂表现。

2.3 文本引导多模态动画

  • 支持文本提示输入:用户可通过文本控制镜头运动、角色动作、场景元素等。

  • 精准执行指令:例如“镜头快速拉近至女性的鞋子,然后缓慢上移至脸部”、“角色伸手轻触镜头后后退并交叉双臂说话”等。

  • 保持音频同步:所有动作均与音频内容保持高度同步,避免脱节。

示例文本提示:

  • “手持摄像机,女性望向远方,背景有烟花,风在吹动她的头发与衣服,具有艺术电影氛围。”

  • “镜头围绕男性向右旋转,聚焦面部时保持静止以营造低沉情绪。”

  • “角色向前移动并注视镜头,伸手轻触镜头后后退并交叉双臂开始讲话。”

2.4 多人场景表现

  • 支持多人互动:可在同一画面中生成多个角色的对话与互动。

  • 音频分离与分配:将不同音频轨道分配给对应角色,实现自然的群体对话。

  • 动态场景构建:如乐队演出、观众欢呼、角色走动等复杂场景。

三、输入多样性与生成质量

OmniHuman-1.5在输入多样性方面表现出极强的鲁棒性,支持多种类型的输入图像与音频,生成高质量、同步的视频内容。

3.1 输入类型覆盖广泛

  • 真实人物图像:可用于生成真实感极强的虚拟角色动画。

  • 拟人化角色:如卡通形象、动物角色等也可生成相应动作。

  • 风格化卡通:支持不同艺术风格的角色生成,拓展应用边界。

3.2 视频生成质量

  • 时长支持:可生成超过一分钟的视频。

  • 动态动作表现:包含丰富的肢体语言与自然运动轨迹。

  • 镜头运动多样性:支持连续镜头移动、旋转、拉近拉远等复杂镜头语言。

四、相关链接

结语

OmniHuman-1.5作为字节跳动在AI虚拟角色生成领域的一项重要突破,成功地将多模态理解、动作生成与视频合成融合为一体,实现了从单张图像与语音生成高质量、富有表现力的虚拟角色视频。其技术架构的创新性、功能的多样性、生成质量的稳定性,都为影视制作、虚拟主播、教育演示等多个应用场景提供了全新的解决方案。未来,OmniHuman系列模型有望进一步推动数字内容生成技术的发展,为行业带来更丰富的可能性。

打赏
THE END
作者头像
AI铺子
关注ai行业发展,专注ai工具推荐