ACTalker：开源多模态说话人视频生成框架，精准驱动面部表情与唇形同步

AI新闻 97ai 1个月前

110

一、ACTalker是什么

ACTalker 是由香港科技大学、腾讯、清华大学联合研发的端到端说话人头像（Talking Head）视频生成框架，基于视频扩散模型构建，主打多信号协同控制能力。该框架可通过音频、面部表情等多模态信号，精准驱动生成音画高度同步、表情自然逼真的虚拟人像视频，解决传统数字人生成中动作冲突、唇形错位、身份漂移等痛点，是当前说话人视频生成领域的标杆性开源方案。

二、功能特色

1. 多信号灵活控制

单信号驱动：仅输入音频生成匹配唇形与表情的视频，或仅输入表情参数生成对应面部动画。
多信号组合驱动：支持音频+表情、音频+头部姿态等组合输入，不同信号独立控制面部不同区域（如音频控嘴部、表情控眉眼），无动作冲突。
动态门控调节：推理时可手动开启/关闭各信号通道，灵活调整驱动权重，适配不同风格需求。

2. 高质量视频生成

超自然表情与动作：生成视频面部表情细腻、头部运动自然，眨眼、嘴角微动等细节还原度高。
精准音画同步：在CelebV-HQ数据集上实现Sync-C=5.317、Sync-D=7.869的同步精度，唇形与音频完全对齐。
身份一致性强：全程保留输入人像的身份特征，无明显面部扭曲或身份漂移问题。

3. 高效轻量化推理

并行Mamba架构：采用选择性状态空间模型，相比传统Transformer，算力消耗降低、推理速度提升，兼顾效率与效果。
低显存需求：基础推理仅需8GB显存，支持本地部署，无需高端算力支持。

4. 多场景适配能力

支持2D人像、真人照片、卡通形象等多种输入类型。
输出视频适配虚拟主播、数字人直播、短视频配音、智能客服等多元场景。

ACTalker（图1）

三、技术细节

1. 核心架构：并行Mamba+门控融合

ACTalker 核心采用并行Mamba结构，整体分为多模态编码分支、特征融合模块、视频扩散解码器三部分，架构逻辑清晰、模块化程度高。

输入（音频/表情/人像）
↓
多模态编码分支（并行Mamba）
├─ 音频分支：提取梅尔频谱特征→时序建模
├─ 表情分支：提取3D面部表情参数→空间建模
└─ 人像分支：提取身份特征→身份编码
↓
动态门控融合模块（信号权重调节）
↓
视频扩散解码器（生成高清视频帧）
↓
输出：同步说话人视频

2. 关键技术突破

并行Mamba结构：多分支并行处理不同驱动信号，每个分支独立用Mamba捕捉时序/空间特征，避免信号干扰，同时提升长序列建模能力。
动态门控机制：训练时随机丢弃部分信号通道，增强模型鲁棒性；推理时可手动控制各通道开关，灵活调整信号优先级。
区域化控制策略：将面部划分为嘴部、眉眼、下颌等区域，不同驱动信号精准控制对应区域，确保动作自然协调。
扩散模型优化：采用时间步自适应调度，提升视频帧生成质量，减少模糊、抖动等问题。

3. 核心技术指标

指标类型	具体指标	数值表现
音频同步	Sync-C（唇形同步）	5.317（最优）
音频同步	Sync-D（动态同步）	7.869（最优）
视频质量	FVD-Inc（视频流畅度）	232.374（最优）
身份保留	CSIM（身份相似度）	0.92+（高保真）

四、应用场景

1. 虚拟主播与数字人直播

快速生成24小时在线虚拟主播，适配新闻播报、带货直播、知识科普等场景，无需真人出镜、低成本高效益。

2. 短视频内容创作

老照片活化：上传历史照片+配音，生成会说话的动态回忆视频。
短视频配音：为无口型视频匹配自然唇形，适配解说、访谈类内容。

3. 智能客服与虚拟助手

生成高共情虚拟客服，实现语音交互时表情同步反馈，提升用户沟通体验，适配金融、政务、电商等领域。

4. 教育与培训

制作虚拟讲师视频，支持多语言配音+精准表情同步，适配在线课程、企业培训等场景，降低内容制作成本。

5. 影视与娱乐

快速生成虚拟角色说话片段，适配短视频短剧、动画配音、虚拟偶像互动等场景。

ACTalker（图2）

五、使用方法

1. 环境准备

（1）硬件要求

最低：NVIDIA GPU（8GB显存）、16GB内存、50GB存储
推荐：NVIDIA RTX 3090/4090、32GB内存、100GB+高速存储

（2）软件依赖

# 创建虚拟环境
conda create -n actalker python=3.9
conda activate actalker

# 安装核心依赖
pip install torch==2.0.1 torchvision==0.15.2
pip install mamba-ssm==1.0.1
pip install diffusers==0.18.2 transformers==4.28.1
pip install opencv-python==4.7.0.72 ffmpeg-python==0.2.0

2. 项目部署

# 克隆仓库
git clone https://github.com/harlanhong/ACTalker.git
cd ACTalker

# 下载预训练权重（自动脚本）
python download_weights.py

# 启动WebUI（可视化界面）
python app.py

# 启动命令行模式
python inference.py --config configs/infer.yaml

3. 快速生成流程

输入准备：上传1张清晰正面人像（照片/卡通图）、1段10-60秒音频（中文/英文均可）。
参数设置：选择驱动模式（仅音频/音频+表情）、输出分辨率（512×512/768×768）、帧率（25fps/30fps）。
生成视频：点击“生成”，等待1-3分钟（视硬件配置），生成后自动预览并保存。

4. 高级使用（自定义表情驱动）

准备表情参数文件（JSON格式，含3D面部关键点坐标）。
命令行指定表情输入：

python inference.py --audio input/audio.wav --image input/portrait.jpg --expression input/expr.json

六、竞品对比

选取行业主流的SadTalker、OmniTalker与ACTalker对比，核心维度如下：

1. 核心对比表

对比维度	ACTalker（港科大/腾讯/清华）	SadTalker（西安交大）	OmniTalker（阿里通义）
核心架构	并行Mamba+动态门控	3DMM+条件VAE	Thinker-Talker双模块+TMRoPE
驱动信号	音频/表情/组合（多区域分控）	仅音频（单信号驱动）	文本/音频/视频（多模态输入）
唇形同步精度	Sync-C=5.317（极高）	中等（易出现唇形错位）	高（误差±40ms）
面部表情丰富度	高（眉眼/嘴角/下颌精细化）	中等（表情单一、头部动作僵硬）	高（但易丢失身份细节）
身份一致性	极强（全程保留特征）	强（轻微扭曲）	中等（高动态下易漂移）
推理速度	快（Mamba轻量化）	中等	快（流式生成，2秒响应）
显存需求	8GB（最低）	6GB（最低）	10GB+（最低）
开源状态	完全开源（GitHub）	完全开源（GitHub）	闭源（仅在线体验）
核心优势	多信号分控、同步精度高、开源	部署简单、低显存、易上手	多模态输入、实时交互、商用稳定

2. 核心差异总结

ACTalker：主打多信号精准控制+极致同步精度，开源且性能均衡，适合技术玩家与商用二次开发。
SadTalker：主打轻量化+易部署，仅支持音频驱动，适合个人简单创作，表情细节较弱。
OmniTalker：主打多模态输入+实时交互，闭源商用，适合企业级直播场景，显存需求高。

ACTalker（图3）

七、常见问题解答

Q：生成视频唇形与音频不同步怎么办？

A：优先检查音频质量，确保无背景噪音、采样率为16kHz；其次在参数设置中调高“唇形同步权重”，降低头部运动幅度；最后更新预训练权重至最新版，修复同步算法bug。

Q：生成视频面部扭曲、身份丢失如何解决？

A：输入人像需为正面清晰无遮挡照片，避免侧脸、模糊、强美颜图片；推理时选择“身份保护模式”，降低表情驱动强度；使用更高分辨率输入（512×512以上）。

Q：部署时出现CUDA out of memory报错？

A：降低输出分辨率至512×512、关闭“高清细节增强”功能；使用RTX 3090及以上显卡，或切换至CPU模式（速度较慢）；关闭后台占用显存的程序。

Q：支持中文/英文以外的小语种音频吗？

A：支持，但小语种同步精度略低于中英；建议使用16kHz采样率、清晰无口音的音频；可通过微调模型适配特定语种，官方提供微调教程。

Q：可以生成长时间（5分钟以上）视频吗？

A：支持，但长视频易出现轻微抖动；建议分段生成（每段1-2分钟）后拼接；开启“长序列稳定模式”，减少帧间抖动。

Q：是否支持商用？需要授权吗？

A：完全开源，免费商用，无需授权；但禁止用于违法、侵权、换脸等违规场景；二次开发需注明原项目来源。

八、相关链接

项目GitHub仓库：https://github.com/harlanhong/ACTalker
项目主页：https://harlanhong.github.io/publications/actalker/index.html
技术论文（arXiv）：https://arxiv.org/abs/2504.02542

九、总结

ACTalker 是一款由港科大、腾讯、清华联合打造的开源多模态说话人视频生成框架，凭借并行Mamba架构、动态门控融合、多信号分控等核心技术，实现了音画高度同步、表情细腻自然、身份稳定一致的生成效果。相比SadTalker、OmniTalker等竞品，ACTalker 兼顾性能、灵活性与开源友好性，适配虚拟主播、短视频创作、智能客服等多元场景，为数字人内容创作提供了低成本、高性能的技术方案。

AI生成数字人虚拟主播开源AI框架

打赏

版权及免责申明：本文由@97ai原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/actalker.html

THE END

97ai

我不是在训练模型，而是在与未来的自己对话。

+ 关注