SoulX-LiveAct:Soul AILab开源的实时数字人动画生成框架

原创 发布日期:
63

一、SoulX-LiveAct 是什么

SoulX-LiveAct是由Soul AILab研发并开源的小时级实时人类动画生成框架,核心目标是为实时流式交互场景提供高保真、多模态可控、长时稳定的数字人视频生成能力。该框架聚焦解决传统AI数字人生成技术中时序漂移、显存爆炸、推理延迟高、无法长时运行四大核心痛点,通过底层算法创新与工程优化,实现从秒级、分钟级到小时级连续稳定生成的突破,同时支持服务器级显卡与消费级显卡双部署路径,让实时数字人技术从专业机房走向普通开发者与个人用户。

从技术定位来看,SoulX-LiveAct并非单纯的视频生成模型,而是一套端到端实时动画生成系统,包含算法创新、模型架构、推理引擎、工程优化、界面交互完整链路,可直接对接直播、视频通话、虚拟主播、在线访谈等真实业务场景,生成内容具备人物身份稳定、动作自然流畅、唇形精准同步、表情细腻丰富的特点,满足实时互动对低延迟、高流畅度的硬性要求。

二、SoulX-LiveAct 功能特色

1. 小时级长时稳定生成

传统视频生成模型受限于时序一致性与显存占用,通常只能生成几秒到几分钟的短视频,长时间运行会出现人物变形、动作卡顿、身份漂移等问题。SoulX-LiveAct通过ConvKV Memory轻量压缩机制,实现恒定显存占用,无论生成1分钟还是1小时视频,显存开销几乎无增长,从根本上解决长时生成显存爆炸难题,保障小时级连续稳定运行。

2. 实时流式推理输出

框架针对实时交互场景深度优化,采用端到端自适应FP8精度、序列并行、算子融合等工程手段,在双H100/H200服务器显卡上可达到20FPS实时渲染速度,分辨率支持720×416、512×512、480×832等规格,延迟低、流畅度高,可直接用于直播、视频通话等对实时性要求严苛的场景。

3. 消费级显卡兼容

项目突破专业显卡限制,2026年3月18日更新支持RTX 4090、RTX 5090等消费级显卡,通过FP8 KV缓存CPU模型块卸载技术,18B大模型(14B Wan2.1+4B音频模块)在单RTX 5090上可实现6FPS推理速度,兼顾画质与硬件兼容性,降低个人与小型团队的使用成本。

4. 多模态精准控制

支持图像、音频、文本多模态联合控制:输入人物图像锁定身份与外观,输入音频自动同步唇形与语气动作,输入文本指令实时调整表情、动作、情绪,实现“所见即所得”的精准可控,满足个性化数字人定制需求。

5. 实时动作与情绪编辑

内置动作与情绪编辑模块,无需重新训练模型,可在实时生成过程中动态调整人物姿态、表情、肢体动作,适配访谈、脱口秀、唱歌、演讲等不同场景的表达需求,保持实时性的同时提升内容丰富度。

6. 轻量化插件式设计

核心创新模块均采用插件式架构,ConvKV Memory、SageAttention、FP8优化等组件可灵活插拔,不破坏原有模型结构,便于开发者二次开发、功能扩展与算法迭代。

7. 可视化GUI演示界面

提供图形化操作界面,无需复杂命令行操作,即可快速启动实时推理、查看生成效果、调整参数配置,降低使用门槛,适合非专业开发者快速上手体验。

SoulX-LiveAct:Soul AILab开源的实时数字人动画生成框架

三、SoulX-LiveAct 技术细节

1. 核心算法创新

(1)Neighbor Forcing 时序一致性约束

SoulX-LiveAct将扩散步对齐的相邻隐层向量作为自回归扩散模型的核心归纳偏置,提出理论支撑完善的Neighbor Forcing机制,强制模型在每一步生成时参考相邻帧的隐层信息,保证帧间动作、外观、姿态的连续性,从算法根源解决数字人长时生成的抖动、变形、身份漂移问题,让小时级视频依然保持人物统一、动作流畅。

(2)ConvKV Memory 恒定显存机制

针对长视频生成KV缓存线性增长导致显存溢出的问题,项目设计ConvKV Memory轻量卷积压缩插件,对缓存信息进行高效压缩,实现恒定显存占用,无论视频时长增加多少,显存开销仅小幅波动,开销可忽略不计,为小时级生成提供硬件支撑。

2. 工程优化技术

  1. 端到端自适应FP8精度
    全程采用FP8混合精度计算,在保证画质几乎无损失的前提下,大幅降低显存占用与计算量,提升推理速度。

  2. 序列并行与算子融合
    通过序列并行拆分计算任务,结合算子融合减少数据传输与计算冗余,充分发挥GPU算力。

  3. SageAttention 注意力核优化
    集成FP8注意力加速核,提升注意力计算效率,是实现实时推理的关键组件。

  4. vllm GEMM核优化
    搭载vllm 0.11.0版本的FP8 GEMM核,加速矩阵乘法运算,进一步提升推理吞吐量。

  5. LightVAE 轻量解码
    使用LightVAE轻量变分自编码器,快速解码生成高清视频,平衡速度与画质。

3. 模型架构与性能

项目核心模型为18B组合模型,包含14B Wan2.1视觉生成模块与4B音频控制模块,配合chinese-wav2vec2-base音频特征提取模型,实现音画同步、唇形精准匹配。

硬件配置 分辨率 帧率 核心优化
双H100/H200 720×416/512×512 20 FPS 自适应FP8、序列并行
单RTX 5090 720×416 6 FPS FP8 KV缓存、CPU卸载
单RTX 4090 720×416 兼容运行 FP8 KV缓存、CPU卸载

4. 精度与兼容性规划

项目已支持FP8精度,未来计划支持FP4精度,适配RTX 5090、B100、B200等新一代显卡,进一步降低显存占用,提升推理速度。

四、SoulX-LiveAct 应用场景

1. 实时直播与虚拟主播

支持7×24小时不间断直播,生成高保真虚拟主播,自动同步语音、表情与动作,无需真人出镜,降低直播成本,适用于电商直播、知识分享、娱乐直播等场景。

2. 在线播客与访谈节目

通过音频驱动生成自然流畅的数字人访谈画面,支持多人互动、情绪表达,打造沉浸式音频可视化播客,提升内容吸引力。

3. 实时视频通话(FaceTime)

将用户语音实时转换为数字人视频,实现虚拟形象视频通话,保护隐私的同时增加趣味性,适用于社交软件、在线客服、远程会议等场景。

4. 音乐与脱口秀表演

精准同步音乐节奏与台词语气,生成唱歌、脱口秀数字人表演,动作表情贴合内容,适合短视频创作、舞台表演等场景。

5. 企业虚拟数字人客服

7×24小时实时响应客户咨询,语音问答同步数字人动作表情,提升服务体验,适用于金融、电商、政务等客服场景。

6. 教育与在线授课

生成虚拟教师形象,实时同步授课语音与板书动作,打造沉浸式在线课堂,降低师资成本,适用于K12、职业教育等领域。

SoulX-LiveAct:Soul AILab开源的实时数字人动画生成框架

五、SoulX-LiveAct 使用方法

(一)环境依赖安装

  1. 创建Python虚拟环境

conda create -n liveact python=3.10
conda activate liveact
pip install -r requirements.txt
conda install conda-forge::sox -y
  1. 安装SageAttention(FP8注意力核)

git clone https://github.com/thu-ml/SageAttention.git
cd SageAttention
git checkout v2.2.0
python setup.py install

可选:安装融合版SageAttention

git clone https://github.com/ZhiqiJiang/SageAttentionFusion.git
cd SageAttentionFusion
python setup.py install
  1. 安装vllm(FP8 GEMM核)

pip install vllm==0.11.0
  1. 安装LightVAE

git clone https://github.com/ModelTC/LightX2V
cd LightX2V
python setup_vae.py install

(二)模型权重下载

从Huggingface或魔搭ModelScope下载以下模型:

  1. SoulX-LiveAct 主模型

  2. chinese-wav2vec2-base 音频模型

(三)推理运行命令

  1. 双H100/H200显卡实时流式推理

USE_CHANNELS_LAST_3D=1 CUDA_VISIBLE_DEVICES=0,1 \
torchrun --nproc_per_node=2 --master_port=$(shuf -n 1 -i 10000-165535) \
generate.py \
--size 416*720 \
--ckpt_dir 模型路径 \
--wav2vec_dir chinese-wav2vec2-base路径 \
--fps 20 \
--dura_print \
--input_json examples/example.json \
--steam_audio
  1. 实时动作/情绪编辑推理

USE_CHANNELS_LAST_3D=1 CUDA_VISIBLE_DEVICES=0,1 \
torchrun --nproc_per_node=2 --master_port=$(shuf -n 1 -i 10000-165535) \
generate.py \
--size 512*512 \
--ckpt_dir 模型路径 \
--wav2vec_dir chinese-wav2vec2-base路径 \
--fps 24 \
--input_json examples/example_edit.json
  1. 最优性能推理

USE_CHANNELS_LAST_3D=1 CUDA_VISIBLE_DEVICES=0,1 \
torchrun --nproc_per_node=2 --master_port=$(shuf -n 1 -i 10000-165535) \
generate.py \
--size 480*832 \
--ckpt_dir 模型路径 \
--wav2vec_dir chinese-wav2vec2-base路径 \
--fps 24 \
--input_json examples/example.json
  1. RTX 4090/5090消费级显卡推理

USE_CHANNELS_LAST_3D=1 CUDA_VISIBLE_DEVICES=0 \
python generate.py \
--size 416*720 \
--ckpt_dir 模型路径 \
--wav2vec_dir chinese-wav2vec2-base路径 \
--fps 24 \
--input_json examples/example.json \
--fp8_kv_cache \
--block_offload \
--t5_cpu
  1. 单显卡评估推理

USE_CHANNELS_LAST_3D=1 CUDA_VISIBLE_DEVICES=0 \
python generate.py \
--size 480*832 \
--ckpt_dir 模型路径 \
--wav2vec_dir chinese-wav2vec2-base路径 \
--fps 24 \
--input_json examples/example.json \
--audio_cfg 1.7 \
--t5_cpu

(四)GUI演示界面运行

  1. 双H100/H200显卡GUI

USE_CHANNELS_LAST_3D=1 CUDA_VISIBLE_DEVICES=0,1 \
torchrun --nproc_per_node=2 --master_port=$(shuf -n 1 -i 10000-165535) \
demo.py \
--ckpt_dir 模型路径 \
--wav2vec_dir chinese-wav2vec2-base路径 \
--size 416*720 \
--video_save_path ./generated_videos
  1. RTX 4090/5090显卡GUI

USE_CHANNELS_LAST_3D=1 CUDA_VISIBLE_DEVICES=0 \
torchrun --nproc_per_node=1 --master_port=$(shuf -n 1 -i 10000-165535) \
demo.py \
--ckpt_dir 模型路径 \
--wav2vec_dir chinese-wav2vec2-base路径 \
--size 416*720 \
--fp8_kv_cache \
--block_offload \
--t5_cpu \
--video_save_path ./generated_videos

六、常见问题解答

SoulX-LiveAct支持哪些显卡运行?

项目支持两类显卡,一是服务器级显卡H100、H200,二是消费级显卡RTX 4090、RTX 5090,后续还计划支持B100、B200等新型号。

消费级显卡运行时画质会下降吗?

开启FP8 KV缓存后,画质会有极其轻微的损失,肉眼几乎难以察觉,整体流畅度与真实度依然保持高水准。

运行时提示显存不足怎么办?

可添加--fp8_kv_cache、--block_offload、--t5_cpu三个参数,将模型块与KV缓存卸载到CPU,大幅降低GPU显存占用。

首次运行速度很慢是什么原因?

首次启动需要进行模型预热与算子编译,前几帧速度较慢,从第二次运行开始即可恢复正常实时速度。

如何调整生成视频的分辨率与帧率?

通过--size参数设置分辨率,支持416720、512512、480*832等规格;通过--fps参数设置目标帧率,最高支持24FPS。

生成的数字人唇形与音频不同步怎么办?

可调整--audio_cfg参数,默认值为1.0,适当提高数值可增强音频控制强度,提升唇形同步精度。

项目支持Windows系统运行吗?

项目官方提供Linux环境部署方案,Windows系统可通过WSL2虚拟机安装Linux环境运行。

如何实现小时级不间断生成?

无需额外设置,框架自带ConvKV Memory恒定显存机制,自动支持小时级长时生成,只需保证硬件稳定运行即可。

项目会开源训练代码吗?

根据开源计划,训练代码属于后续发布内容,目前已开源推理代码与模型权重,训练代码将在未来更新。

生成的视频可以商用吗?

需遵循项目开源协议,个人非商用可直接使用,商用前请仔细阅读项目许可文件并联系官方确认。

七、相关链接

八、项目总结

SoulX-LiveAct是Soul AILab面向实时交互场景打造的里程碑式开源数字人框架,以小时级长时稳定、实时流式推理、消费级显卡兼容、多模态精准控制为核心优势,通过Neighbor Forcing解决时序一致性问题、ConvKV Memory攻克显存瓶颈,配合全链路工程优化,实现高画质与高速度的平衡,覆盖直播、社交、教育、客服、娱乐等多元场景,同时开放完整代码与模型,大幅降低实时数字人技术的使用与开发门槛,为AI数字人从实验室走向规模化商用提供了高效、可靠、低成本的技术方案。

打赏
THE END
作者头像
97ai
我不是在训练模型,而是在与未来的自己对话。