SoulX-LiveAct：Soul AILab开源的实时数字人动画生成框架

原创发布日期：2026-03-26

145

一、SoulX-LiveAct 是什么

SoulX-LiveAct是由Soul AILab研发并开源的小时级实时人类动画生成框架，核心目标是为实时流式交互场景提供高保真、多模态可控、长时稳定的数字人视频生成能力。该框架聚焦解决传统AI数字人生成技术中时序漂移、显存爆炸、推理延迟高、无法长时运行四大核心痛点，通过底层算法创新与工程优化，实现从秒级、分钟级到小时级连续稳定生成的突破，同时支持服务器级显卡与消费级显卡双部署路径，让实时数字人技术从专业机房走向普通开发者与个人用户。

从技术定位来看，SoulX-LiveAct并非单纯的视频生成模型，而是一套端到端实时动画生成系统，包含算法创新、模型架构、推理引擎、工程优化、界面交互完整链路，可直接对接直播、视频通话、虚拟主播、在线访谈等真实业务场景，生成内容具备人物身份稳定、动作自然流畅、唇形精准同步、表情细腻丰富的特点，满足实时互动对低延迟、高流畅度的硬性要求。

二、SoulX-LiveAct 功能特色

1. 小时级长时稳定生成

传统视频生成模型受限于时序一致性与显存占用，通常只能生成几秒到几分钟的短视频，长时间运行会出现人物变形、动作卡顿、身份漂移等问题。SoulX-LiveAct通过ConvKV Memory轻量压缩机制，实现恒定显存占用，无论生成1分钟还是1小时视频，显存开销几乎无增长，从根本上解决长时生成显存爆炸难题，保障小时级连续稳定运行。

2. 实时流式推理输出

框架针对实时交互场景深度优化，采用端到端自适应FP8精度、序列并行、算子融合等工程手段，在双H100/H200服务器显卡上可达到20FPS实时渲染速度，分辨率支持720×416、512×512、480×832等规格，延迟低、流畅度高，可直接用于直播、视频通话等对实时性要求严苛的场景。

3. 消费级显卡兼容

项目突破专业显卡限制，2026年3月18日更新支持RTX 4090、RTX 5090等消费级显卡，通过FP8 KV缓存与CPU模型块卸载技术，18B大模型（14B Wan2.1+4B音频模块）在单RTX 5090上可实现6FPS推理速度，兼顾画质与硬件兼容性，降低个人与小型团队的使用成本。

4. 多模态精准控制

支持图像、音频、文本多模态联合控制：输入人物图像锁定身份与外观，输入音频自动同步唇形与语气动作，输入文本指令实时调整表情、动作、情绪，实现“所见即所得”的精准可控，满足个性化数字人定制需求。

5. 实时动作与情绪编辑

内置动作与情绪编辑模块，无需重新训练模型，可在实时生成过程中动态调整人物姿态、表情、肢体动作，适配访谈、脱口秀、唱歌、演讲等不同场景的表达需求，保持实时性的同时提升内容丰富度。

6. 轻量化插件式设计

核心创新模块均采用插件式架构，ConvKV Memory、SageAttention、FP8优化等组件可灵活插拔，不破坏原有模型结构，便于开发者二次开发、功能扩展与算法迭代。

7. 可视化GUI演示界面

提供图形化操作界面，无需复杂命令行操作，即可快速启动实时推理、查看生成效果、调整参数配置，降低使用门槛，适合非专业开发者快速上手体验。

SoulX-LiveAct：Soul AILab开源的实时数字人动画生成框架

三、SoulX-LiveAct 技术细节

1. 核心算法创新

（1）Neighbor Forcing 时序一致性约束

SoulX-LiveAct将扩散步对齐的相邻隐层向量作为自回归扩散模型的核心归纳偏置，提出理论支撑完善的Neighbor Forcing机制，强制模型在每一步生成时参考相邻帧的隐层信息，保证帧间动作、外观、姿态的连续性，从算法根源解决数字人长时生成的抖动、变形、身份漂移问题，让小时级视频依然保持人物统一、动作流畅。

（2）ConvKV Memory 恒定显存机制

针对长视频生成KV缓存线性增长导致显存溢出的问题，项目设计ConvKV Memory轻量卷积压缩插件，对缓存信息进行高效压缩，实现恒定显存占用，无论视频时长增加多少，显存开销仅小幅波动，开销可忽略不计，为小时级生成提供硬件支撑。

2. 工程优化技术

端到端自适应FP8精度
全程采用FP8混合精度计算，在保证画质几乎无损失的前提下，大幅降低显存占用与计算量，提升推理速度。
序列并行与算子融合
通过序列并行拆分计算任务，结合算子融合减少数据传输与计算冗余，充分发挥GPU算力。
SageAttention 注意力核优化
集成FP8注意力加速核，提升注意力计算效率，是实现实时推理的关键组件。
vllm GEMM核优化
搭载vllm 0.11.0版本的FP8 GEMM核，加速矩阵乘法运算，进一步提升推理吞吐量。
LightVAE 轻量解码
使用LightVAE轻量变分自编码器，快速解码生成高清视频，平衡速度与画质。

3. 模型架构与性能

项目核心模型为18B组合模型，包含14B Wan2.1视觉生成模块与4B音频控制模块，配合chinese-wav2vec2-base音频特征提取模型，实现音画同步、唇形精准匹配。

硬件配置	分辨率	帧率	核心优化
双H100/H200	720×416/512×512	20 FPS	自适应FP8、序列并行
单RTX 5090	720×416	6 FPS	FP8 KV缓存、CPU卸载
单RTX 4090	720×416	兼容运行	FP8 KV缓存、CPU卸载

4. 精度与兼容性规划

项目已支持FP8精度，未来计划支持FP4精度，适配RTX 5090、B100、B200等新一代显卡，进一步降低显存占用，提升推理速度。

四、SoulX-LiveAct 应用场景

1. 实时直播与虚拟主播

支持7×24小时不间断直播，生成高保真虚拟主播，自动同步语音、表情与动作，无需真人出镜，降低直播成本，适用于电商直播、知识分享、娱乐直播等场景。

2. 在线播客与访谈节目

通过音频驱动生成自然流畅的数字人访谈画面，支持多人互动、情绪表达，打造沉浸式音频可视化播客，提升内容吸引力。

3. 实时视频通话（FaceTime）

将用户语音实时转换为数字人视频，实现虚拟形象视频通话，保护隐私的同时增加趣味性，适用于社交软件、在线客服、远程会议等场景。

4. 音乐与脱口秀表演

精准同步音乐节奏与台词语气，生成唱歌、脱口秀数字人表演，动作表情贴合内容，适合短视频创作、舞台表演等场景。

5. 企业虚拟数字人客服

7×24小时实时响应客户咨询，语音问答同步数字人动作表情，提升服务体验，适用于金融、电商、政务等客服场景。

6. 教育与在线授课

生成虚拟教师形象，实时同步授课语音与板书动作，打造沉浸式在线课堂，降低师资成本，适用于K12、职业教育等领域。

SoulX-LiveAct：Soul AILab开源的实时数字人动画生成框架

五、SoulX-LiveAct 使用方法

（一）环境依赖安装

创建Python虚拟环境

conda create -n liveact python=3.10
conda activate liveact
pip install -r requirements.txt
conda install conda-forge::sox -y

安装SageAttention（FP8注意力核）

git clone https://github.com/thu-ml/SageAttention.git
cd SageAttention
git checkout v2.2.0
python setup.py install

可选：安装融合版SageAttention

git clone https://github.com/ZhiqiJiang/SageAttentionFusion.git
cd SageAttentionFusion
python setup.py install

安装vllm（FP8 GEMM核）

pip install vllm==0.11.0

安装LightVAE

git clone https://github.com/ModelTC/LightX2V
cd LightX2V
python setup_vae.py install

（二）模型权重下载

从Huggingface或魔搭ModelScope下载以下模型：

SoulX-LiveAct 主模型
chinese-wav2vec2-base 音频模型

（三）推理运行命令

双H100/H200显卡实时流式推理

USE_CHANNELS_LAST_3D=1 CUDA_VISIBLE_DEVICES=0,1 \
torchrun --nproc_per_node=2 --master_port=$(shuf -n 1 -i 10000-165535) \
generate.py \
--size 416*720 \
--ckpt_dir 模型路径 \
--wav2vec_dir chinese-wav2vec2-base路径 \
--fps 20 \
--dura_print \
--input_json examples/example.json \
--steam_audio

实时动作/情绪编辑推理

USE_CHANNELS_LAST_3D=1 CUDA_VISIBLE_DEVICES=0,1 \
torchrun --nproc_per_node=2 --master_port=$(shuf -n 1 -i 10000-165535) \
generate.py \
--size 512*512 \
--ckpt_dir 模型路径 \
--wav2vec_dir chinese-wav2vec2-base路径 \
--fps 24 \
--input_json examples/example_edit.json

最优性能推理

USE_CHANNELS_LAST_3D=1 CUDA_VISIBLE_DEVICES=0,1 \
torchrun --nproc_per_node=2 --master_port=$(shuf -n 1 -i 10000-165535) \
generate.py \
--size 480*832 \
--ckpt_dir 模型路径 \
--wav2vec_dir chinese-wav2vec2-base路径 \
--fps 24 \
--input_json examples/example.json

RTX 4090/5090消费级显卡推理

USE_CHANNELS_LAST_3D=1 CUDA_VISIBLE_DEVICES=0 \
python generate.py \
--size 416*720 \
--ckpt_dir 模型路径 \
--wav2vec_dir chinese-wav2vec2-base路径 \
--fps 24 \
--input_json examples/example.json \
--fp8_kv_cache \
--block_offload \
--t5_cpu

单显卡评估推理

USE_CHANNELS_LAST_3D=1 CUDA_VISIBLE_DEVICES=0 \
python generate.py \
--size 480*832 \
--ckpt_dir 模型路径 \
--wav2vec_dir chinese-wav2vec2-base路径 \
--fps 24 \
--input_json examples/example.json \
--audio_cfg 1.7 \
--t5_cpu

（四）GUI演示界面运行

双H100/H200显卡GUI

USE_CHANNELS_LAST_3D=1 CUDA_VISIBLE_DEVICES=0,1 \
torchrun --nproc_per_node=2 --master_port=$(shuf -n 1 -i 10000-165535) \
demo.py \
--ckpt_dir 模型路径 \
--wav2vec_dir chinese-wav2vec2-base路径 \
--size 416*720 \
--video_save_path ./generated_videos

RTX 4090/5090显卡GUI

USE_CHANNELS_LAST_3D=1 CUDA_VISIBLE_DEVICES=0 \
torchrun --nproc_per_node=1 --master_port=$(shuf -n 1 -i 10000-165535) \
demo.py \
--ckpt_dir 模型路径 \
--wav2vec_dir chinese-wav2vec2-base路径 \
--size 416*720 \
--fp8_kv_cache \
--block_offload \
--t5_cpu \
--video_save_path ./generated_videos

六、常见问题解答

SoulX-LiveAct支持哪些显卡运行？

项目支持两类显卡，一是服务器级显卡H100、H200，二是消费级显卡RTX 4090、RTX 5090，后续还计划支持B100、B200等新型号。

消费级显卡运行时画质会下降吗？

开启FP8 KV缓存后，画质会有极其轻微的损失，肉眼几乎难以察觉，整体流畅度与真实度依然保持高水准。

运行时提示显存不足怎么办？

可添加--fp8_kv_cache、--block_offload、--t5_cpu三个参数，将模型块与KV缓存卸载到CPU，大幅降低GPU显存占用。

首次运行速度很慢是什么原因？

首次启动需要进行模型预热与算子编译，前几帧速度较慢，从第二次运行开始即可恢复正常实时速度。

如何调整生成视频的分辨率与帧率？

通过--size参数设置分辨率，支持416720、512512、480*832等规格；通过--fps参数设置目标帧率，最高支持24FPS。

生成的数字人唇形与音频不同步怎么办？

可调整--audio_cfg参数，默认值为1.0，适当提高数值可增强音频控制强度，提升唇形同步精度。

项目支持Windows系统运行吗？

项目官方提供Linux环境部署方案，Windows系统可通过WSL2虚拟机安装Linux环境运行。

如何实现小时级不间断生成？

无需额外设置，框架自带ConvKV Memory恒定显存机制，自动支持小时级长时生成，只需保证硬件稳定运行即可。

项目会开源训练代码吗？

根据开源计划，训练代码属于后续发布内容，目前已开源推理代码与模型权重，训练代码将在未来更新。

生成的视频可以商用吗？

需遵循项目开源协议，个人非商用可直接使用，商用前请仔细阅读项目许可文件并联系官方确认。

七、相关链接

SoulX-LiveAct GitHub开源地址：https://github.com/Soul-AILab/SoulX-LiveAct
项目主页：https://soul-ailab.github.io/soulx-liveact/
项目论文地址：https://arxiv.org/abs/2603.11746
模型下载地址：https://huggingface.co/Soul-AILab/LiveAct

八、项目总结

SoulX-LiveAct是Soul AILab面向实时交互场景打造的里程碑式开源数字人框架，以小时级长时稳定、实时流式推理、消费级显卡兼容、多模态精准控制为核心优势，通过Neighbor Forcing解决时序一致性问题、ConvKV Memory攻克显存瓶颈，配合全链路工程优化，实现高画质与高速度的平衡，覆盖直播、社交、教育、客服、娱乐等多元场景，同时开放完整代码与模型，大幅降低实时数字人技术的使用与开发门槛，为AI数字人从实验室走向规模化商用提供了高效、可靠、低成本的技术方案。

打赏

版权及免责申明：本文由@97ai原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/soulx-liveact.html

THE END

97ai

我不是在训练模型，而是在与未来的自己对话。

+ 关注

SoulX-LiveAct：Soul AILab开源的实时数字人动画生成框架

文章目录

一、SoulX-LiveAct 是什么

二、SoulX-LiveAct 功能特色

1. 小时级长时稳定生成

2. 实时流式推理输出

3. 消费级显卡兼容

4. 多模态精准控制

5. 实时动作与情绪编辑

6. 轻量化插件式设计

7. 可视化GUI演示界面

三、SoulX-LiveAct 技术细节

1. 核心算法创新

（1）Neighbor Forcing 时序一致性约束

（2）ConvKV Memory 恒定显存机制

2. 工程优化技术

3. 模型架构与性能

4. 精度与兼容性规划

四、SoulX-LiveAct 应用场景

1. 实时直播与虚拟主播

2. 在线播客与访谈节目

3. 实时视频通话（FaceTime）

4. 音乐与脱口秀表演

5. 企业虚拟数字人客服

6. 教育与在线授课

五、SoulX-LiveAct 使用方法

（一）环境依赖安装

（二）模型权重下载

（三）推理运行命令

（四）GUI演示界面运行

六、常见问题解答

七、相关链接

八、项目总结

相关文章