InteractAvatar：面向场景物体交互的开源 AI 说话数字人生成框架

原创发布日期：2026-02-06

一、InteractAvatar 是什么

InteractAvatar是一款开源的文本驱动、场景感知、人物-物体交互可控的说话数字人（Talking Avatar）生成框架，核心解决当前数字人生成领域长期存在的控制-质量两难问题——既要让数字人精准理解场景、按文本指令与物体交互，又要维持人物身份一致、背景稳定、视频画质清晰、唇形同步自然。

与传统仅支持说话、简单肢体动作的数字人方案不同，InteractAvatar首次将Grounded Human-Object Interaction（GHOI，场景锚定人物-物体交互） 引入说话数字人生成任务，让数字人不再局限于“说话+摆动作”，而是能在给定静态图像场景中，理解物体位置、空间关系，并按文本指令完成拿起、放置、指向、操作等真实物理交互。

项目采用创新双流DiT架构，把“环境感知与动作规划”和“高保真视频渲染”解耦为两个模块协同工作，既保证交互动作精准贴合文本与场景，又通过并行生成与残差对齐机制保证视频质量不下降。同时项目配套发布了GroundedInter专用评测基准，填补了该领域无统一评测标准的空白，是当前开源社区中少数专注“场景+物体+说话+可控”四位一体的数字人解决方案。

InteractAvatar基于Python开发，依托PyTorch与CUDA加速，模型基于Wan2.2-5B初始化训练，支持本地部署与推理，可生成10秒以内、分辨率适中、动作自然、口型精准、带物体交互的数字人视频，适用于研究、原型开发、内容创作与行业落地。

InteractAvatar：面向场景物体交互的开源 AI 说话数字人生成框架

二、功能特色

InteractAvatar的核心价值在于可控性、真实性、场景感知、多模态协同、高质量生成五大能力，相比HuMo、VACE、Wan-S2V、UniAnimate-DiT等主流方案，在交互精度、动作自然度、唇形同步、背景一致性上实现显著提升。

1. 文本驱动场景交互（核心特色）

支持输入单张参考图像+文本指令+音频，自动生成数字人在该场景中与指定物体交互的视频。
指令示例：“拿起桌上的杯子”“指向书架上的书”“把手机放到桌面”“打开盒子并取出物品”。
自动识别场景中物体类别、位置、边界框，无需额外标注或手动指定物体，实现端到端文本控制。

2. 双流架构解耦控制与画质

感知交互模块（PIM）专注场景理解、物体检测、动作序列规划，输出骨骼姿态与物体轨迹。
音视频生成模块（AIM）专注高保真画质、唇形同步、人物身份保持、背景稳定。
两模块并行协同，通过M2V Aligner逐残差注入，避免传统方案“控制强则画质差、画质好则控制弱”的矛盾。

3. 高精度唇形同步与语音对齐

采用Wav2Vec提取音频时序特征，帧级对齐面部运动。
加入面部空间掩码（Face Mask）强化音频对嘴部区域的控制，唇形准确度超过多数音频驱动方案。

4. 人物与背景强一致性

生成过程严格锚定输入参考图像，人物外观、姿态初始状态、背景环境全程保持稳定。
不会出现人物变形、背景漂移、物体消失/突变等常见生成缺陷，交互过程更接近真实拍摄。

5. 多模态灵活输入组合

支持文本+图像+音频、文本+图像、图像+动作等多种输入组合。
可单独生成动作序列，也可直接生成带语音、带交互的完整视频，适配不同开发与创作需求。

6. 开源完整且可复现

开放推理代码、环境配置、模型权重下载、数据集基准。
提供一键推理脚本、参数说明、示例数据，研究人员与开发者可快速复现论文效果。

7. 专用评测基准 GroundedInter

包含400张场景图像、100+常见物体、600组交互测试用例，每例含参考图、文本指令、语音音频。
支持从交互质量、物体质量、唇形同步、背景一致性、人物一致性等多维度量化评估。

主流数字人方案核心能力对比

方案	场景交互能力	文本可控性	唇形同步	人物/背景一致性	部署难度
InteractAvatar	强（支持GHOI）	强（端到端文本）	优秀	优秀	中等（需GPU）
传统音频驱动Avatar	弱（仅肢体摆动）	弱	良好	一般	低
姿态驱动Avatar	中（需预定义姿态）	弱（依赖姿态序列）	一般	良好	高
人物一致型Avatar	弱（无场景物体交互）	中（文本生成视频）	良好	优秀	中

三、技术细节

InteractAvatar的技术核心是双流DiT（Diffusion Transformer）+ Flow Matching + M2V对齐 + 环境感知训练，整体架构清晰、模块化强、可扩展、可独立替换组件。

1. 整体架构：双流解耦并行生成

项目将复杂的GHOI数字人生成拆分为两个核心子任务，由两个结构相似、功能解耦的DiT模块分别处理：

感知交互模块 PIM（Perception and Interaction Module）：充当“大脑”，负责场景感知、文本理解、物体定位、交互动作时序规划。
音视频生成模块 AIM（Audio-Interaction Aware Generation Module）：充当“渲染器”，负责在PIM的动作约束下，生成高保真、唇形同步、背景稳定的视频帧。

两模块并非串行执行，而是并行协同生成，AIM在每一步都通过M2V Aligner接收PIM的特征残差，保证动作与画面实时对齐，从根源缓解控制-质量两难。

2. 感知交互模块 PIM 设计

PIM是实现场景交互的关键，核心能力包括：

环境感知与检测训练：以参考图像为输入，通过类检测任务学习物体位置、类别、空间布局，支持单张图像直接理解可交互物体。
动作序列生成：输出包含人体骨骼关键点序列与物体边界框轨迹的结构化运动信息，保证交互符合物理规则。
任务嵌入区分：支持纯动作生成与人物-物体交互（HOI）生成两种模式，通过任务嵌入统一建模。
RoPE位置编码重映射：将参考图像作为特殊“-1时间步”全局条件，不破坏视频时序位置编码，稳定长序列生成。

PIM输入：参考图像 + 文本指令 + （可选）音频
PIM输出：结构化运动序列（骨骼+物体框时序）

3. 音视频生成模块 AIM 设计

AIM在保持DiT主干的基础上，强化音频与运动对齐：

音频特征注入：使用Wav2Vec提取时序语音特征，通过交叉注意力与面部掩码聚焦嘴部区域，实现精准唇形同步。
M2V Aligner（Motion-to-Video）：核心创新组件，将PIM每层DiT块的输出残差，经线性变换与插值后，逐残差注入AIM对应层，保证动作约束精准传递。
流匹配（Flow Matching）训练：统一PIM与AIM的训练目标，使用向量场预测损失，提升序列生成平滑度与稳定性。
VAE latent空间建模：所有视觉信息（图像、视频、运动）均在VAE隐空间编码，降低计算量并提升生成质量。

AIM输入：参考图像 + 音频 + PIM运动特征（残差注入）
AIM输出：最终高保真数字人交互视频

4. 训练策略与模型基础

主干模型基于Wan2.2-5B初始化，保留强大视频生成能力。
PIM单独训练约30k步，输入运动序列短边缩至256px，平衡精度与速度。
采用两阶段训练：先训练PIM实现可靠感知与动作规划，再联合训练AIM保证视频质量。
环境感知课程学习：交替使用“条件续生成”与“感知即生成”模式，强化模型对场景的理解。

5. 生成流程（推理阶段）

输入：单张场景参考图 + 文本交互指令 + 语音音频。
PIM解析场景、定位物体、生成交互运动序列（骨骼+物体轨迹）。
AIM读取音频，提取唇形特征，同时通过M2V Aligner接收PIM运动约束。
两模块并行生成，逐帧对齐动作、唇形、画面。
输出：带说话声音、自然肢体动作、精准物体交互、稳定背景的数字人视频。

InteractAvatar：面向场景物体交互的开源 AI 说话数字人生成框架

四、应用场景

InteractAvatar的场景交互+说话+文本可控+高质量特性，使其覆盖研究、教育、内容创作、商业服务、人机交互等多领域，是下一代具象化AI交互的重要基础组件。

1. 学术与算法研究

面向GHOI、Talking Avatar、视频生成、多模态大模型、具身智能方向的研究平台。
提供标准基准GroundedInter，支持算法对比、消融实验、模块创新、架构改进。
可用于探索文本到动作、场景理解、物体操作、具身交互等前沿课题。

2. 虚拟主播与内容创作

生成带场景道具交互的虚拟主播视频，如“拿起产品讲解”“指向屏幕内容”“操作演示工具”。
支持单图生成、低成本批量制作短视频、知识讲解、产品演示、剧情动画。
人物与背景固定，风格统一，适合自媒体、教育机构、企业宣传使用。

3. 智能教育与虚拟讲师

制作可操作实验器材、教具、模型的虚拟教师，提升教学沉浸感。
适用于科学实验演示、机械结构讲解、医疗手术模拟、艺术创作步骤教学。
文本驱动可快速定制讲解内容与交互动作，降低拍摄与动画制作成本。

4. 智能客服与商业导购

场景化数字人客服，可“拿起商品展示”“指向优惠信息”“操作界面演示”。
适用于银行、电商、家电、美妆、汽车等需要实物演示的行业。
支持对接ASR+LLM+TTS，形成完整对话交互系统。

5. 人机交互与AR/VR原型

作为AR/VR中具身智能代理的视觉生成模块，实现与虚拟物体交互。
用于智能家居、工业控制、机器人远程操作的可视化数字人界面。
支持动作序列导出，可对接Unity/UE等引擎进行实时渲染。

6. 影视动画与创意制作

快速生成概念视频、分镜预览、角色动作测试、场景交互小样。
无需专业动捕、无需建模、无需关键帧动画，单图+文本即可产出可用素材。

五、使用方法

InteractAvatar提供标准开源项目结构，支持Conda环境部署、模型自动/手动下载、一键推理、自定义输入、参数调优。以下为完整可复现使用流程（严格遵循官方README）。

1. 环境要求

系统：Linux（推荐Ubuntu 20.04+），Windows可通过WSL2运行
Python：3.10+
CUDA：12.4+（必须，依赖flash_attn等算子）
GPU：建议≥24GB显存（如RTX 4090、A5000、A100等）
依赖：PyTorch 2.6.0+、ffmpeg、librosa、transformers、diffusers、flash_attn等

2. 环境安装步骤

克隆仓库

git clone https://github.com/angzong/InteractAvatar.git
cd InteractAvatar

创建Conda环境

conda create -n interactavatar python=3.10
conda activate interactavatar

安装PyTorch（对应CUDA 12.4）

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

安装依赖

pip install -r requirements.txt

安装ffmpeg（用于音频视频处理）

sudo apt install ffmpeg

3. 模型与数据准备

官方提供预训练模型权重，需从指定链接下载，放置于项目checkpoints/目录。
GroundedInter测试基准可从项目链接下载，包含示例参考图、文本、音频。
自定义输入：准备一张清晰的场景图（含可交互物体）、一段对应文本指令、一段WAV格式音频。

4. 快速推理（生成示例视频）

官方提供inference.py脚本，支持单命令生成交互数字人视频：

python inference.py \
 --ref_img examples/ref.jpg \
 --text "拿起桌子上的杯子并面向镜头说话" \
 --audio examples/audio.wav \
 --output output/result.mp4 \
 --seed 42

参数说明：

--ref_img：输入场景参考图像路径
--text：文本交互指令（中文/英文，以官方支持为准）
--audio：语音音频路径（WAV格式，建议16kHz）
--output：输出视频路径
--seed：随机种子，保证可复现
--num_frames：生成帧数（默认≈160，约5–6秒）
--fps：视频帧率（默认25）

5. 自定义生成流程

准备场景图：确保物体清晰、光照均匀、无大面积遮挡，便于模型检测与交互。
撰写文本指令：明确动作、物体、位置，如“用右手拿起桌上的白色杯子”。
生成/准备音频：使用TTS（如EdgeTTS、Bert-VITS2）生成对应文本语音，保存为WAV。
运行推理脚本，调整帧数、帧率、随机种子，获得满意结果。
后期处理：可使用FFmpeg裁剪、拼接、加字幕、压缩码率。

6. 运动序列单独导出

如需仅生成骨骼+物体轨迹（用于动画引擎、机器人控制），可使用：

python inference.py --mode motion --ref_img examples/ref.jpg --text "指令" --output output/motion.json

InteractAvatar：面向场景物体交互的开源 AI 说话数字人生成框架

六、常见问题解答

运行项目时提示 CUDA out of memory 显存不足，应该怎么处理？

InteractAvatar 基于 DiT 架构并使用大参数模型，对 GPU 显存要求较高，官方推荐至少 24GB 以上显存。出现显存不足时，可以尝试降低输入参考图像的分辨率、减少生成视频的帧数、使用 FP16 半精度推理、关闭不必要的可视化与日志输出、退出其他占用 GPU 的程序。如果硬件显存低于 24GB，通常无法正常完成完整推理流程，建议使用云服务器 GPU 或升级本地显卡配置。

为什么生成的视频中人物动作不自然、和物体交互位置不准确？

动作与交互错位通常由几类原因导致：参考图像中物体过小、遮挡严重、背景过于杂乱，模型难以精准检测与定位物体；文本指令描述模糊，没有明确动作方式、交互物体、位置关系；参考图像光照不均、反光强烈、视角极端，影响模型对空间结构的理解；使用了非官方推荐的参数配置，导致运动序列规划不稳定。优化方式包括选用清晰简洁、主体突出、物体明显的参考图，撰写具体明确的指令，避免复杂背景与强干扰元素，并使用默认推荐的推理参数。

生成视频时唇形与语音不同步，该如何解决？

唇形不同步是音频驱动数字人常见问题，在 InteractAvatar 中主要与音频格式、时长匹配、特征提取有关。首先要确保音频为标准 WAV 格式，采样率统一为 16kHz、单声道，避免多声道、高采样率或压缩格式；其次要保证音频时长与生成帧数匹配，避免音频过长或过短；同时需要检查 Wav2Vec 相关权重是否完整下载，依赖库是否正确安装，避免音频特征提取失败。如果仍然不同步，可以适当调整帧间隔、重新生成音频、更换随机种子后再次推理。

生成结果出现人物变形、背景漂移、物体闪烁或消失怎么办？

这类问题属于生成稳定性问题，通常与参考图质量、模型推理配置、场景复杂度相关。建议优先更换清晰度高、物体边缘清晰、背景简单、无大面积纹理混乱的参考图像；避免使用极端视角、强反光、高噪声图片；适当增加扩散推理步数，保证生成过程充分收敛；使用官方提供的预训练权重，不随意修改模型结构与模块配置；避免在同一场景中放入过多小物体，降低模型感知压力。

Windows 系统可以直接运行 InteractAvatar 吗？

项目主要基于 Linux 环境开发，依赖的 flash_attn 等算子在原生 Windows 下兼容性较差，直接运行容易出现编译错误、算子不支持、进程崩溃等问题。官方不推荐原生 Windows 部署，最稳定的方式是使用 WSL2 安装 Ubuntu 子系统，在 Linux 环境中配置 Conda、CUDA、PyTorch 与项目依赖，按照 Linux 流程完整部署与推理。

模型权重下载速度慢或无法下载，有其他获取渠道吗？

官方在 GitHub 仓库 README、项目主页与发布页中提供了模型权重的主链接与备用镜像链接，包括国内网盘、云存储等加速地址。如果官方链接无法访问，可以关注项目 Issue 区，作者通常会同步更新可用下载地址。下载完成后需要将权重文件放置在项目指定的 checkpoints 目录，确保文件名、文件结构与代码中一致，避免路径错误导致模型加载失败。

当前版本支持多人物、多物体同时进行交互吗？

目前开源版本的 InteractAvatar 主要面向单人物、单个或少量物体的交互生成，不支持多人物并行交互、复杂多物体协同操作。这是项目当前版本的功能限制，相关能力属于后续迭代方向，在现有代码与模型结构下无法直接实现多主体复杂交互。

InteractAvatar 可以用于商业项目吗？是否可以二次开发和售卖？

项目以开源协议发布，允许用于非商业的研究、学习、实验与演示。如果需要用于商业用途，包括商业内容生成、商业产品集成、商业服务部署等，必须严格遵循仓库中的 LICENSE 文件，并联系项目作者获得正式授权。禁止未经授权直接商用、二次封装后售卖、闭源改造后重新发布，也不可将项目用于违法、违规、虚假宣传等相关场景。

生成一帧或一段视频的速度很慢，有哪些可行的加速方法？

加速推理可以从硬件、配置、精度、流程四个方面优化：使用更高规格的 GPU 并提升显存带宽；启用 FP16 或 FP8 混合精度，减少计算量；降低输出视频分辨率与总帧数；适当减少扩散步数，在质量与速度之间平衡；优化预处理与后处理逻辑，避免不必要的图像缩放、编码与解码。官方未来可能会提供轻量模型版本、ONNX 或 TensorRT 加速方案，进一步提升推理速度。

目前开源内容包含完整训练代码吗？可以自己微调或训练新模型吗？

当前 GitHub 开源版本主要提供可直接运行的推理代码、环境配置、预训练模型与示例脚本，完整的训练流程、数据预处理 pipeline、多机多卡训练脚本尚未完全开源。项目作者会根据规划逐步更新训练相关代码。如果需要自定义训练或微调，可以参考论文中的双流 DiT 架构、Flow Matching 训练策略、感知交互模块设计，基于公开技术思路自行实现，或等待官方发布完整训练代码。

推理时报错缺少某个库、模块不存在或版本不匹配，如何解决？

这类问题通常由环境配置不规范、依赖版本冲突、CUDA 与 PyTorch 不对应导致。首先需要严格按照官方要求使用 Python 3.10、CUDA 12.4、对应版本的 PyTorch；重新执行依赖安装命令，确保所有库都正确安装；优先使用 Conda 环境隔离，避免与系统其他 Python 项目冲突；如果某个算子安装失败，可查看官方 Issue 中对应的解决方案，手动编译或更换安装源。环境统一是项目正常运行的关键，建议完全复刻官方推荐环境。

可以只生成运动序列（骨骼、物体轨迹）而不生成视频吗？

可以。InteractAvatar 支持将感知交互模块（PIM）的输出独立导出，包括人体骨骼关键点序列、物体边界框时序轨迹等结构化运动数据，方便用于动画引擎、机器人控制、动作编辑、后续渲染等场景。通过指定运行模式为 motion，并设置输出路径，即可在不生成完整视频的情况下得到标准化运动文件，通常为 JSON 或结构化文本格式，便于第三方工具读取与二次开发。

项目支持中文文本与中文语音吗？对输入语言有什么要求？

项目核心架构支持多语种文本与语音条件，具体支持程度取决于训练数据与文本编码器、音频编码器的覆盖范围。官方示例与基准以通用交互指令为主，使用规范、简洁、无歧义的中文指令通常可以正常推理。语音方面只要保证格式标准、采样率匹配、清晰度足够，即可实现稳定的唇形同步与动作驱动。建议避免使用方言、强口音、含大量噪声或语速异常的音频，以保证生成效果稳定。

七、相关链接

GitHub开源仓库：https://github.com/angzong/InteractAvatar
项目官方主页：https://interactavatar.github.io/
论文arXiv地址：https://arxiv.org/abs/2602.01538
模型地址：https://huggingface.co/youliang1233214/InteractAvatar

八、总结

InteractAvatar是一款面向文本驱动、场景感知、人物-物体精准交互的说话数字人开源框架，通过创新双流DiT架构将感知规划与视频合成解耦，有效解决了数字人生成中长期存在的控制-质量两难问题，能够在单张静态参考图像中，依据文本指令生成兼具精准物体交互、自然肢体动作、高保真画质、稳定人物背景与精准唇形同步的数字人视频。项目不仅提供完整推理代码、预训练模型与便捷部署流程，还构建了GroundedInter专用评测基准，为GHOI与Talking Avatar交叉领域提供统一评测标准，在交互质量、动作自然度、唇形同步与场景一致性上显著超越现有主流方法，可广泛应用于学术研究、虚拟主播、智能教育、商业客服、AR/VR人机交互等场景，为可控、高质量、场景化数字人内容生成提供了稳定、可复现、可扩展的开源解决方案，是当前数字人与视频生成领域极具实用价值与研究意义的开源项目。

数字人视频生成开源项目 AI框架

打赏

版权及免责申明：本文由@人工智能研究所原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/interactavatar.html

THE END

人工智能研究所

发现AI神器，探索AI技术！

+ 关注

InteractAvatar：面向场景物体交互的开源 AI 说话数字人生成框架

文章目录

一、InteractAvatar 是什么

二、功能特色

1. 文本驱动场景交互（核心特色）

2. 双流架构解耦控制与画质

3. 高精度唇形同步与语音对齐

4. 人物与背景强一致性

5. 多模态灵活输入组合

6. 开源完整且可复现

7. 专用评测基准 GroundedInter

主流数字人方案核心能力对比

三、技术细节

1. 整体架构：双流解耦并行生成

2. 感知交互模块 PIM 设计

3. 音视频生成模块 AIM 设计

4. 训练策略与模型基础

5. 生成流程（推理阶段）

四、应用场景

1. 学术与算法研究

2. 虚拟主播与内容创作

3. 智能教育与虚拟讲师

4. 智能客服与商业导购

5. 人机交互与AR/VR原型

6. 影视动画与创意制作

五、使用方法

1. 环境要求

2. 环境安装步骤

3. 模型与数据准备

4. 快速推理（生成示例视频）

5. 自定义生成流程

6. 运动序列单独导出

六、常见问题解答

七、相关链接

八、总结

相关文章