Wan-Move:阿里通义实验室推出的开源运动可控视频生成框架

原创 发布日期:
96

一、Wan-Move是什么

Wan-Move是由阿里通义实验室、清华大学、香港大学及香港中文大学等联合开源的运动可控视频生成框架,是人工智能领域顶会NeurIPS 2025的收录研究成果,核心定位是解决传统图像到视频(Image-to-Video, I2V)生成任务中“运动控制精度低、可控性弱、模型改造成本高”的行业痛点。

在传统的AI视频生成流程中,用户通常只能依靠文本指令或粗略参数调整来控制视频运动方向,难以对画面中特定物体、局部区域实现精准的运动路径规划。而Wan-Move创新性地提出潜在轨迹引导技术,通过在输入图像的特征空间中定义密集控制点轨迹,并将轨迹特征沿时间维度传播,最终实现对视频中每一个元素运动状态的精细化操控。

该项目基于Python语言开发,采用Apache 2.0开源许可证,完全支持商业场景使用,同时配套自研的MoveBench基准测试集,为运动可控视频生成领域提供了标准化的技术评估工具。目前,Wan-Move已实现5秒时长、480p分辨率的高质量视频生成能力,运动控制精度达到商业级应用标准,可广泛服务于短视频创作、影视后期制作、数字内容生产等多个领域。

二、功能特色

Wan-Move的核心竞争力在于“高精度可控性”与“低门槛适配性”,同时配备完善的测试与可视化工具,具体功能特色如下:

1. 细粒度点级运动控制,精准掌控每一处动态

Wan-Move采用密集点轨迹表示法,赋予用户极高的创作自由度。创作者可在输入静态图像上标记任意数量的控制点,为每个控制点设定精准的运动轨迹,包括平移、旋转、缩放、曲线运动等多种动态效果。框架会将这些像素空间的轨迹,转化为特征空间的引导信号,驱动视频生成过程严格遵循预设轨迹。

相较于传统“文本+图像”双模态控制方式,点级控制能够实现更细腻的创意表达。例如:让插画中的卡通人物眼睛匀速转动、让静物摄影中的花朵缓慢绽放、让产品图片中的机械零件模拟运转过程,甚至可以实现多物体协同运动——如让飞鸟沿预设曲线轨迹飞行,同时让地面的汽车直线移动,两者运动状态互不干扰。

2. 插件式设计,无需修改现有I2V模型架构

这是Wan-Move的核心创新亮点,也是其区别于其他运动可控视频生成方案的关键优势。传统的运动控制技术,往往需要对基础I2V模型进行大规模架构改造或重新训练,不仅耗时耗力,还难以适配不同厂商的预训练模型。

Wan-Move采用**“即插即用”的插件式设计**,其核心的轨迹引导模块可作为独立组件,无缝接入任意预训练I2V模型,无需改动模型核心结构,也无需额外的微调训练。用户仅需将基础模型输出的帧特征,与Wan-Move生成的轨迹引导特征进行融合,即可快速将普通视频生成模型升级为“运动可控版本”。这一特性大幅降低了技术落地门槛,让中小开发者与研究团队也能轻松拥有高精度运动控制能力。

3. 高质量视频输出,兼顾流畅度与画质

在运动控制精度之外,Wan-Move同样重视视频生成的质量表现。框架支持生成5秒时长、480p分辨率的视频内容,帧间过渡流畅自然,无明显卡顿、抖动或重影问题。针对传统生成模型常见的“伪影”“模糊”等缺陷,Wan-Move通过优化特征融合算法与后处理流程,有效提升画面清晰度与细节还原度。

同时,该框架对输入图像的兼容性极强,支持风景、人物、动物、静物、产品等多种内容类型的视频生成,能够满足不同场景下的创作需求,生成效果可直接用于短视频平台发布、广告素材制作等实际应用。

4. 配套MoveBench基准测试集,标准化评估模型性能

为解决运动可控视频生成领域**“评估标准不统一、效果难以量化”** 的行业难题,Wan-Move团队同步研发了MoveBench基准测试集。该测试集具有三大核心特点:

  • 大规模标注数据:包含数千张多样化输入图像,及对应的标准化运动轨迹标注,覆盖平移、旋转、缩放等多种运动类型;

  • 多维度评估指标:提供运动误差(ME)帧间一致性(IC)画质得分(QS) 三大核心量化指标,客观衡量模型的运动控制精度、视频流畅度与画面质量;

  • 开源可扩展:支持用户自定义添加新的测试样本与标注数据,不断丰富测试集的覆盖范围,推动行业技术标准的完善。

5. 便捷可视化工具,助力调试与效果优化

仓库内置scripts/visualize.py可视化脚本,为用户提供直观的效果调试工具。通过该脚本,用户可清晰查看控制点轨迹分布特征空间传播过程帧间运动变化对比等关键信息,快速定位轨迹设置不合理、特征融合权重不当等问题,大幅降低参数调优的难度,提升创作效率。

Wan-Move:阿里通义实验室推出的开源运动可控视频生成框架

三、技术细节

Wan-Move的核心技术是潜在轨迹引导机制,整个框架的工作流程可拆解为“特征提取-轨迹定义-特征传播-视频生成”四个核心阶段,同时配套高效的模型融合策略与评估体系。

1. 整体架构:三大模块协同工作

Wan-Move的系统架构由三个核心模块组成,各模块分工明确、协同高效:

  1. 特征提取模块:采用预训练的图像编码器(如CLIP、ViT等),将输入静态图像转化为高维语义特征,为后续轨迹引导提供基础特征支撑;

  2. 轨迹引导模块:这是框架的核心模块,负责将用户定义的像素空间轨迹,通过特征映射函数转换为潜在特征空间的轨迹引导信号,并利用时空注意力机制,将第一帧的轨迹特征沿时间维度传播至后续所有帧,确保运动轨迹的连续性与流畅性;

  3. 特征融合与生成模块:通过动态权重融合策略,将轨迹引导特征与基础I2V模型输出的帧特征进行融合,再送入视频解码器生成最终的视频序列。动态权重因子会根据帧间运动强度自适应调整——运动幅度大的帧,轨迹特征权重更高;运动幅度小的帧,以基础模型特征为主,兼顾运动控制精度与视频画质。

2. 核心技术:潜在轨迹引导的原理优势

传统运动控制方案通常直接在像素空间定义轨迹,易受图像噪声、光照变化等因素干扰,导致运动精度下降。而Wan-Move选择在潜在特征空间实现轨迹引导,核心优势体现在三方面:

  • 稳定性更强:潜在特征空间是图像的高维抽象表示,包含更丰富的语义与结构信息,不易受像素级噪声影响,轨迹引导信号更稳定;

  • 兼容性更好:特征空间的轨迹引导信号可与任意I2V模型的特征输出兼容,无需针对不同模型调整轨迹定义方式;

  • 控制精度更高:通过时空注意力机制的特征传播,能够精准捕捉帧间运动依赖关系,实现亚像素级的运动控制效果。

3. 技术优势对比:碾压传统方案的核心竞争力

为直观体现Wan-Move的技术价值,我们将其与传统运动可控视频生成方案进行多维度对比:

对比维度 Wan-Move 传统方案
模型改造成本 插件式接入,无需修改基础I2V模型架构 需大规模改造模型或重新训练,成本高
运动控制精度 细粒度点级控制,亚像素级运动精度 文本/参数粗略控制,精度低、易偏离预期
评估体系 配套MoveBench基准测试集,标准化量化评估 缺乏统一标准,依赖主观视觉判断
视频生成质量 5秒/480p,画面流畅、伪影少 时长短、易卡顿,帧间一致性差
商业使用权限 Apache 2.0许可证,支持商业场景 多为学术许可证,商业使用受限

4. MoveBench测试集:标准化评估的核心支撑

MoveBench基准测试集是Wan-Move技术生态的重要组成部分,其技术亮点包括:

  • 专业标注流程:所有运动轨迹均由计算机视觉领域专业人员手动标注,并通过算法校验确保轨迹坐标的准确性;

  • 多场景覆盖:测试集涵盖自然风景、人造物体、生物动态等多个类别,支持平移、旋转、缩放、复杂曲线运动等多种运动类型的评估;

  • 量化评估指标:运动误差(ME)衡量实际运动轨迹与预设轨迹的偏差,帧间一致性(IC)衡量视频流畅度,画质得分(QS)基于客观画质评价算法(如NIQE)计算,三大指标全面覆盖技术评估需求。

四、应用场景

Wan-Move凭借高精度运动控制能力低门槛适配特性,可广泛应用于数字内容创作、影视工业、广告营销、教育培训等多个领域,具体应用场景如下:

1. 短视频与自媒体内容创作:零门槛实现创意动态效果

在抖音、快手、小红书等短视频平台,动态内容的吸引力远超静态图文。Wan-Move可帮助自媒体创作者、内容博主零门槛实现创意动态效果:无需专业动画制作技能,仅需上传静态图片,标记控制点并定义运动轨迹,即可快速生成吸睛的动态视频。

例如:美妆博主可让口红自动旋转展示膏体颜色,美食博主可让食材模拟翻炒过程,插画师可让笔下的角色“活”起来。这一过程大幅缩短了内容创作周期,提升了内容传播效率。

2. 影视后期与动画制作:降本增效的辅助工具

在传统影视后期与动画制作流程中,制作物体运动轨迹动画需要专业人员使用After Effects、Maya等软件逐帧调整,耗时耗力。Wan-Move可作为高效辅助工具,帮助后期团队快速生成初步动画效果:

例如,在制作科幻电影的飞行器轨迹动画时,导演可在静态场景图上标记飞行器的运动路径,Wan-Move能快速生成动态预览视频,供团队参考优化;在二维动画制作中,可利用Wan-Move实现云朵飘动、树叶摇晃等背景动态效果,减少手动绘制工作量,降低制作成本。

3. 产品展示与广告营销:提升商品吸引力的利器

在电商平台与广告营销领域,动态产品展示比静态图片更能吸引消费者注意力。Wan-Move可帮助品牌方快速制作高质量产品动态展示视频

  • 电子产品:展示手机屏幕滑动、相机镜头伸缩、耳机开盖等动态效果;

  • 服装服饰:模拟衣物随风飘动的质感,展示模特转身、衣物褶皱变化;

  • 食品饮料:展示食材混合、饮料倒入杯子的过程,增强视觉吸引力。

这些动态视频可直接用于电商详情页、社交媒体广告、直播带货等场景,有效提升商品转化率。

4. 教育培训内容制作:直观展示知识原理

在教育领域,动态可视化内容能帮助学生更轻松地理解复杂知识原理。Wan-Move可帮助教师快速制作教学动画

  • 物理教学:展示平抛运动、圆周运动、机械振动的轨迹变化;

  • 生物教学:模拟细胞分裂、血液流动、植物生长的动态过程;

  • 地理教学:演示地球自转公转、板块运动、大气环流的规律。

教师无需掌握专业动画制作技术,仅需根据知识点定义运动轨迹,即可生成直观的教学视频,提升课堂教学效率。

5. 学术研究与模型优化:开源的技术研究平台

对于从事计算机视觉、生成式AI领域的研究人员,Wan-Move提供了一个开源、灵活的技术研究平台。研究人员可基于该框架,探索更先进的轨迹引导算法、优化特征融合策略,或将其与扩散模型、大语言模型结合,开发出更强大的运动可控视频生成模型。同时,MoveBench基准测试集为研究成果的量化评估提供了标准化工具,推动领域技术创新。

Wan-Move:阿里通义实验室推出的开源运动可控视频生成框架

五、使用方法

Wan-Move的使用流程简洁清晰,分为环境搭建、模型权重下载、运行生成脚本、可视化调试四个核心步骤,以下是详细操作指南:

1. 环境搭建:配置Python运行环境

Wan-Move基于Python 3.8+开发,建议使用Anaconda创建独立虚拟环境,避免依赖冲突,具体步骤如下:

步骤1:克隆GitHub仓库

打开终端,执行以下命令将仓库克隆到本地:

git clone https://github.com/ali-vilab/Wan-Move.git
cd Wan-Move

步骤2:创建并激活虚拟环境

conda create -n wan-move python=3.9
conda activate wan-move

步骤3:安装依赖库

仓库提供requirements.txt文件,包含所有必要依赖,执行以下命令一键安装:

pip install -r requirements.txt

注意:确保PyTorch版本≥1.12.0,Transformers版本≥4.28.0,以保证框架正常运行。

2. 模型权重下载:获取预训练模型

Wan-Move需要加载预训练模型权重才能运行,支持从HuggingFace和ModelScope两个平台下载,用户可任选其一:

方式1:从HuggingFace下载

huggingface-cli download Ruihang/Wan-Move-14B-480P --local-dir ./Wan-Move-14B-480P

方式2:从ModelScope下载

modelscope download churuihang/Wan-Move-14B-480P --local_dir ./Wan-Move-14B-480P

下载完成后,模型权重会保存在./Wan-Move-14B-480P目录下。

3. 运行生成脚本:生成运动可控视频

仓库提供generate.py脚本,用于快速生成视频,具体操作步骤如下:

步骤1:准备输入图像

将需要生成视频的静态图像(如example.jpg)放入examples/images/目录下。

步骤2:配置轨迹参数

打开generate.py脚本,找到trajectory_config参数区域,设置控制点坐标与运动轨迹:

trajectory_config = {
  "points": [[100, 200], [300, 400]], # 控制点像素坐标
  "trajectories": [
    [[100, 200], [150, 200], [200, 200]], # 控制点1的3帧运动轨迹
    [[300, 400], [300, 350], [300, 300]]  # 控制点2的3帧运动轨迹
  ],
  "duration": 5 # 视频时长(秒)
}

步骤3:执行生成命令

在终端执行以下命令,生成视频:

python generate.py --image_path examples/images/example.jpg --model_dir ./Wan-Move-14B-480P --output_dir examples/outputs

生成的视频会自动保存到examples/outputs/目录下。

4. 可视化调试:优化运动效果

使用scripts/visualize.py脚本,可可视化轨迹分布与特征传播过程,快速优化效果:

python scripts/visualize.py --video_path examples/outputs/example_video.mp4 --trajectory_config trajectory_config.json

可视化结果(轨迹分布图、帧间特征对比图)会保存在examples/visualizations/目录下。

六、常见问题解答

Q1:运行生成脚本时,提示“模型权重加载失败”怎么办?

A1:该问题通常由三种原因导致,可按以下步骤排查:

  1. 权重下载不完整:删除./Wan-Move-14B-480P目录,重新执行下载命令;

  2. 路径配置错误:检查--model_dir参数是否正确指向模型权重目录;

  3. 依赖版本不兼容:升级PyTorch到1.12.0以上版本,Transformers到4.28.0以上版本。

Q2:生成的视频运动轨迹与预期不符,精度较低如何优化?

A2:可通过三种方式提升运动控制精度:

  1. 增加控制点数量:在运动物体的边缘、中心等关键位置标记更多控制点,强化轨迹引导信号;

  2. 优化轨迹参数:确保轨迹坐标序列平滑过渡,避免出现突变;

  3. 调整融合权重:在generate.py中增大fusion_weight参数(建议范围0.5-0.8),提升轨迹特征的引导权重。

Q3:生成的视频存在伪影或模糊问题,如何改善画质?

A3:可通过以下方法优化视频画质:

  1. 降低运动幅度:运动幅度过大易导致帧间模糊,适当减小控制点的位移距离;

  2. 启用后处理功能:在generate.py中设置post_process=True,框架会自动执行去模糊、降噪处理;

  3. 提升输入图像质量:使用分辨率≥720p、清晰度高的输入图像,可显著提升生成视频的细节表现。

Q4:能否将Wan-Move与自定义的I2V模型结合使用?

A4:可以。Wan-Move的插件式设计支持与任意自定义I2V模型适配,具体步骤如下:

  1. 提取自定义模型的帧特征,确保特征维度与Wan-Move轨迹特征兼容;

  2. 修改fusion_module.py中的特征融合函数,适配自定义模型的特征格式;

  3. 运行生成脚本时,指定自定义模型的路径即可。

Q5:Wan-Move支持生成720p、1080p等高分辨率视频吗?

A5:目前框架默认支持480p分辨率,如需生成更高分辨率视频,可修改generate.py中的resolution参数,但需注意两点:

  1. 硬件要求提升:生成720p视频建议使用显存≥16GB的GPU,1080p视频建议显存≥24GB;

  2. 生成时间延长:高分辨率视频会增加计算量,建议适当降低批量处理大小。

七、相关链接

  1. 项目GitHub仓库https://github.com/ali-vilab/Wan-Move

  2. HuggingFace模型权重地址https://huggingface.co/Ruihang/Wan-Move-14B-480P

  3. ModelScope模型权重地址https://www.modelscope.cn/models/churuihang/Wan-Move-14B-480P

八、总结

Wan-Move是阿里通义实验室、清华大学、香港大学及香港中文大学等联合开源的一款基于潜在轨迹引导的运动可控视频生成框架,作为NeurIPS 2025收录的研究成果,其核心创新在于通过潜在特征空间的轨迹引导实现细粒度点级运动控制,且采用插件式设计无需修改现有图像到视频模型架构,大幅降低了技术落地门槛;该框架支持生成5秒时长、480p分辨率的高质量视频,配套的MoveBench基准测试集为标准化评估提供了工具,同时具备便捷的可视化功能,可广泛应用于短视频创作、影视后期、产品展示、教育培训等多个领域;此外,Wan-Move基于Apache 2.0许可证开源,支持商业使用,为开发者和研究人员提供了强大且灵活的运动可控视频生成工具,推动了图像到视频生成技术向更高精度、更强可控性的方向发展。

打赏
THE END
作者头像
AI铺子
关注ai行业发展,专注ai工具推荐