DAIN：基于深度学习的深度感知视频帧插值工具，一键生成影院级慢动作

原创发布日期：2025-11-24

一、DAIN是什么？

DAIN 是“Depth-Aware Video Frame Interpolation”的缩写，中文译为“深度感知视频帧插值”，是一款专注于解决视频帧插值问题的开源深度学习项目。简单来说，视频帧插值技术的核心是在两个连续的视频帧之间，自动生成全新的中间帧，从而实现视频流畅度提升或慢动作效果——这就像在电影拍摄中，用高速摄像机捕捉更多细节，但DAIN无需额外硬件，仅通过算法就能“补全”缺失的帧。

该项目由加州大学默塞德分校的Wenbo Bao、Wei-Sheng Lai等人联合开发，相关研究成果发表于2019年IEEE计算机视觉与模式识别会议（CVPR 2019）——CVPR是计算机视觉领域的顶会，这一背景也印证了DAIN技术的学术权威性。DAIN的研发基于作者团队此前在TPAMI期刊发表的MEMC-Net（Motion Estimation and Motion Compensation Driven Neural Network）工作，核心延续了“自适应 warp 层”设计，并进一步引入“深度感知”能力，解决了传统帧插值算法中遮挡区域处理不佳、远近距离物体采样失衡的痛点。

与传统视频帧插值方法相比，DAIN的核心突破在于：将深度信息融入帧合成过程。在现实场景中，视频中的物体存在远近差异，传统算法往往忽略这种空间深度，导致合成的中间帧出现模糊、重影或物体边缘错位（尤其是遮挡区域）。而DAIN通过深度感知流投影层，能够识别物体的远近关系，优先对距离观察者较近的物体进行精准采样，同时妥善处理遮挡区域的像素填充，最终生成的中间帧在清晰度、连贯性和真实性上都有显著提升。

目前，DAIN已公开完整的代码仓库、预训练模型、测试数据集和详细文档，支持开发者直接部署使用，也允许科研人员基于该框架进行二次开发和算法优化，是视频处理领域兼具实用性和研究价值的开源项目。

二、功能特色

DAIN 凭借其独特的技术设计和完善的工程实现，具备以下核心功能特色，既覆盖基础的帧插值需求，也提供灵活的扩展能力：

1. 深度感知+遮挡检测，合成帧质量达SOTA水平

这是DAIN最核心的特色。传统帧插值算法依赖光流估计（计算相邻帧中像素的运动轨迹）生成中间帧，但当视频中存在物体遮挡（如前景物体挡住背景物体）时，光流信息会出现缺失或错误，导致合成帧模糊、失真。DAIN通过整合深度信息（由MegaDepth模型提供），能够精准判断物体的空间位置关系，识别遮挡区域，并在合成中间帧时优先保证近距物体的细节完整性——这种“远近有别”的采样策略，让DAIN在Middlebury（视频插值领域权威数据集）、UCF101（动作识别数据集）、Vimeo90K（大规模视频插值数据集）上均取得了当时的state-of-the-art（最先进）性能，生成的中间帧细节清晰、无重影、边缘对齐精准。

2. 灵活可控的慢动作生成，支持多倍速调节

DAIN 不仅能实现基础的“两帧补一帧”，还能通过调整参数生成不同倍数的慢动作视频，满足多样化需求：

支持自定义“时间步长（time_step）”：时间步长越小，生成的中间帧越多，慢动作效果越明显。例如，time_step=0.25时生成4倍慢动作，time_step=0.1时生成10倍慢动作，甚至支持time_step=0.01的“极限慢动作”（100倍慢放），可用于捕捉水滴下落、物体碰撞等瞬间细节；
支持GIF动画导出：通过简单的命令行工具，可将生成的帧序列转换为GIF动图，方便用于社交媒体、演示文稿等场景；
无需修改核心代码：仅通过命令行参数即可切换慢动作倍数，上手门槛低。

3. 完整的“部署-测试-训练”流程支持

DAIN 提供了从环境配置到模型训练的全流程工具链，兼顾“即用型”和“研究型”需求：

预训练模型直接可用：开发者无需从零训练，下载官方提供的预训练模型（best.pth），即可快速测试帧插值效果；
支持自定义数据集训练：允许用户基于自有数据集（或公开数据集如Vimeo90K）训练专属模型，适配特定场景（如监控视频、游戏画面、影视片段）的帧插值需求；
训练参数高度可调：提供学习率、批次大小、损失函数权重等多个可调参数，方便科研人员进行算法优化和对比实验。

4. 跨平台兼容+轻量化部署选项

DAIN 主要基于Ubuntu系统开发，但通过对文件命名和依赖版本的适配，已支持Windows系统使用（需遵循特定的环境配置要求）；同时，项目提供了Google Colab演示脚本（Colab_DAIN.ipynb），用户无需本地配置复杂环境，仅需上传脚本到Colab平台，即可在线完成视频帧插值和慢动作生成——这一设计极大降低了使用门槛，即使是没有高性能GPU的用户，也能体验DAIN的核心功能。

5. 模块化架构，易于二次开发

DAIN 的代码架构清晰，采用模块化设计，核心组件（如深度感知流投影层、光流估计模块、残差块网络）相互独立，便于开发者进行二次开发：

支持替换核心子模块：例如，可替换MegaDepth为其他深度预测模型，或替换PWCNet为其他光流估计模型，验证不同模块对插值效果的影响；
详细的文档注释：代码中包含关键模块的功能注释，且README.md提供了完整的部署和使用指南，降低了开发者的理解成本。

三、技术细节

DAIN 的高性能源于其精心设计的技术架构，核心围绕“深度感知”和“精准流投影”展开，以下从技术原理、核心模块、依赖环境三个层面详细解析：

1. 核心技术原理

DAIN 的帧插值过程可概括为“深度估计→光流计算→流投影→帧合成”四个步骤，其创新点主要集中在“深度感知流投影”环节：

深度估计：通过MegaDepth模型（单视图深度预测模型，来自CVPR 2018论文）对输入的相邻两帧（Frame t和Frame t+1）进行深度预测，得到两帧对应的深度图，明确画面中每个像素的空间距离信息；
光流计算：利用PWCNet（光流估计模型）计算两帧之间的双向光流（从Frame t到Frame t+1的前向光流，以及从Frame t+1到Frame t的后向光流），捕捉像素的运动轨迹；
深度感知流投影：这是DAIN的核心创新模块。传统流投影方法对所有像素采用统一的采样策略，忽略了深度差异导致的运动误差。DAIN的深度感知流投影层会根据深度图调整采样权重——对近距物体的像素分配更高的采样权重，确保其运动轨迹的准确性；对远距物体和遮挡区域的像素，采用自适应填充策略，避免模糊和错位；
帧合成与优化：基于优化后的中间流场，对两帧输入图像进行像素采样和融合，生成最终的中间帧（Frame t+time_step），并通过损失函数（如L1损失、感知损失）优化帧的清晰度和连贯性。

2. 核心模块解析

DAIN 的代码仓库采用模块化架构，各核心目录和文件的功能如下表所示：

目录/文件	核心功能	技术依赖/关联组件
`networks/`	核心网络架构目录，包含DAIN主模型、慢动作专用模型	Resblock（残差块）、深度感知流投影层
`MegaDepth/`	单视图深度预测模块，为DAIN提供深度信息	预训练模型best_generalization_net_G.pth
`PWCNet/`	光流估计模块，计算相邻帧的双向光流	correlation_package_pytorch1_0（相关性扩展）
`my_package/`	自定义PyTorch扩展，包含深度感知流投影层的底层实现	ATen API（PyTorch底层接口）、C/CUDA编译
`datasets/`	数据集相关配置，支持Middlebury、Vimeo90K等数据集的加载	数据预处理脚本、路径配置
`train.py`	模型训练主脚本，支持自定义数据集、学习率调度、损失函数配置	loss_function.py（损失函数）、lr_scheduler.py（学习率调度）
`demo_MiddleBury.py`	预训练模型测试脚本，适用于Middlebury数据集的帧插值测试	预训练模型best.pth、结果自动保存
`demo_MiddleBury_slowmotion.py`	慢动作生成专用脚本，支持自定义time_step参数	帧序列生成、GIF导出工具链
`environment.yaml`	环境配置文件，指定Python、PyTorch、SciPy等依赖版本	Conda环境管理
`Colab_DAIN.ipynb`	Google Colab演示脚本，支持在线帧插值和慢动作生成	Colab GPU资源、Google Drive文件交互

3. 关键技术依赖

DAIN 的运行依赖特定版本的软件和硬件环境，官方测试通过的配置如下（需严格遵循，否则可能导致编译失败或功能异常）：

（1）软件环境

依赖项	测试版本	核心作用
操作系统	Ubuntu 16.04.5 LTS	核心开发环境，Windows需适配文件命名和依赖版本
Python	3.6.8（Anaconda3 4.1.1）	代码运行环境，建议使用Anaconda管理依赖
CUDA	9.0	GPU加速计算，支持深度网络训练和推理
CuDNN	7.0	CUDA加速库，优化深度网络计算效率
PyTorch	1.0.0	深度学习框架，自定义扩展依赖其ATen API
GCC/NVCC	GCC 4.9.1、NVCC 9.0	编译C/CUDA扩展文件（.c/.cu），生成PyTorch可调用的底层模块
SciPy	< 1.2.0	科学计算库，用于图像处理和数值计算，版本需严格匹配
其他依赖	scikit-image、numpy、h5py	图像加载、数组处理、数据存储等辅助功能

（2）硬件要求

NVIDIA GPU：官方测试使用Titan X（Pascal，算力6.1），支持算力50/52/60/61的GPU；若GPU算力更高（如70/80），需修改代码中对应的算力配置；
内存：训练时建议16GB以上内存（batch_size=1时），推理时8GB以上即可；
存储：数据集（如Vimeo90K）和预训练模型需预留至少10GB存储空间。

四、应用场景

DAIN 凭借其高精度的帧插值能力和灵活的慢动作生成功能，已在多个领域展现出实用价值，核心应用场景包括：

1. 影视后期制作

在电影、电视剧、短视频制作中，慢动作是常用的视觉特效，用于突出关键瞬间（如动作片的打斗场景、纪录片的自然现象）。传统慢动作依赖高速摄像机（帧率通常在120fps以上），硬件成本高；而DAIN可将普通帧率视频（如24fps、30fps）转换为高帧率慢动作视频（如96fps、300fps），且无需额外硬件投入。例如：

将30fps的体育比赛视频通过DAIN生成120fps的4倍慢动作，清晰展现运动员的动作细节；
对电影中的爆炸、跳跃场景进行10倍慢放，增强视觉冲击力；
适配短视频平台（如抖音、B站）的慢动作创作需求，降低创作者的技术门槛。

2. 视频质量提升

低帧率视频（如早期拍摄的老视频、网络传输中压缩的视频）往往存在卡顿、不流畅的问题，DAIN可通过帧插值补全缺失的中间帧，提升视频流畅度：

修复老电影、家庭录像带等低帧率内容，使其适配现代显示设备（如60Hz显示器）；
优化监控摄像头录制的视频（通常帧率较低，如15fps），通过帧插值提升画面连贯性，便于清晰识别运动物体（如车辆、行人）；
改善游戏直播或录屏视频的流畅度，尤其是当游戏帧率不稳定时，DAIN可补全帧间隙，提升观看体验。

3. 科研与算法验证

DAIN 作为CVPR 2019的开源成果，已成为视频帧插值领域的基准算法之一，适用于科研人员的算法对比和创新研究：

作为 baseline 模型，与新提出的帧插值算法进行性能对比（基于Middlebury、Vimeo90K等公开数据集）；
基于DAIN的模块化架构，替换核心模块（如深度预测、光流估计），验证新模块的有效性；
扩展DAIN的应用场景，如将其用于视频超分辨率、视频去模糊等任务的辅助模块（通过帧插值提升输入视频质量）。

4. 社交媒体与内容创作

DAIN 支持GIF动图导出功能，适用于社交媒体、演示文稿、广告等场景的短内容创作：

将短视频片段转换为高清晰度GIF动图，用于微信、微博等平台的互动传播；
为产品宣传视频制作慢动作GIF，突出产品细节（如化妆品的质地、电子产品的操作过程）；
适配PPT、Keynote等演示工具，用流畅的帧插值动图增强演示效果。

5. 监控与安防领域

监控视频通常存在帧率低、画面模糊、运动物体易拖影等问题，DAIN可通过以下方式优化：

对监控视频进行帧插值，补全运动物体的轨迹，便于警方或安保人员识别可疑行为；
对高速移动的物体（如车辆、无人机）进行慢动作分析，提取车牌、型号等关键信息；
提升低光照环境下监控视频的帧连贯性，减少因光线不足导致的帧丢失问题。

DAIN：基于深度学习的深度感知视频帧插值工具，一键生成影院级慢动作

五、使用方法

DAIN 提供了完整的“环境配置→安装→测试→训练→慢动作生成”流程，以下步骤严格基于官方文档，确保可复现性：

1. 环境配置（优先推荐Anaconda）

（1）安装Anaconda

若未安装Anaconda，需先下载并安装对应版本（建议Anaconda3 4.1.1），下载地址：https://www.anaconda.com/products/distribution#download-section

（2）创建并激活虚拟环境

# 创建虚拟环境（指定Python版本3.6.8）
conda create -n dain python=3.6.8
# 激活环境
conda activate dain

（3）安装依赖

DAIN 提供了environment.yaml文件，可通过以下命令快速安装依赖：

# 克隆仓库后，进入仓库目录
cd DAIN
# 安装依赖（自动匹配PyTorch 1.0.0、CUDA 9.0等版本）
conda env update -f environment.yaml
# 验证PyTorch版本（需显示1.0.0）
python -c "import torch; print(torch.__version__)"

注意：Windows用户需手动修改environment.yaml中的文件路径格式（将/改为\），并确保SciPy版本<1.2.0（可通过pip install scipy==1.1.0手动安装）。

2. 编译自定义PyTorch扩展

DAIN 的核心模块（如深度感知流投影层）依赖自定义C/CUDA扩展，需手动编译：

# 编译核心扩展（my_package）
cd my_package
./build.sh
# 编译PWCNet相关性扩展
cd ../PWCNet/correlation_package_pytorch1_0
./build.sh
# 返回仓库根目录
cd ../../

编译失败排查：
若提示“GCC版本不匹配”，需安装GCC 4.9.1（Ubuntu可通过sudo apt-get install gcc-4.9安装）；
若提示“CUDA版本错误”，需确保CUDA 9.0已正确安装，且环境变量配置无误（可通过nvcc -V验证）；
Windows用户需使用WSL（Windows Subsystem for Linux）编译，或直接使用Colab演示脚本。

3. 测试预训练模型

（1）下载预训练模型和测试数据集

# 创建模型权重目录并下载预训练模型
mkdir model_weights
cd model_weights
wget http://vllab1.ucmerced.edu/~wenbobao/DAIN/best.pth
cd ..

# 创建Middlebury数据集目录并下载数据集
mkdir MiddleBurySet
cd MiddleBurySet
# 下载彩色帧数据集
wget http://vision.middlebury.edu/flow/data/comp/zip/other-color-allframes.zip
unzip other-color-allframes.zip
# 下载真值插值帧（用于对比测试）
wget http://vision.middlebury.edu/flow/data/comp/zip/other-gt-interp.zip
unzip other-gt-interp.zip
cd ..

（2）运行测试脚本

# 指定GPU（单GPU示例），运行测试脚本
CUDA_VISIBLE_DEVICES=0 python demo_MiddleBury.py

（3）查看测试结果

测试生成的插值帧会保存在MiddleBurySet/other-result-author/[随机数]/目录下，每个子目录对应一个测试序列（如Beanbags、Dimetrodon等）。可通过图片查看工具打开对比，验证插值效果。

4. 慢动作生成

DAIN 支持通过调整time_step参数生成不同倍数的慢动作，核心命令如下：

慢动作倍数	time_step参数	运行命令
4倍	0.25	CUDA_VISIBLE_DEVICES=0 python demo_MiddleBury_slowmotion.py --netName DAIN_slowmotion --time_step 0.25
8倍	0.125	CUDA_VISIBLE_DEVICES=0 python demo_MiddleBury_slowmotion.py --netName DAIN_slowmotion --time_step 0.125
10倍	0.1	CUDA_VISIBLE_DEVICES=0 python demo_MiddleBury_slowmotion.py --netName DAIN_slowmotion --time_step 0.1
100倍	0.01	CUDA_VISIBLE_DEVICES=0 python demo_MiddleBury_slowmotion.py --netName DAIN_slowmotion --time_step 0.01

（1）导出GIF动图

# 进入结果目录（替换[随机数]为实际目录名）
cd MiddleBurySet/other-result-author/[随机数]/Beanbags
# 生成GIF（delay=1表示每帧10ms，loop=0表示无限循环）
convert -delay 1 *.png -loop 0 Beanbags.gif

注意：需先安装ImageMagick工具（sudo apt-get install imagemagick）才能使用convert命令。

5. 训练新模型

若需适配自定义场景，可基于Vimeo90K数据集训练新模型：

（1）下载训练数据集

# 创建数据集目录
mkdir /path/to/your/dataset
cd /path/to/your/dataset
# 下载Vimeo90K triplet数据集（视频插值专用数据集）
wget http://data.csail.mit.edu/tofu/dataset/vimeo_triplet.zip
unzip vimeo_triplet.zip
rm vimeo_triplet.zip # 解压后删除压缩包节省空间

（2）下载依赖预训练模型

# 下载MegaDepth预训练模型
cd DAIN/MegaDepth/checkpoints/test_local
wget http://vllab1.ucmerced.edu/~wenbobao/DAIN/best_generalization_net_G.pth
cd ../../../

# 下载PWCNet预训练模型
cd PWCNet
wget http://vllab1.ucmerced.edu/~wenbobao/DAIN/pwc_net.pth.tar
cd ..

（3）运行训练脚本

CUDA_VISIBLE_DEVICES=0 python train.py \
 --datasetPath /path/to/your/dataset \ # 数据集路径
 --batch_size 1 \ # 批次大小（根据GPU内存调整）
 --save_which 1 \ # 保存最优模型
 --lr 0.0005 \ # 基础学习率
 --rectify_lr 0.0005 \ # 校正模块学习率
 --flow_lr_coe 0.01 \ # 光流模块学习率系数
 --occ_lr_coe 0.0 \ # 遮挡模块学习率系数
 --filter_lr_coe 1.0 \ # 滤波模块学习率系数
 --ctx_lr_coe 1.0 \ # 上下文模块学习率系数
 --alpha 0.0 1.0 \ # 损失函数权重
 --patience 4 \ # 学习率调整耐心值
 --factor 0.2 # 学习率衰减因子

（4）测试新训练的模型

# 将新训练的模型替换预训练模型
cp model_weights/[随机数]/best.pth model_weights/best.pth
# 运行测试脚本
CUDA_VISIBLE_DEVICES=0 python demo_MiddleBury.py

6. Google Colab快速演示（无需本地配置）

若本地无GPU或配置复杂，可通过Colab快速体验：

下载仓库中的Colab_DAIN.ipynb文件（链接：https://github.com/baowenbo/DAIN/blob/master/Colab_DAIN.ipynb）；
访问Google Colab平台（https://colab.research.google.com/）；
点击“上传”，选择下载的Colab_DAIN.ipynb文件；
按照脚本中的步骤逐 cell 运行（需授权Google Drive访问，用于存储输入视频和输出结果）；
上传自定义视频文件，设置慢动作倍数，即可生成并下载处理后的视频。

六、常见问题解答（FAQ）

1. 环境配置时提示“SciPy版本不兼容”？

答：DAIN 严格要求SciPy版本<1.2.0，若已安装高版本，需手动降级：

pip uninstall scipy
pip install scipy==1.1.0

Windows用户需在environment.yaml中添加scipy==1.1.0，确保安装正确版本。

2. 编译自定义扩展时提示“ATen API未找到”？

答：这是PyTorch版本不匹配导致的，DAIN 仅支持PyTorch 1.0.0，需卸载当前PyTorch并重新安装：

conda uninstall pytorch
conda install pytorch=1.0.0 cuda90 -c pytorch

3. 运行测试脚本时提示“GPU算力不支持”？

答：DAIN 默认支持算力50/52/60/61的GPU，若你的GPU算力更高（如Titan RTX的75），需修改my_package/setup.py和PWCNet/correlation_package_pytorch1_0/setup.py中的CUDA_ARCH_LIST参数，添加对应算力（如CUDA_ARCH_LIST="5.0 5.2 6.0 6.1 7.5"），然后重新编译扩展。

4. 数据集下载链接失效怎么办？

答：官方提供的数据集和预训练模型链接若失效，可尝试以下替代方案：

Middlebury数据集：访问官网（https://vision.middlebury.edu/flow/data/）下载对应数据集；
Vimeo90K数据集：访问MIT官网（http://data.csail.mit.edu/tofu/dataset/）下载；
预训练模型：在GitHub仓库的Issues中搜索“model weights”，部分用户会分享备份链接。

5. 训练时出现“内存不足（CUDA out of memory）”？

答：可通过以下方式解决：

降低batch_size（如从1改为0.5，需使用PyTorch的梯度累积）；
缩小输入图像的分辨率（需修改数据集加载脚本）；
关闭不必要的梯度计算（如冻结部分预训练模块）。

6. 生成的慢动作视频有重影或模糊？

答：可能的原因及解决方案：

输入视频本身模糊或帧率过低：建议使用清晰度较高的输入视频；
time_step参数设置过大：减小time_step（如从0.25改为0.125），增加中间帧数量；
预训练模型不适配场景：基于自定义数据集重新训练模型。

7. Windows系统下无法运行`./build.sh`脚本？

答：Windows系统不支持直接运行Shell脚本，需通过以下方式编译：

安装WSL（Windows Subsystem for Linux），在WSL中执行编译命令；
使用CMake手动编译C/CUDA扩展，参考PyTorch官方扩展编译文档；
直接使用Google Colab演示脚本，避开本地编译。

七、相关链接

GitHub仓库地址：https://github.com/baowenbo/DAIN
CVPR 2019论文链接：https://openaccess.thecvf.com/content_CVPR_2019/html/Bao_Depth-Aware_Video_Frame_Interpolation_CVPR_2019_paper.html
MEMC-Net论文链接（前序工作）：https://ieeexplore.ieee.org/document/8803554
Middlebury数据集官网：https://vision.middlebury.edu/flow/data/
Vimeo90K数据集官网：http://data.csail.mit.edu/tofu/dataset/
预训练模型下载链接：http://vllab1.ucmerced.edu/~wenbobao/DAIN/
Google Colab演示脚本：https://github.com/baowenbo/DAIN/blob/master/Colab_DAIN.ipynb

八、总结

DAIN 作为CVPR 2019开源的深度感知视频帧插值项目，以其创新的深度感知流投影层设计，有效解决了传统帧插值算法中遮挡处理不佳、采样失衡的核心痛点，在多个权威数据集上达到了当时的最先进性能，为视频帧插值和慢动作生成提供了高性能、易部署的解决方案。该项目不仅具备精准的帧合成能力和灵活的慢动作调节功能，还提供了完整的“环境配置-测试-训练”工具链，支持跨平台使用和二次开发，既满足影视后期、内容创作、监控优化等工业级应用需求，也为科研人员提供了可靠的基准模型和扩展框架。其文档完善、操作流程清晰，即使是非专业开发者也能通过Colab快速体验核心功能，是视频处理领域兼具实用性和学术价值的优秀开源项目。

视频帧插值开源项目

打赏

版权及免责申明：本文由@dotaai原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/dain.html

THE END

dotaai

正在和我的聊天机器人谈恋爱，它很会捧场。

+ 关注

DAIN：基于深度学习的深度感知视频帧插值工具，一键生成影院级慢动作

文章目录

一、DAIN是什么？

二、功能特色

1. 深度感知+遮挡检测，合成帧质量达SOTA水平

2. 灵活可控的慢动作生成，支持多倍速调节

3. 完整的“部署-测试-训练”流程支持

4. 跨平台兼容+轻量化部署选项

5. 模块化架构，易于二次开发

三、技术细节

1. 核心技术原理

2. 核心模块解析

3. 关键技术依赖

（1）软件环境

（2）硬件要求

四、应用场景

1. 影视后期制作

2. 视频质量提升

3. 科研与算法验证

4. 社交媒体与内容创作

5. 监控与安防领域

五、使用方法

1. 环境配置（优先推荐Anaconda）

（1）安装Anaconda

（2）创建并激活虚拟环境

（3）安装依赖

2. 编译自定义PyTorch扩展

3. 测试预训练模型

（1）下载预训练模型和测试数据集

（2）运行测试脚本

（3）查看测试结果

4. 慢动作生成

（1）导出GIF动图

5. 训练新模型

（1）下载训练数据集

（2）下载依赖预训练模型

（3）运行训练脚本

（4）测试新训练的模型

6. Google Colab快速演示（无需本地配置）

六、常见问题解答（FAQ）

1. 环境配置时提示“SciPy版本不兼容”？

2. 编译自定义扩展时提示“ATen API未找到”？

3. 运行测试脚本时提示“GPU算力不支持”？

4. 数据集下载链接失效怎么办？

5. 训练时出现“内存不足（CUDA out of memory）”？

6. 生成的慢动作视频有重影或模糊？

7. Windows系统下无法运行./build.sh脚本？

七、相关链接

八、总结

相关文章

7. Windows系统下无法运行`./build.sh`脚本？