SkyReels-V3:昆仑天工开源的全能多模态视频生成模型,覆盖图生视频、音生视频与视频扩展

原创 发布日期:
77

一、SkyReels V3是什么

SkyReels V3昆仑万维旗下Skywork AI团队自主研发的第三代旗舰多模态视频生成模型,基于统一多模态上下文学习框架与扩散Transformer架构打造,原生集成参考图像生成视频、音频引导数字人说话、视频到视频扩展三大核心能力,在参考一致性、视觉质量、音视频同步等核心评测指标达到行业SOTA水准,支持720P高清、多画幅比例、多人交互、电影级镜头转场与分钟级长视频生成。

该项目定位为一站式多模态视频生成解决方案,打破传统视频生成模型单任务、弱兼容的局限,在单一架构体系内原生支持三大核心生成范式,分别是多参考图像生成视频、音频驱动数字人说话、视频时序扩展,实现图像、音频、视频、文本多模态信号的统一编码与协同生成,无需切换模型即可完成全流程视频创作。

作为SkyReels系列的迭代升级版本,V3在V1以人为中心视频生成、V2 720P无限长度自回归生成的基础上,完成架构重构与能力整合,通过图像-视频混合训练、多分辨率联合优化、时空一致性建模、音视频精准对齐等核心技术优化,在参考主体保真、运动连贯性、叙事逻辑、画面质感等维度全面提升,核心指标超越多款主流商用闭源模型,同时保持开源项目的可部署、可定制、可二次开发特性,面向个人创作者、企业研发团队、科研机构提供无门槛的高性能视频生成能力。

从项目属性来看,SkyReels V3属于完全开源的商用友好型AI模型项目,代码托管于GitHub平台,模型权重同步发布在Hugging Face与ModelScope两大主流模型社区,支持本地私有化部署、云端容器化部署、API服务封装,同时配套在线演示空间与开放API平台,兼顾科研实验、个人创作、企业级工业化生产全场景需求,是当前开源AI视频领域覆盖能力最完整、落地性最强的标杆项目之一。

SkyReels-V3:昆仑天工开源的全能多模态视频生成模型,覆盖图生视频、音生视频与视频扩展

二、功能特色

SkyReels V3的核心特色围绕多模态统一生成、高保真效果、专业级可控性、全场景适配四大维度展开,三大核心功能模块均具备行业顶尖的效果与实用性,具体功能细节如下:

(一)多参考图像生成视频(Reference to Video)

这是SkyReels V3的基础核心功能,也是项目最具竞争力的能力之一,支持输入1-4张任意类型参考图像,结合文本提示词生成时序连贯、主体高度保真的视频序列。

  1. 参考素材兼容:支持人物肖像、动物、静物、场景背景等全部视觉元素,单任务可同时融合人物、物体、环境多张参考图,无需手动构图即可生成复杂多主体场景。

  2. 主体一致性保障:参考一致性指标达0.6698,为行业顶尖水平,人物面部、服饰纹理、物体形态、场景结构在视频全程无畸变、无漂移,彻底解决传统图生视频的“粘贴感”与身份失真问题。

  3. 画幅与规格灵活:原生支持1:1、3:4、4:3、16:9、9:16全主流画幅,默认输出720P/24fps高清视频,适配短视频平台、社交平台、广告投放等全部发布场景。

  4. 叙事与运动自然:生成视频具备符合物理规律的动态效果,光影变化、物体运动、人物动作流畅自然,支持复杂交互场景,可直接用于电商产品展示、短剧片段、创意短视频制作。

(二)音频驱动数字人说话(Talking Avatar)

该功能专注于虚拟形象音视频同步生成,单张肖像图+一段音频即可生成分钟级口型精准、表情自然的数字人视频,是虚拟主播、知识科普、新闻播报场景的核心工具。

  1. 音视频精准对齐:音视频同步评分达8.18,接近行业顶尖水平,支持中文、英文、韩语等多语种,适配日常说话、快速播报、歌唱等多种语音形态,口型与音素严格匹配,无违和感。

  2. 长视频稳定生成:单次推理可生成最长200秒的连贯视频,全程保持人物身份一致、面部无扭曲、动作无卡顿,满足长课程、长播报、长访谈的创作需求。

  3. 多风格形象兼容:覆盖真人写实、卡通动漫、艺术风格、动物形象等全部视觉类型,可快速将静态IP形象转化为可发声的动态数字人。

  4. 多人对话支持:行业首创多角色数字人对话生成能力,可通过掩码指定说话角色,生成访谈、双人对话、多人交流等复杂场景,角色动作与表情符合对话逻辑。

(三)视频到视频扩展(Video Extension)

该功能用于对现有短视频进行时序延长与镜头拓展,分为单镜头无缝延续与多镜头智能切换两种模式,解决短视频内容延展、长视频制作的痛点。

  1. 双模式扩展:单镜头模式可将5秒视频无缝延长至30秒,保持运动、场景、风格完全一致;镜头切换模式内置切入、切出、多角度、正反打、切离5种电影级转场,自动生成专业影视化镜头语言。

  2. 风格严格继承:完整保留原视频的画质风格、光影色调、镜头质感,无论是写实、电影感、二次元风格,均无风格漂移问题。

  3. 复杂场景适配:可处理快速运动、多人物互动、场景突变等高难度视频,严格遵循物理规律,延长内容具备叙事逻辑性,而非单纯的帧插值。

  4. 规格统一:延长后视频保持720P分辨率与原画幅比例,输出文件可直接剪辑拼接,适配长视频工业化生产流程。

(四)通用基础特色

  1. 开源完整度高:开放全部推理代码、模型权重、部署脚本、示例命令,无功能阉割,支持本地全功能运行。

  2. 硬件适配友好:提供低显存优化方案,支持24GB以下显存显卡运行,同时兼容单GPU与多GPU分布式推理,搭配xDiT USP技术提升生成速度。

  3. 量化与加速:支持FP8权重量化、模块卸载(offload)等优化手段,平衡生成速度与硬件占用。

  4. 生态配套完善:同步提供在线演示空间、开放API、技术报告、演示视频,降低上手门槛,支持快速集成到自有产品。

为直观呈现核心性能优势,整理官方权威评测对比表如下:

评测维度 核心指标 SkyReels-V3 主流对比模型 行业定位
参考图生视频 参考一致性 0.6698 Vidu Q2(0.5961)、Kling 1.6(0.6630) 行业第一
参考图生视频 视觉质量 0.8119 Vidu Q2(0.7877)、Kling 1.6(0.8034) 行业第一
数字人生成 音视频同步 8.18 OmniHuman 1.5(8.25)、KlingAvatar(8.01) 行业顶尖
数字人生成 视觉质量 4.60 OmniHuman 1.5(4.60)、KlingAvatar(4.55) 行业顶尖
数字人生成 角色一致性 0.80 OmniHuman 1.5(0.81)、KlingAvatar(0.78) 行业顶尖

三、技术细节

SkyReels V3的优异效果源于底层架构、训练策略、数据处理、推理优化四大维度的技术创新,整体采用“一核多支”设计,即统一多模态上下文学习基座+三大子任务精调分支,兼顾架构通用性与任务专业性,核心技术细节如下:

(一)整体架构:统一多模态上下文学习框架

项目以扩散Transformer为基础架构,构建统一的多模态编码与生成体系,将图像、音频、视频、文本四类输入信号映射到同一隐空间进行联合建模,打破不同模态的生成壁垒。

  1. 多模态编码器:独立设计视觉编码器、音频编码器、文本编码器,将参考图像、输入视频、驱动音频、文本提示词转化为统一维度的隐特征,实现跨模态信息融合。

  2. 时空联合建模:在Transformer结构中融入空间位置编码与时序位置编码,同时建模画面空间结构与视频时序变化,解决传统模型运动模糊、时序混乱的问题。

  3. 模块化分支设计:基座模型完成通用多模态理解与视频生成能力预训练,再针对图生视频、音生视频、视频扩展三个任务进行专属精调,既保证架构统一,又实现各任务效果最优。

(二)训练策略:图像-视频混合与多分辨率联合优化

  1. 图像-视频混合训练:同步使用大规模高质量图像数据集与视频数据集训练,让模型同时学习静态视觉特征与动态运动规律,提升静态主体保真度与动态流畅度。

  2. 多分辨率联合训练:训练过程覆盖从低分辨率到720P的多尺度数据,增强模型对不同画幅、不同尺寸素材的泛化能力,原生支持多比例输出无需后处理裁剪。

  3. 专属任务训练范式:针对图生视频设计跨帧配对数据构建流程,针对音生视频采用音素级对齐训练,针对视频扩展使用分层时序数据训练,匹配各任务的核心需求。

(三)数据处理:高保真训练样本构建

  1. 参考图生视频数据 pipeline:采用跨帧配对策略从高质量视频中选取参考帧,结合图像编辑模型完成主体提取与背景补全,通过语义重写避免帧复制伪影,构建无粘贴感的训练样本。

  2. 音视频对齐数据:采集多语种、多风格语音数据,精准标注音素与面部运动对应关系,构建高质量音视频同步训练集,提升口型匹配精度。

  3. 视频扩展数据:构建包含单镜头、多镜头转场的长视频数据集,训练镜头检测与转场生成能力,让模型理解影视镜头语言逻辑。

(四)推理优化:速度与显存平衡

  1. 低显存适配:提供--low_vram参数开启FP8权重量化与模块卸载,支持消费级显卡运行,降低硬件门槛。

  2. 多GPU加速:兼容torchrun分布式推理,结合xDiT USP技术实现多卡并行生成,大幅缩短生成时间。

  3. 关键帧约束生成:针对长视频数字人生成,采用关键帧先确定结构、再平滑过渡的方式,保证长时序稳定性。

  4. 分辨率动态调节:支持540P、480P等低分辨率输出,进一步降低硬件要求,适配不同配置设备。

(五)模型规格

项目提供三个专属任务模型,均为开源可下载版本,具体规格如下:

  1. 参考图生视频模型:14B参数,720P分辨率,支持1-4张参考图输入。

  2. 视频扩展模型:14B参数,720P分辨率,支持单镜头与多镜头切换扩展。

  3. 音频驱动数字人模型:19B参数,720P/24fps,支持最长200秒音频输入。

SkyReels-V3:昆仑天工开源的全能多模态视频生成模型,覆盖图生视频、音生视频与视频扩展

四、应用场景

SkyReels V3的全能型特性使其覆盖个人创作、商业生产、企业服务、科研教育全场景,核心落地方向如下:

(一)内容创作与新媒体

  1. 短视频创作:使用单张图片生成带货视频、创意短片、风景动态视频,无需拍摄即可快速产出平台内容。

  2. 短剧与影视创作:通过视频扩展功能将短镜头延长为完整片段,结合多角色数字人生成对话场景,降低短剧拍摄成本。

  3. 社交内容:生成个性化动态头像、节日祝福视频、创意特效视频,满足社交平台分享需求。

(二)虚拟形象与直播电商

  1. 虚拟主播:将品牌IP、真人肖像转化为24小时在线的数字人主播,完成直播带货、商品讲解。

  2. 客服数字人:制作企业专属虚拟客服,通过音频驱动生成讲解视频,用于产品说明、售后指导。

  3. 产品展示:单张产品图生成动态展示视频,呈现产品细节、使用场景、运动效果,提升电商转化率。

(三)教育培训与知识科普

  1. 在线课程:教师肖像+课程音频生成教学视频,快速制作系列课程,降低录课成本。

  2. 科普内容:用卡通/写实形象生成科普讲解视频,适配少儿教育、专业知识普及场景。

  3. 企业内训:制作标准化培训视频,统一讲解口径,适用于员工技能培训、制度宣讲。

(四)影视与广告制作

  1. 镜头预演:快速生成分镜视频,用于影视项目前期策划、镜头效果验证。

  2. 广告素材:批量生成产品广告短片、品牌宣传视频,适配多平台投放规格。

  3. 素材补全:对现有影视素材进行时长扩展、镜头补充,减少拍摄工作量。

(五)科研与二次开发

  1. 学术研究:作为视频生成、多模态建模、数字人技术的研究基座,用于算法创新、指标验证。

  2. 企业二次开发:集成到自有内容平台、设计工具、直播系统,定制专属视频生成功能。

  3. 工具开发:基于开源代码封装可视化界面、批量生成工具,打造垂直领域视频创作产品。

五、使用方法

SkyReels V3提供标准化部署与推理流程,全程基于Python环境,支持Linux、Windows WSL2系统,官方推荐配置为Python 3.12+、CUDA 12.8+,具体步骤如下:

(一)环境准备与代码克隆

  1. 安装Git与Python环境,配置CUDA显卡驱动与PyTorch依赖。

  2. 克隆项目仓库到本地:

git clone https://github.com/SkyworkAI/SkyReels-V3
cd SkyReels-V3
  1. 安装项目依赖包:

pip install -r requirements.txt

(二)模型下载

模型权重自动从Hugging Face下载,也可手动从ModelScope下载后指定本地路径,三大模型下载入口如下:

  1. 参考图生视频(SkyReels-V3-R2V-14B):Hugging Face、ModelScope

  2. 视频扩展(SkyReels-V3-V2V-14B):Hugging Face、ModelScope

  3. 音频数字人(SkyReels-V3-A2V-19B):Hugging Face、ModelScope
    使用--model_id参数可指定本地模型路径,避免重复下载。

(三)核心任务推理命令

1. 参考图生成视频(单GPU)

python3 generate_video.py \
 --task_type reference_to_video \
 --ref_imgs "参考图1链接/路径,参考图2链接/路径" \
 --prompt "视频内容文本描述" \
 --duration 5 \
 --offload

参数说明:--ref_imgs支持1-4张图,逗号分隔;--duration为视频时长,单位秒;--offload开启显存卸载优化。

2. 参考图生成视频(4GPU加速)

torchrun --nproc_per_node=4 generate_video.py \
 --task_type reference_to_video \
 --ref_imgs "参考图1,参考图2" \
 --prompt "文本描述" \
 --duration 5 \
 --offload --use_usp

3. 单镜头视频扩展

python3 generate_video.py \
 --task_type single_shot_extension \
 --input_video "原视频路径" \
 --duration 30 \
 --offload

4. 镜头切换视频扩展

torchrun --nproc_per_node=4 generate_video.py \
 --task_type shot_switching_extension \
 --input_video "原视频路径" \
 --duration 5 \
 --offload --use_usp

5. 音频驱动数字人生成

python3 generate_video.py \
 --task_type talking_avatar \
 --input_image "肖像图路径/链接" \
 --input_audio "音频路径/链接" \
 --prompt "场景描述" \
 --seed 42 \
 --offload

参数说明:音频支持mp3、wav格式,时长≤200秒;图片支持jpg、png、bmp等格式。

(四)低显存设备优化

针对显存低于24GB的显卡,添加优化参数:

export PYTORCH_CUDA_ALLOC_CONF="expandable_segments:True"
python3 generate_video.py --low_vram --resolution 540P 其他参数

--low_vram开启量化优化,--resolution降低输出分辨率,提升运行成功率。

SkyReels-V3:昆仑天工开源的全能多模态视频生成模型,覆盖图生视频、音生视频与视频扩展

六、常见问题解答

1. 运行时提示显存不足如何解决

优先添加--low_vram参数开启低显存模式,同时将--resolution设置为540P或480P,减少生成分辨率;也可开启--offload参数将部分模型模块卸载到内存,降低显卡显存占用;条件允许时使用多GPU分布式推理,分摊单卡显存压力。

2. 支持的输入文件格式有哪些

参考图像支持jpg、jpeg、png、gif、bmp格式;输入视频支持主流mp4、mov格式;驱动音频支持mp3、wav格式,且音频时长不能超过200秒,超过会被自动截断。

3. 生成视频出现主体失真、运动模糊怎么办

检查参考图清晰度,优先使用高清、无遮挡、光线均匀的参考图像;优化文本提示词,描述更具体的场景、动作、镜头要求,减少模糊表述;单任务参考图不超过4张,避免过多素材导致模型融合混乱;保持默认720P分辨率,低分辨率会降低细节质感。

4. 数字人口型与音频对不准的调整方法

使用清晰、无噪音、无背景音乐的纯人声音频,避免音频干扰导致对齐偏差;提示词中明确说明镜头类型、人物状态,如“固定镜头、正面说话、表情自然”;使用官方推荐的音频格式与采样率,避免转码导致的音频特征丢失;多人物场景必须添加掩码指定说话角色,否则会出现角色口型错乱。

5. 视频扩展时风格与原视频不一致如何处理

提示词中补充原视频的风格描述,如“写实电影感、暖色调、高清质感”,引导模型继承原视频风格;仅使用单镜头扩展模式,避免镜头切换带来的风格波动;原视频避免过度模糊、低画质、强滤镜的素材,高质量原视频才能保证扩展效果一致。

6. Windows系统能否本地运行

原生支持Windows WSL2环境,完整复刻Linux部署流程;不支持原生Windows命令行直接运行,建议安装WSL2 Ubuntu子系统后按照官方步骤部署,可获得与Linux一致的运行效果。

7. 模型权重下载缓慢或失败

可切换至ModelScope镜像下载,下载后通过--model_id指定本地文件夹路径;使用网络代理提升Hugging Face下载速度;避免断点续传异常,完整下载模型权重文件后再启动推理。

8. 能否用于商业项目,是否有版权限制

项目遵循官方开源协议,允许个人非商用与商用使用,具体授权条款以GitHub仓库LICENSE文件为准;生成内容的版权遵循当地法律法规,使用真人肖像、受版权保护的素材需提前获得授权,项目本身不承担素材版权相关责任。

9. 生成速度慢如何提升

使用NVIDIA高性能显卡,如RTX 4090、A10、A100等;开启多GPU分布式推理,搭配--use_usp参数启用xDiT加速;适当降低视频时长与分辨率,缩短单轮推理时间;关闭不必要的后台程序,释放系统内存与显存资源。

10. 能否修改模型代码、添加自定义功能

项目完全开源推理代码,支持二次修改、功能拓展、界面封装,可根据自身需求添加批量生成、可视化界面、格式转换、任务调度等功能,适合开发者搭建专属视频生成工具。

七、相关链接

  1. 项目官方GitHub代码仓库:https://github.com/SkyworkAI/SkyReels-V3

  2. Hugging Face模型地址:

    1. https://huggingface.co/Skywork/SkyReels-V3-R2V-14B

    2. https://huggingface.co/Skywork/SkyReels-V3-V2V-14B

    3. https://huggingface.co/Skywork/SkyReels-V3-A2V-19B

  3. ModelScope模型仓库:

    1. https://www.modelscope.cn/models/Skywork/SkyReels-V3-R2V-14B

    2. https://www.modelscope.cn/models/Skywork/SkyReels-V3-V2V-14B

    3. https://www.modelscope.cn/models/Skywork/SkyReels-V3-A2V-19B

  4. 官方在线演示Playground:https://huggingface.co/spaces/Skywork/SkyReels-V3

  5. 官方技术报告文档:https://arxiv.org/pdf/2601.17323

八、总结

SkyReels-V3是昆仑万维Skywork AI团队打造的成熟开源多模态视频生成项目,以统一多模态上下文学习框架为核心,整合参考图生视频、音频驱动数字人、视频扩展三大核心能力,凭借行业顶尖的参考一致性、视觉质量、音视频同步效果,以及完整的开源代码、模型权重与部署方案,兼顾高性能生成效果与低门槛落地使用,既满足个人创作者快速产出视频的需求,也支持企业进行私有化部署与二次开发,覆盖新媒体创作、电商直播、教育培训、影视制作、科研实验等全场景,是当前开源生态中功能完整、效果优异、实用性极强的视频生成基座,为AI视频技术的普及与工业化应用提供了可靠的开源方案。

打赏
THE END
作者头像
AI工具集
工具不孤岛,AI集大成——这里有你要的一切智能解法