UniVideo：滑铁卢大学与快手联合开源的多模态统一视频智能处理AI框架

原创发布日期：2026-01-12

115

一、UniVideo是什么

UniVideo是由滑铁卢大学与快手Kling Team联合研发并开源的统一视频AI框架，基于Python语言构建，采用创新的双流架构融合多模态大语言模型（MLLM）与多模态扩散Transformer（MMDiT），实现了视频理解、文本/图片生成视频、视频编辑、多模态指令遵循等全流程视频智能处理能力。作为首个将统一多模态模型从图像领域成功扩展至视频领域的突破性成果，UniVideo通过单一框架实现了视频理解、生成、编辑三大核心能力的一体化集成，无需调用多个专用模型，即可响应文本、图像、视频等多模态复杂指令，完成从“看懂”视频到“创作/修改”视频的全流程任务。

从产品定位来看，UniVideo并非一款面向普通用户的可视化软件，而是针对AI研究者、算法工程师和视频技术开发者的开源技术框架，基于PyTorch深度学习框架构建，兼容主流的diffusers、transformers等AI开发库，提供了完整的模型代码、预训练权重、推理管线和演示用例。用户可通过简单的脚本调用，快速实现文本生成视频、图片生成视频、视频内容编辑、视频语义理解等功能，也可基于该框架进行二次开发与模型调优，适配不同的业务场景需求。

从技术价值来看，UniVideo的出现重构了视频AI的交互与开发范式：传统视频处理需要分别使用理解类模型、生成类模型、编辑类模型完成不同子任务，不仅部署复杂度高，还存在数据互通难、效果衔接差的问题；而UniVideo通过统一的架构设计与指令范式，让单一模型即可处理多样化的视频任务，同时借助多任务联合训练实现了能力的“正向增强”，让模型在理解复杂指令的基础上，还能保证生成与编辑的视觉质量和细节一致性。

二、功能特色

UniVideo的核心优势在于“统一”与“智能”，既实现了多任务的统一建模，又具备了对复杂多模态指令的智能理解能力，其具体功能特色可分为六大核心模块，覆盖视频处理的全流程需求，且各功能之间可无缝衔接，支持复杂组合任务的执行。

2.1 多任务统一覆盖，一站式解决视频处理需求

UniVideo摒弃了传统视频AI“一任务一模型”的开发模式，通过单一框架覆盖了六大核心视频任务，无需额外开发适配层即可实现任务切换，具体包括：

视频理解：能够解析视频的语义内容，回答与视频相关的问题，识别视频中的人物、物体、场景、动作等关键信息，在MMBench理解评测中得分达到83.5，展现出强大的语义分析能力；
文本生成视频（T2V）：根据纯文本指令生成高质量视频内容，支持对视频风格、场景、人物动作、时长等细节的描述，生成效果在VBench评测中得分82.58，达到行业SOTA水平；
图片生成视频（I2V）：以单张或多张图片为参考，生成符合图片内容与风格的视频序列，支持保留图片中的物体特征、色彩风格和空间布局；
视频编辑（V2V Edit）：对现有视频进行精细化修改，包括物体替换、风格迁移、背景更改、细节调整等，无需提供掩码即可实现精准的区域编辑，如“将视频中的沙发换成汽车”“把视频转为梵高油画风格”；
图像编辑（I2I Edit）：支持基于图像的编辑任务，作为视频编辑能力的基础，为跨模态能力迁移提供支撑；
多模态指令遵循：能够理解并执行融合文本、图像、视频的复杂多模态指令，例如“参考这张图片中的人物，将视频里的主角替换为他，并把背景改为热带海滩”，突破了传统模型仅能处理纯文本指令的限制。

2.2 多模态指令理解，告别“简单指令”束缚

当前90%以上的视频AI模型仅能处理纯文本指令，且对指令的复杂度和细节描述能力有限，而UniVideo首次实现了对复杂非结构化多模态指令的精准理解与执行，让视频AI真正具备了“思考能力”。其指令理解能力体现在两个维度：

模态多样性：支持文本、单张/多张图片、视频片段等多种输入模态的组合，例如以“文本+参考图”“视频+编辑指令”“图片+视频+风格描述”等形式下达任务，模型能准确解析各模态之间的关联关系；
语义复杂性：能够处理包含多个编辑需求的复合指令，例如“把视频中穿西装的人换成参考图中的人物，将背景变为雪山，同时给整个视频添加水彩画风格”，模型可拆分并依次执行多个子任务，且保证各修改效果的融合一致性；
零样本泛化：即使是训练数据中未见过的任务，如“将视频中的金属材质改为玻璃材质”“对视频中的人物进行绿幕抠像”，模型也能通过从图像编辑数据中学到的能力，迁移并完成视频领域的新任务，无需额外的微调训练。

2.3 长视频处理能力，解决身份一致性难题

传统视频生成与编辑模型在处理长视频时，极易出现物体身份模糊、动作不连贯、细节丢失等问题，当视频帧数超过30帧时，身份一致性指标会从0.85急剧下降至0.32。而UniVideo通过创新的3D位置编码设计，完美解决了长视频处理的痛点：

采用3D位置编码系统，在处理视频序列时，仅递增时间维度的编码，保持帧间空间索引的一致性，避免了传统2D扩展方法“引入新视觉输入时偏移所有轴”的问题；
能够稳定处理129帧的长视频序列，并在整个视频中保持人物、物体的身份特征与动作连贯性，身份一致性（SC）指标达到0.78，远优于传统模型。

2.4 端到端开源部署，降低技术落地门槛

作为开源项目，UniVideo提供了开箱即用的技术支持，无需开发者从零构建模型架构，具体包括：

完整的代码仓库：包含模型实现、推理管线、工具函数、配置文件等全部核心代码；
自动化的环境配置：提供Conda环境配置文件（environment.yml）和pip依赖清单（requirements.txt），一键构建适配的开发环境；
便捷的模型下载：通过专用脚本（download_ckpt.py）自动拉取Hugging Face上的预训练权重，无需手动寻找与配置；
丰富的演示用例：在demo目录中提供了各任务的具体使用示例，涵盖I2I编辑、I2V生成、上下文生成等场景，开发者可直接参考修改。

2.5 双模型变体设计，适配不同业务需求

为了满足不同场景下的性能与效果平衡，UniVideo提供了两种模型变体，开发者可根据自身的硬件条件、任务复杂度选择合适的版本，具体差异如下表所示：

模型变体	核心架构	输入特征	适用场景	性能特点
变体1（Hidden版）	MLLM + MMDiT	图片/视频/文本经MLLM处理后的最后一层隐藏状态	视频理解、简单文本/图片生成视频、基础视频编辑	推理速度较快，硬件要求相对较低，适合轻量级任务
变体2（Queries版）	MLLM + MMDiT + Queries	文本+Queries经MLLM处理后的最后一层隐藏状态	复杂多模态指令遵循、长视频生成、精细化视频编辑	指令理解精度更高，生成与编辑效果更优，适合复杂任务，硬件要求稍高

UniVideo：滑铁卢大学与快手联合开源的多模态统一视频智能处理AI框架

三、技术细节

UniVideo的技术核心在于双流统一架构与三阶段多任务联合训练策略，前者解决了“理解”与“生成”的协同问题，后者则让模型在单一框架中掌握了多种视频任务能力，同时保证了各任务的性能表现。以下从架构设计、核心模块、训练策略三个维度，通俗易懂地解析UniVideo的技术细节。

3.1 核心架构：双流统一设计，让“理解”与“生成”各司其职

UniVideo采用双流架构，将视频处理任务拆分为“理解”和“生成”两个阶段，分别由专门的模块负责，再通过可训练的连接器实现两个模块的协同工作，避免了单一模型在处理多模态输入时的信息瓶颈和细节损失问题。整个架构主要包含三大核心部分：理解流块（Understanding Stream Block）、生成流块（Generation Stream Block）和连接机制（Connector），具体结构与工作流程如下：

理解流块：基于MLLM的“视觉大脑” 理解流是UniVideo的“指挥中心”，负责接收并解析所有输入的多模态信息，将其转化为机器能理解的语义表示。该模块采用冻结的Qwen2.5VL-7B多模态大语言模型作为基础，保留了模型完整的文本、图像、视频理解能力。

冻结设计的原因：Qwen2.5VL-7B本身已具备强大的多模态理解能力，若与生成模块联合训练，极易导致其理解能力退化，因此研究团队选择冻结MLLM的参数，仅训练后续的连接模块与生成模块，既保证了指令理解的精度，又降低了训练成本；
输入处理能力：可同时接收文本、单张/多张图片、视频片段等输入，通过模型的多模态编码器，将视觉信息转化为与文本统一的语义特征，再通过解码器生成结构化的语义表示，为生成流提供“创作指令”。

生成流块：基于MMDiT的“创作引擎” 生成流是UniVideo的“执行中心”，负责根据理解流输出的语义表示，生成或编辑出高质量的视频内容。该模块基于HunyuanVideo-T2V-13B多模态扩散Transformer（MMDiT） 构建，是视频生成与编辑的核心载体。

双重输入信号：生成流不仅接收来自MLLM的高层语义信息，还会接收通过VAE（变分自编码器）编码的细粒度视觉细节信号，这种双重输入设计既保证了生成内容与指令的语义一致性，又能保留视频的视觉细节，对人物身份保持、物体细节还原至关重要；
扩散生成原理：采用扩散模型的经典生成方式，从随机噪声出发，通过多次迭代的去噪过程，逐步生成符合语义要求的视频帧序列，最终输出高质量的视频内容。

连接机制：MLP连接器实现“指令翻译” 连接机制是UniVideo的“桥梁”，负责将理解流输出的语义特征维度，对齐到生成流的输入空间，相当于把“指挥中心”的创意指令，“翻译”成“执行中心”能精确执行的技术信号。

核心实现：采用一个带有4×expansion扩展的MLP（多层感知机） 作为连接器，这是整个架构中唯一需要在第一阶段单独训练的模块；
重要性验证：根据消融实验数据，若移除该连接器，直接将视觉输入馈送至MMDiT，模型的身份一致性（SC）指标会从0.78暴跌至0.18，充分证明了连接机制对模型性能的关键作用。

3.2 关键技术点：3D位置编码，解决长视频身份一致性问题

为了让模型在处理长视频时，保持物体与人物的身份特征不变，UniVideo设计了3D位置编码系统，这是其能稳定处理129帧长视频的核心技术之一。

传统方法的缺陷：传统的2D位置编码（如Qwen2-VL的MRoPE方法）在处理视频时，会将视频帧视为独立的图像，引入新的视觉输入时会偏移所有轴的编码，导致帧间的身份特征无法连续；
3D位置编码的优势：在空间维度上保持索引一致性，仅在时间维度上递增编码值，让模型能清晰识别“同一物体在不同帧中的位置变化”，从而保证了长视频中人物与物体的身份连贯性。

3.3 训练策略：三阶段联合训练，让单一模型掌握多任务能力

UniVideo通过三阶段的训练策略，逐步让模型掌握视频理解、生成、编辑等多种能力，且各阶段的训练目标与数据选择都经过精心设计，既保证了模型的基础性能，又实现了多任务的融合与泛化。整个训练过程均基于PyTorch 2.4.1 + CUDA 12.1环境进行，具体训练流程如下：

3.3.1 第一阶段：Connector对齐训练（15,000步）

训练目标：仅训练MLP连接器，让其学会将MLLM的语义特征，准确映射到MMDiT的输入空间；
训练数据：约5000万预训练样本，包括4000万文本到图像样本、1000万文本到视频样本；
数据采样比：文本到图像70%、文本到视频20%、图像重建10%；
超参数设置：学习率为1×10⁻⁴，采用恒定调度器；
训练成果：模型能够基于MLLM的输入，初步生成符合语义要求的图像和视频。

3.3.2 第二阶段：MMDiT微调训练（5,000步）

训练目标：冻结MLLM的参数，微调连接器与MMDiT的参数，让生成流的性能达到专用MMDiT骨干模型的水平；
训练数据：约1万高质量的文本到图像和文本到视频样本，数据质量远高于第一阶段，旨在提升生成效果；
数据采样比：高质量文本到图像70%、高质量文本到视频20%、图像重建10%；
超参数设置：学习率降至2.0×10⁻⁵，EMA（指数移动平均）比例设置为0.9999；
训练成果：模型的生成质量显著提升，在文本/图片生成视频任务上，达到与专用模型相当的性能。

3.3.3 第三阶段：多任务联合训练（15,000步）

训练目标：这是实现“统一模型”的关键阶段，冻结MLLM，继续训练连接器与MMDiT，让模型融合多种视频任务能力；
训练数据：混合了多种任务的高质量数据，覆盖图像编辑、视频生成、风格迁移等场景；
数据采样比：图像编辑30%、上下文视频生成20%、高质量文本到视频5%、高质量文本到图像5%、图像到视频10%、图像风格迁移10%、上下文视频编辑10%、上下文图像风格迁移10%；
超参数设置：学习率保持2.0×10⁻⁵，EMA比例0.9999；
训练成果：模型掌握了六大核心视频任务，具备了任务组合泛化和零样本泛化能力，能够执行复杂的多模态指令与未见过的视频编辑任务。

四、应用场景

UniVideo凭借其统一的多模态视频处理能力，可广泛应用于AI研究、内容创作、工业生产、传媒娱乐等多个领域，既为研究者提供了视频AI的基础研究框架，也为企业和开发者提供了视频内容智能化生产的技术支撑。以下是其核心应用场景的详细介绍：

4.1 AI研究领域：视频多模态模型的基础研究与创新

对于AI研究者而言，UniVideo是探索视频多模态理解与生成的优质基础框架，具体应用方向包括：

模型架构创新：研究者可基于UniVideo的双流架构，进行模块替换、改进连接机制、优化位置编码等创新研究，探索更高效的视频统一建模方法；
任务扩展研究：利用UniVideo的零样本泛化能力，研究将更多视频任务（如视频字幕生成、视频问答、视频内容检索）融入统一框架的可行性；
性能优化研究：针对UniVideo的推理速度、硬件占用、生成质量等指标进行优化，例如模型量化、蒸馏、轻量化改造，使其能适配边缘设备；
数据集构建与评测：基于UniVideo的评估基准构建方法，搭建新的视频多模态任务评测数据集，为行业提供更全面的模型性能评估标准。

4.2 内容创作领域：视频内容的智能化生产与编辑

在传媒、自媒体、广告等内容创作领域，UniVideo可大幅提升视频生产效率，降低创作门槛，具体应用场景包括：

快速视频生成：自媒体创作者可通过文本指令，快速生成视频素材，例如“生成一段30秒的猫咪玩耍的视频，风格为卡通动画”，无需拍摄与剪辑；
视频精细化编辑：广告制作团队可利用UniVideo的视频编辑能力，对现有视频进行快速修改，例如替换视频中的产品、更改背景场景、调整视频风格，无需使用PR、AE等专业软件进行逐帧编辑；
多模态创意实现：设计师可通过“文本+参考图”的多模态指令，实现复杂的创意视频制作，例如“参考这张海报的风格，生成一段产品宣传视频，主角为参考图中的模特”；
长视频内容创作：影视制作团队可利用UniVideo的长视频处理能力，生成电影片段、预告片的初步素材，或对长视频进行批量编辑，提升创作效率。

4.3 工业与商业领域：视频技术的智能化落地

在工业巡检、远程医疗、电商等商业领域，UniVideo的视频理解与编辑能力可与业务场景结合，实现智能化升级：

工业巡检视频分析：对工业设备巡检的视频进行语义理解，自动识别设备的异常状态、故障位置，并通过视频编辑功能标注故障区域，生成巡检报告；
远程医疗视频处理：对医疗手术、病例分析的视频进行理解与编辑，提取关键医疗信息，或对视频进行脱敏处理（如替换患者面部特征），保护患者隐私；
电商商品视频制作：电商商家可通过图片生成视频，快速为商品制作宣传视频，或对现有视频进行编辑，调整商品展示角度、背景环境，适配不同的营销场景；
直播内容智能处理：直播平台可利用UniVideo的能力，对直播回放视频进行智能剪辑，提取精彩片段，或根据用户指令生成直播总结视频。

4.4 教育与科普领域：知识内容的视频化转化

在教育、科普领域，UniVideo可将文字、图片形式的知识内容，快速转化为生动的视频内容，具体应用包括：

课件视频生成：教师可通过文本指令，生成学科知识点的讲解视频，例如“生成一段讲解牛顿三大定律的动画视频，时长1分钟”；
科普内容创作：科普创作者可利用图片生成视频的功能，将科学原理、自然现象的示意图，转化为动态的视频讲解内容，提升科普的趣味性；
教学视频编辑：对现有教学视频进行编辑，例如替换视频中的教学案例、调整讲解画面的风格，适配不同的教学场景与学生群体。

UniVideo：滑铁卢大学与快手联合开源的多模态统一视频智能处理AI框架

五、使用方法

UniVideo基于Python语言构建，运行环境依赖PyTorch、CUDA等深度学习框架，整体使用流程分为环境准备、模型下载、任务推理三个核心步骤，同时提供了丰富的演示用例供参考。以下是详细的使用教程，步骤通俗易懂，适合有基础的Python开发者与AI工程师。

5.1 前置条件

在使用UniVideo前，需确保本地环境满足以下要求：

硬件要求：建议使用配备NVIDIA显卡的设备，显存≥16GB（变体1可使用12GB显存，变体2建议24GB及以上），支持CUDA 12.1及以上版本；
系统要求：支持Linux、Windows（WSL2）、macOS（仅支持CPU推理，效果较差）；
软件要求：已安装Git、Anaconda/Miniconda（推荐）、Python 3.10及以上版本。

5.2 步骤1：克隆仓库

首先通过Git将UniVideo的代码仓库克隆到本地，打开终端/命令行，执行以下命令：

git clone https://github.com/KlingTeam/UniVideo.git
cd UniVideo

该命令会将仓库代码下载到本地，并进入项目根目录，后续所有操作均在该目录下执行。

5.3 步骤2：环境安装

UniVideo提供了Conda环境配置文件和pip依赖清单两种环境安装方式，推荐使用Conda安装，可避免依赖版本冲突问题。

5.3.1 方式一：Conda环境安装（推荐）

基于environment.yml文件创建Conda环境，环境名称为univideo：
```
conda env create -f environment.yml
```
激活创建的环境：
```
conda activate univideo
```

5.3.2 方式二：pip安装

若未使用Conda，可通过pip直接安装依赖，执行以下命令：

pip install -r requirements.txt

注意：使用pip安装时，需手动确保PyTorch、CUDA的版本与本地硬件匹配，否则可能出现运行错误。

5.4 步骤3：模型权重下载

UniVideo的预训练模型权重托管在Hugging Face平台，项目提供了自动化的下载脚本，无需手动访问网站下载，执行以下命令即可自动拉取模型权重：

python download_ckpt.py

该脚本会自动检测本地环境，下载对应的模型权重文件，并将其放置在项目指定的目录中，下载完成后即可进行推理。注意：模型权重文件较大（约数十GB），请确保网络环境稳定，且本地磁盘有足够的存储空间。

5.5 步骤4：任务推理

UniVideo提供了统一的推理脚本univideo_inference.py，通过指定任务类型和配置文件，即可实现不同视频任务的推理。配置文件对应两种模型变体，存放在configs/目录下：

变体1配置文件：univideo_qwen2p5vl7b_hidden_hunyuanvideo.yaml
变体2配置文件：univideo_qwen2p5vl7b_queries_hunyuanvideo.yaml

以下是核心任务的推理命令示例，开发者可根据自身需求替换任务类型与配置文件：

5.5.1 视频理解任务

# 使用变体1进行视频理解
python univideo_inference.py --task understanding --config configs/univideo_qwen2p5vl7b_hidden_hunyuanvideo.yaml

该命令会加载指定的模型，对输入的视频进行语义理解，输出视频的关键信息或回答与视频相关的问题。

5.5.2 文本生成视频（T2V）任务

# 使用变体2进行文本生成视频
python univideo_inference.py --task t2v --config configs/univideo_qwen2p5vl7b_queries_hunyuanvideo.yaml

执行该命令后，模型会根据输入的文本指令，生成对应的视频内容，并保存到指定目录。

5.5.3 图片生成视频（I2V）任务

# 使用变体1进行图片生成视频
python univideo_inference.py --task i2v --config configs/univideo_qwen2p5vl7b_hidden_hunyuanvideo.yaml

该命令会以输入的图片为参考，生成符合图片内容与风格的视频序列。

5.5.4 视频编辑（V2V Edit）任务

# 使用变体2进行视频编辑
python univideo_inference.py --task v2v_edit --config configs/univideo_qwen2p5vl7b_queries_hunyuanvideo.yaml

执行该命令后，模型会根据输入的编辑指令，对现有视频进行修改，例如替换物体、更改风格、调整背景等。

5.6 步骤5：参考演示用例

若对命令行参数或任务配置不熟悉，可参考项目demo/目录下的演示用例，该目录按任务类型划分，包含：

i2i_edit/：图像编辑任务示例
i2v/：图片生成视频任务示例
in-context-generation/：上下文生成任务示例
v2v_edit/：视频编辑任务示例

每个示例目录中都包含了具体的配置文件、输入样例和运行脚本，开发者可直接运行示例脚本，查看运行效果，再根据自身需求修改输入内容与配置参数。

UniVideo：滑铁卢大学与快手联合开源的多模态统一视频智能处理AI框架

六、常见问题解答

问题1：执行conda env create -f environment.yml时，出现依赖包下载失败或版本冲突？

原因：网络环境限制导致Conda源无法访问，或本地已安装的软件包与项目依赖冲突。 解决方案：

更换Conda镜像源为国内源（如清华源、中科大源），加快依赖包下载速度；
若版本冲突，可手动修改environment.yml文件中的依赖版本，与本地环境匹配；
尝试使用pip方式安装依赖，参考5.3.2节的步骤。

问题2：运行脚本时，提示“CUDA out of memory”（CUDA内存不足）？

原因：本地显卡显存无法满足模型运行需求，或任务配置的.batch_size过大。 解决方案：

选择显存要求更低的变体1（Hidden版） 模型，替换配置文件；
降低推理脚本中的batch_size参数，将其设置为1；
关闭本地其他占用显卡显存的程序（如其他AI模型、游戏、视频软件）；
若硬件条件允许，更换显存更大的显卡。

问题3：提示“no module named xxx”（缺少模块）？

原因：环境安装不完整，或未激活对应的Conda环境。 解决方案：

确认已激活UniVideo的Conda环境：conda activate univideo；
使用pip手动安装缺失的模块：pip install xxx（将xxx替换为缺失的模块名）；
重新执行依赖安装命令，确保所有包都安装成功。

问题4：执行download_ckpt.py时，出现网络超时或下载中断？

原因：Hugging Face平台的网络访问受限，或文件过大导致下载不稳定。 解决方案：

配置Hugging Face的国内镜像源，或使用代理工具提升网络访问速度；
若下载中断，重新执行脚本，脚本会自动续传已下载的文件；
手动访问Hugging Face的UniVideo模型仓库（https://huggingface.co/KlingTeam/UniVideo），下载模型权重后，手动放置到项目指定的目录中。

问题5：下载完成后，运行推理脚本提示“模型文件不存在”？

原因：模型权重的存放路径与脚本预期的路径不一致。 解决方案：

检查download_ckpt.py脚本的输出日志，确认模型权重的实际存放路径；
修改推理脚本univideo_inference.py中的模型路径配置，指向实际的权重文件目录；
将模型权重文件手动移动到脚本预期的默认目录中。

问题6：推理过程中，模型生成的视频质量差、细节模糊或与指令不符？

原因：选择的模型变体不合适，或指令描述不够清晰，也可能是输入的参考图/视频质量过低。 解决方案：

更换为变体2（Queries版） 模型，提升指令理解与生成精度；
优化指令描述，增加更多细节（如视频时长、风格、物体特征、动作描述）；
提升输入参考图/视频的分辨率与质量，避免使用模糊、低像素的素材；
调整推理脚本中的生成参数（如采样步数、温度系数），增加采样步数可提升生成质量，但会降低推理速度。

问题7：运行视频编辑任务时，出现人物/物体身份不一致、动作不连贯？

原因：处理的视频帧数过长，或位置编码相关参数配置不当。 解决方案：

若视频帧数超过129帧，将视频分割为多个短片段，分别编辑后再拼接；
检查配置文件中的位置编码参数，确保使用的是3D位置编码；
选择变体2模型，其长视频处理能力优于变体1。

问题8：在Windows系统中运行脚本时，出现编码错误或路径错误？

原因：Windows系统的文件路径分隔符与Linux系统不同，或系统默认编码为GBK，与项目的UTF-8编码冲突。 解决方案：

将项目存放路径改为纯英文路径，避免包含中文、空格或特殊字符；
在脚本的开头添加编码声明：# -*- coding: utf-8 -*-；
使用WSL2（Windows Subsystem for Linux）运行脚本，模拟Linux环境，可避免大部分路径与编码问题。

七、相关链接

GitHub代码仓库：https://github.com/KlingTeam/UniVideo
Hugging Face模型仓库：https://huggingface.co/KlingTeam/UniVideo
项目官方主页：https://congwei1230.github.io/UniVideo/
ArXiv论文链接：https://arxiv.org/abs/2510.08377

八、总结

UniVideo是由滑铁卢大学与快手Kling Team联合研发的开源统一视频AI框架，以创新的双流架构融合了多模态大语言模型（MLLM）与多模态扩散Transformer（MMDiT），首次实现了视频理解、生成、编辑三大核心能力的一体化集成，突破了传统视频AI模型任务割裂、指令理解能力弱、长视频处理效果差的行业痛点。该项目基于Python语言构建，提供了两种模型变体以适配不同的业务需求与硬件条件，通过三阶段多任务联合训练，让模型具备了任务组合泛化和零样本泛化能力，能够处理文本、图像、视频等多模态复杂指令，在视频生成质量、编辑精度和理解能力上达到行业先进水平。同时，UniVideo提供了开箱即用的环境配置、模型下载与推理脚本，搭配丰富的演示用例，大幅降低了多模态视频任务的开发与落地门槛，既为AI研究者提供了视频多模态模型的基础研究框架，也为内容创作者、企业开发者提供了视频内容智能化生产的技术支撑，其开源的代码、模型权重与配套论文，也为视频AI领域的技术发展与创新提供了重要的参考与助力。

打赏

版权及免责申明：本文由@人工智能研究所原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/univideo.html

THE END

人工智能研究所

发现AI神器，探索AI技术！

+ 关注

UniVideo：滑铁卢大学与快手联合开源的多模态统一视频智能处理AI框架

文章目录

一、UniVideo是什么

二、功能特色

2.1 多任务统一覆盖，一站式解决视频处理需求

2.2 多模态指令理解，告别“简单指令”束缚

2.3 长视频处理能力，解决身份一致性难题

2.4 端到端开源部署，降低技术落地门槛

2.5 双模型变体设计，适配不同业务需求

三、技术细节

3.1 核心架构：双流统一设计，让“理解”与“生成”各司其职

3.2 关键技术点：3D位置编码，解决长视频身份一致性问题

3.3 训练策略：三阶段联合训练，让单一模型掌握多任务能力

3.3.1 第一阶段：Connector对齐训练（15,000步）

3.3.2 第二阶段：MMDiT微调训练（5,000步）

3.3.3 第三阶段：多任务联合训练（15,000步）

四、应用场景

4.1 AI研究领域：视频多模态模型的基础研究与创新

4.2 内容创作领域：视频内容的智能化生产与编辑

4.3 工业与商业领域：视频技术的智能化落地

4.4 教育与科普领域：知识内容的视频化转化

五、使用方法

5.1 前置条件

5.2 步骤1：克隆仓库

5.3 步骤2：环境安装

5.3.1 方式一：Conda环境安装（推荐）

5.3.2 方式二：pip安装

5.4 步骤3：模型权重下载

5.5 步骤4：任务推理

5.5.1 视频理解任务

5.5.2 文本生成视频（T2V）任务

5.5.3 图片生成视频（I2V）任务

5.5.4 视频编辑（V2V Edit）任务

5.6 步骤5：参考演示用例

六、常见问题解答

七、相关链接

八、总结

相关文章