OmniWeaving：腾讯混元联合浙大等开源的统一视频生成模型

原创发布日期：2026-04-07

169

一、OmniWeaving是什么？

OmniWeaving是腾讯混元HunyuanVideo团队主导研发的下一代统一视频生成开源项目，核心定位是打破传统视频生成模型单模态、弱推理、固定生成逻辑的局限，实现文本、图像、视频等多模态信号自由组合输入，并通过预训练获得意图理解与逻辑推理能力，自动完成场景编排、元素组合、时序规划等创作行为。

该项目总有效参数超150亿，训练基于400块NVIDIA H100 GPU完成，支持480P分辨率、最长161帧（约10秒）视频生成，是当前开源领域兼具生成质量、模态灵活性与智能性的标杆级视频生成方案。

与常规视频生成模型不同，OmniWeaving不只是“执行生成指令”，而是能理解模糊需求、推理创作逻辑、整合多源素材，更贴近人类导演的创作思维，同时完全开源可本地部署、可微调、可二次开发，兼顾学术研究与产业落地需求。

二、核心功能特色

自由多模态组合输入
支持文本提示词、单张/多张参考图、视频片段任意交错组合输入，无需固定格式约束，可实现文生视频、图生视频、视频续编、多图转视频、图文视频混合创作等全场景能力。
强意图推理与逻辑生成
模型在海量推理增强数据上预训练，可从模糊描述中推断用户真实需求，自动补充场景细节、运镜方式、动作逻辑、元素互动关系，解决传统模型“指令理解死板、画面缺乏逻辑”的问题。
高保真长时长视频生成
默认输出480P分辨率、81帧（5秒/16fps），最高支持161帧长视频，搭配3D因果VAE视觉编码，画面细节清晰、时序流畅、无明显闪烁与畸变，生成质量达到开源SOTA水平。
统一架构兼容多任务
基于MMDiT扩散主干统一建模，无需为不同任务单独训练分支，同时覆盖视频生成、视频编辑、多模态条件生成、内容风格化等任务，降低开发与部署成本。
配套专业评测基准
首发IntelligentVBench评测体系，包含复杂组合、意图推理、时序逻辑、多元素控制等专项测试集，填补行业缺乏智能视频生成评测标准的空白。
完全开源可商用友好
代码、权重、数据集、评测工具全量开源，支持本地部署、模型微调、API封装与二次开发，授权协议宽松，适合科研机构、开发者与中小企业使用。

OmniWeaving：腾讯混元联合浙大等开源的统一视频生成模型

三、核心技术细节

OmniWeaving采用三模块协同架构，从模态理解、时序建模到视觉重建形成完整链路，技术设计兼顾智能性与生成效率。

1. 整体技术架构

多模态大语言理解单元（MLLM）：基于Qwen 2.5-VL，负责解析文本、图像、视频混合输入，提取语义、空间、时序信息并编码为统一条件信号。
MMDiT扩散主干网络：以HunyuanVideo-1.5为基座，采用时空联合注意力机制，建模视频帧间因果关系，实现高可控、高流畅度的潜变量生成。
3D因果VAE视觉编码器：对视觉信号进行时空压缩与重建，保留细节同时降低计算开销，保证生成视频的清晰度与稳定性。

2. 关键技术参数

技术维度	核心参数
模型总参数	15B+
训练硬件	400×NVIDIA H100
训练分辨率	480P
最大生成帧数	161帧
默认帧率	16fps
支持模态	文本、图像、视频
显存需求	完整加载≥45GB

3. 训练与推理设计

训练采用全局Batch Size=400，在大规模多模态组合与推理增强数据上迭代优化，强化模型对复杂意图的理解能力。
推理支持CPU Offloading显存优化，可将部分参数卸载至内存，降低单卡显存门槛；同时支持8卡并行推理，提升生成速度。
采用潜空间扩散生成方式，先在低维潜变量中迭代去噪，再通过VAE解码为像素级视频，平衡速度与画质。

四、典型应用场景

内容创作与短视频生产
快速将文案、参考图生成营销短视频、剧情片段、知识科普视频，无需拍摄与剪辑，大幅降低内容生产周期。
影视与动画前期预演
导演可通过文字+分镜图组合生成动态预演视频，验证镜头逻辑、场景衔接与叙事节奏，提升前期创作效率。
数字内容与AIGC工具开发
开发者基于开源代码封装视频生成API、搭建在线创作平台，或集成到剪辑软件、设计工具中提供AI生成能力。
学术研究与模型迭代
为视频生成、多模态大模型、时序扩散模型方向提供研究基座，支持架构改进、微调优化、新评测方法探索。
企业宣传与视觉素材制作
品牌方快速生成产品展示视频、活动宣传短片、虚拟场景演示，低成本批量产出高质量视觉素材。
教育与虚拟演示内容
生成教学动画、实验演示、虚拟场景讲解视频，适用于在线教育、课件制作、职业培训等场景。

五、快速使用方法

1. 环境准备

# 克隆仓库
git clone https://github.com/Tencent-Hunyuan/OmniWeaving.git
cd OmniWeaving

# 创建虚拟环境
conda create -n omniweaving python=3.10
conda activate omniweaving

# 安装依赖
pip install -r requirements.txt

2. 模型权重获取

从Hugging Face下载tencent/HY-OmniWeaving权重，放置到项目指定目录：

huggingface-cli download tencent/HY-OmniWeaving --local-dir ./weights

3. 基础推理命令

# 文生视频基础推理
python generate.py \
 --prompt "A cat walking on a snowy mountain at sunset" \
 --model_path ./weights \
 --fps 16 \
 --frames 81 \
 --output ./output/cat_video.mp4

4. 多模态组合推理

# 文本+图像生成视频
python generate.py \
 --prompt "A dog running in the park, sunny day" \
 --image_path ./ref/dog.jpg \
 --model_path ./weights \
 --output ./output/dog_park.mp4

5. 显存优化配置

开启CPU卸载降低显存占用：

python generate.py \
 --prompt "Your prompt" \
 --cpu_offload True \
 --output ./output/video.mp4

OmniWeaving：腾讯混元联合浙大等开源的统一视频生成模型

六、竞品对比分析

当前主流视频生成模型可分为开源与闭源两类，OmniWeaving在开源性、模态组合、智能推理维度具备显著优势。

对比维度	OmniWeaving	Seedance 2.0	Open-Sora-Plan	Univideo
开源状态	完全开源	闭源	部分开源	部分开源
模态组合	文本/图像/视频自由组合	多模态受限	以文本为主	单模态为主
意图推理	强推理能力	基础指令跟随	弱推理	无推理
生成分辨率	480P	2K	720P	480P
本地部署	支持	不支持	支持	支持
模型规模	15B+	超大闭源模型	轻量/中型	中型

核心优势总结：

对比闭源的Seedance 2.0：OmniWeaving完全开源可本地部署，数据隐私可控，支持微调与二次开发。
对比Open-Sora-Plan、Univideo：OmniWeaving具备原生意图推理与自由模态组合能力，更适合复杂创作需求。

七、常见问题解答

Q：OmniWeaving支持最高多大分辨率和时长？

A：官方默认支持480P分辨率，最长可生成161帧视频，16fps下约10秒；通过参数调整可在显存允许范围内小幅扩展时长与分辨率。

Q：单张显卡可以运行OmniWeaving吗？

A：官方推荐8卡H100并行推理，完整模型加载需≥45GB显存；开启CPU Offloading后，可在24GB及以上显存显卡运行，速度会明显降低。

Q：OmniWeaving支持商用吗？

A：项目遵循开源协议，允许非商用与商用使用，具体授权条款以仓库LICENSE文件为准，使用前建议仔细阅读。

Q：生成视频出现闪烁、卡顿如何解决？

A：可增加生成帧数、提升采样步数、关闭不必要的显存优化、使用官方默认参数配置，同时确保显卡驱动与PyTorch版本为最新稳定版。

Q：如何微调OmniWeaving适配自定义数据集？

A：仓库提供train.py训练脚本与process_data数据处理工具，按照文档格式整理自定义数据，配置训练参数即可启动微调。

Q：IntelligentVBench评测基准如何使用？

A：项目内置intelligentVBench目录，包含测试用例与评测脚本，直接运行对应脚本即可在模型上完成自动化评测并输出结果。

Q：是否支持ComfyUI等可视化工具调用？

A：社区已推出ComfyUI适配节点，可通过第三方插件实现可视化调用，官方仓库会持续更新生态适配方案。

八、官方链接

GitHub开源仓库：https://github.com/Tencent-Hunyuan/OmniWeaving
项目官方主页：https://omniweaving.github.io/
Hugging Face模型权重：https://huggingface.co/tencent/HY-OmniWeaving
技术论文地址：https://arxiv.org/abs/2603.24458
IntelligentVBench评测数据集：https://huggingface.co/datasets/midbee/IntelligentVBench

九、总结

OmniWeaving作为腾讯混元团队开源的统一视频生成模型，以多模态自由组合、强意图推理、高生成质量为核心优势，搭配完整的代码、权重、训练工具与专业评测基准，解决了传统视频生成模型模态单一、逻辑薄弱、部署受限的行业痛点，既为AI视频生成领域提供了可直接使用的研究基座，也为开发者与企业提供了可落地、可定制、可商用的开源方案，凭借开源开放与智能生成的双重特性，成为当前AIGC视频方向极具价值的技术项目。