OmniWeaving:腾讯混元联合浙大等开源的统一视频生成模型

原创 发布日期:
70

一、OmniWeaving是什么?

OmniWeaving是腾讯混元HunyuanVideo团队主导研发的下一代统一视频生成开源项目,核心定位是打破传统视频生成模型单模态、弱推理、固定生成逻辑的局限,实现文本、图像、视频等多模态信号自由组合输入,并通过预训练获得意图理解与逻辑推理能力,自动完成场景编排、元素组合、时序规划等创作行为。

该项目总有效参数超150亿,训练基于400块NVIDIA H100 GPU完成,支持480P分辨率、最长161帧(约10秒)视频生成,是当前开源领域兼具生成质量、模态灵活性与智能性的标杆级视频生成方案。

与常规视频生成模型不同,OmniWeaving不只是“执行生成指令”,而是能理解模糊需求、推理创作逻辑、整合多源素材,更贴近人类导演的创作思维,同时完全开源可本地部署、可微调、可二次开发,兼顾学术研究与产业落地需求。

二、核心功能特色

  1. 自由多模态组合输入
    支持文本提示词、单张/多张参考图、视频片段任意交错组合输入,无需固定格式约束,可实现文生视频、图生视频、视频续编、多图转视频、图文视频混合创作等全场景能力。

  2. 强意图推理与逻辑生成
    模型在海量推理增强数据上预训练,可从模糊描述中推断用户真实需求,自动补充场景细节、运镜方式、动作逻辑、元素互动关系,解决传统模型“指令理解死板、画面缺乏逻辑”的问题。

  3. 高保真长时长视频生成
    默认输出480P分辨率、81帧(5秒/16fps),最高支持161帧长视频,搭配3D因果VAE视觉编码,画面细节清晰、时序流畅、无明显闪烁与畸变,生成质量达到开源SOTA水平。

  4. 统一架构兼容多任务
    基于MMDiT扩散主干统一建模,无需为不同任务单独训练分支,同时覆盖视频生成、视频编辑、多模态条件生成、内容风格化等任务,降低开发与部署成本。

  5. 配套专业评测基准
    首发IntelligentVBench评测体系,包含复杂组合、意图推理、时序逻辑、多元素控制等专项测试集,填补行业缺乏智能视频生成评测标准的空白。

  6. 完全开源可商用友好
    代码、权重、数据集、评测工具全量开源,支持本地部署、模型微调、API封装与二次开发,授权协议宽松,适合科研机构、开发者与中小企业使用。

OmniWeaving:腾讯混元联合浙大等开源的统一视频生成模型

三、核心技术细节

OmniWeaving采用三模块协同架构,从模态理解、时序建模到视觉重建形成完整链路,技术设计兼顾智能性与生成效率。

1. 整体技术架构

  • 多模态大语言理解单元(MLLM):基于Qwen 2.5-VL,负责解析文本、图像、视频混合输入,提取语义、空间、时序信息并编码为统一条件信号。

  • MMDiT扩散主干网络:以HunyuanVideo-1.5为基座,采用时空联合注意力机制,建模视频帧间因果关系,实现高可控、高流畅度的潜变量生成。

  • 3D因果VAE视觉编码器:对视觉信号进行时空压缩与重建,保留细节同时降低计算开销,保证生成视频的清晰度与稳定性。

2. 关键技术参数

技术维度 核心参数
模型总参数 15B+
训练硬件 400×NVIDIA H100
训练分辨率 480P
最大生成帧数 161帧
默认帧率 16fps
支持模态 文本、图像、视频
显存需求 完整加载≥45GB

3. 训练与推理设计

  • 训练采用全局Batch Size=400,在大规模多模态组合与推理增强数据上迭代优化,强化模型对复杂意图的理解能力。

  • 推理支持CPU Offloading显存优化,可将部分参数卸载至内存,降低单卡显存门槛;同时支持8卡并行推理,提升生成速度。

  • 采用潜空间扩散生成方式,先在低维潜变量中迭代去噪,再通过VAE解码为像素级视频,平衡速度与画质。

四、典型应用场景

  1. 内容创作与短视频生产
    快速将文案、参考图生成营销短视频、剧情片段、知识科普视频,无需拍摄与剪辑,大幅降低内容生产周期。

  2. 影视与动画前期预演
    导演可通过文字+分镜图组合生成动态预演视频,验证镜头逻辑、场景衔接与叙事节奏,提升前期创作效率。

  3. 数字内容与AIGC工具开发
    开发者基于开源代码封装视频生成API、搭建在线创作平台,或集成到剪辑软件、设计工具中提供AI生成能力。

  4. 学术研究与模型迭代
    为视频生成、多模态大模型、时序扩散模型方向提供研究基座,支持架构改进、微调优化、新评测方法探索。

  5. 企业宣传与视觉素材制作
    品牌方快速生成产品展示视频、活动宣传短片、虚拟场景演示,低成本批量产出高质量视觉素材。

  6. 教育与虚拟演示内容
    生成教学动画、实验演示、虚拟场景讲解视频,适用于在线教育、课件制作、职业培训等场景。

五、快速使用方法

1. 环境准备

# 克隆仓库
git clone https://github.com/Tencent-Hunyuan/OmniWeaving.git
cd OmniWeaving

# 创建虚拟环境
conda create -n omniweaving python=3.10
conda activate omniweaving

# 安装依赖
pip install -r requirements.txt

2. 模型权重获取

从Hugging Face下载tencent/HY-OmniWeaving权重,放置到项目指定目录:

huggingface-cli download tencent/HY-OmniWeaving --local-dir ./weights

3. 基础推理命令

# 文生视频基础推理
python generate.py \
 --prompt "A cat walking on a snowy mountain at sunset" \
 --model_path ./weights \
 --fps 16 \
 --frames 81 \
 --output ./output/cat_video.mp4

4. 多模态组合推理

# 文本+图像生成视频
python generate.py \
 --prompt "A dog running in the park, sunny day" \
 --image_path ./ref/dog.jpg \
 --model_path ./weights \
 --output ./output/dog_park.mp4

5. 显存优化配置

开启CPU卸载降低显存占用:

python generate.py \
 --prompt "Your prompt" \
 --cpu_offload True \
 --output ./output/video.mp4

OmniWeaving:腾讯混元联合浙大等开源的统一视频生成模型

六、竞品对比分析

当前主流视频生成模型可分为开源与闭源两类,OmniWeaving在开源性、模态组合、智能推理维度具备显著优势。

对比维度 OmniWeavingSeedance 2.0 Open-Sora-PlanUnivideo
开源状态 完全开源 闭源 部分开源 部分开源
模态组合 文本/图像/视频自由组合 多模态受限 以文本为主 单模态为主
意图推理 强推理能力 基础指令跟随 弱推理 无推理
生成分辨率 480P 2K 720P 480P
本地部署 支持 不支持 支持 支持
模型规模 15B+ 超大闭源模型 轻量/中型 中型

核心优势总结:

  • 对比闭源的Seedance 2.0:OmniWeaving完全开源可本地部署,数据隐私可控,支持微调与二次开发。

  • 对比Open-Sora-Plan、Univideo:OmniWeaving具备原生意图推理与自由模态组合能力,更适合复杂创作需求。

七、常见问题解答

Q:OmniWeaving支持最高多大分辨率和时长?

A:官方默认支持480P分辨率,最长可生成161帧视频,16fps下约10秒;通过参数调整可在显存允许范围内小幅扩展时长与分辨率。

Q:单张显卡可以运行OmniWeaving吗?

A:官方推荐8卡H100并行推理,完整模型加载需≥45GB显存;开启CPU Offloading后,可在24GB及以上显存显卡运行,速度会明显降低。

Q:OmniWeaving支持商用吗?

A:项目遵循开源协议,允许非商用与商用使用,具体授权条款以仓库LICENSE文件为准,使用前建议仔细阅读。

Q:生成视频出现闪烁、卡顿如何解决?

A:可增加生成帧数、提升采样步数、关闭不必要的显存优化、使用官方默认参数配置,同时确保显卡驱动与PyTorch版本为最新稳定版。

Q:如何微调OmniWeaving适配自定义数据集?

A:仓库提供train.py训练脚本与process_data数据处理工具,按照文档格式整理自定义数据,配置训练参数即可启动微调。

Q:IntelligentVBench评测基准如何使用?

A:项目内置intelligentVBench目录,包含测试用例与评测脚本,直接运行对应脚本即可在模型上完成自动化评测并输出结果。

Q:是否支持ComfyUI等可视化工具调用?

A:社区已推出ComfyUI适配节点,可通过第三方插件实现可视化调用,官方仓库会持续更新生态适配方案。

八、官方链接

九、总结

OmniWeaving作为腾讯混元团队开源的统一视频生成模型,以多模态自由组合、强意图推理、高生成质量为核心优势,搭配完整的代码、权重、训练工具与专业评测基准,解决了传统视频生成模型模态单一、逻辑薄弱、部署受限的行业痛点,既为AI视频生成领域提供了可直接使用的研究基座,也为开发者与企业提供了可落地、可定制、可商用的开源方案,凭借开源开放与智能生成的双重特性,成为当前AIGC视频方向极具价值的技术项目。

打赏
THE END
作者头像
dotaai
正在和我的聊天机器人谈恋爱,它很会捧场。