Helios：北大开源的实时长视频生成模型，单卡19.5FPS实现分钟级高质量无漂移创作

原创发布日期：2026-03-09

153

一、Helios是什么

Helios是由北京大学YuanGroup开源的140亿参数级实时长视频生成模型，是业内首个在单张NVIDIA H100 GPU上实现19.5 FPS端到端推理、并稳定支持分钟级时长视频生成的大模型。该项目以“高速度、高画质、长时长、低门槛、低显存”为核心目标，彻底解决传统长视频生成中普遍存在的画面漂移、帧率过低、显存爆炸、部署复杂四大行业痛点。

Helios基于自回归扩散模型（Autoregressive Diffusion） 架构，采用统一输入表示设计，原生支持文本生成视频（T2V）、图像生成视频（I2V）、视频编辑/续编（V2V） 三大核心任务，无需额外插件即可完成从文字到成片、从图片到动态画面、从短视频到长视频的全流程创作。

该项目完全开源，包含训练代码、推理代码、模型权重、评估脚本、部署工具，同时兼容NVIDIA GPU与华为昇腾NPU，支持Hugging Face Diffusers、vLLM-Omni、SGLang-Diffusion主流生态，是面向科研人员、开发者、内容创作者的工业级视频生成基座。

二、功能特色

Helios的核心竞争力体现在三大颠覆性突破与五大实用功能，在不依赖传统优化技巧的前提下，实现长视频生成的性能与效果双跃升。

（一）三大核心突破

无抗漂移技巧，长视频依然高度连贯
不使用自强制、误差库、关键帧采样、反向采样等常规抗漂移手段，仅依靠模型架构与时序建模能力，即可生成分钟级无抖动、无变形、无色彩失真的稳定视频。
无标准加速技术，推理速度达到实时级
摒弃KV缓存、稀疏注意力、线性注意力、量化、TinyVAE、渐进式调度等行业通用加速方案，14B大模型依然在单H100上跑出19.5 FPS，昇腾NPU约10 FPS，达到流畅播放标准。
无分布式框架，训练显存占用极低
训练阶段不依赖模型并行、张量分片、ZeRO等分布式框架，80GB显存可同时加载4个14B模型，批次大小达到图像扩散模型级别，大幅降低训练硬件门槛。

（二）五大实用功能

多模态统一生成
一套模型支持T2V、I2V、V2V，输入文本、单张图像、一段视频，均可输出高质量长视频。
分钟级时长支持
突破短视频生成限制，稳定输出60秒以上高连贯视频，满足影视、广告、教学等长内容需求。
单卡低成本部署
消费级/企业级单卡即可运行，无需多机多卡集群，个人与小团队均可落地使用。
多硬件全兼容
原生支持NVIDIA H100/A100/4090，同时深度适配华为昇腾NPU，国产化生态友好。
开箱即用工具链
提供Gradio Demo、命令行推理、训练脚本、评估指标、示例Prompt，降低二次开发成本。

（三）核心性能对比表

对比维度	传统长视频模型	Helios
模型参数	常见7B~13B	14B
单卡帧率	1~5 FPS	19.5 FPS（H100）
最大时长	10~30秒	分钟级
抗漂移手段	必须依赖多种技巧	无需任何常规抗漂移
加速技术	必须依赖KV缓存/量化等	无需标准加速方案
显存占用（80GB）	仅能加载1个模型	可加载4个14B模型
支持任务	单一T2V为主	T2V+I2V+V2V统一支持
硬件支持	以NVIDIA为主	NVIDIA+昇腾NPU双支持

Helios：北大开源的实时长视频生成模型，单卡19.5FPS实现分钟级高质量无漂移创作

三、技术细节

Helios的技术设计围绕时序一致性、推理效率、显存优化三大方向展开，架构简洁但极具创新性。

（一）模型架构

统一模态输入表示
将文本、图像、视频特征映射到同一隐空间，用一套解码器完成所有生成任务，减少多任务适配开销。
时序感知扩散Transformer
采用改进的DiT架构，强化时序依赖建模，让每一帧生成都能精准对齐历史画面，避免结构崩坏。
轻量化时序注意力
通过窗口式时序关联，只关注近邻帧信息，既保证连贯性，又大幅降低计算量。
首帧色彩锚定机制
以第一帧为色彩基准，全程保持色调、亮度、饱和度一致，解决长视频变色问题。

（二）推理机制

纯自回归一步生成
不使用循环生成、拼接生成，直接按时序逐帧输出，逻辑简单、稳定性强。
无缓存动态调度
不保留历史KV，每帧独立计算但保持时序关联，在速度与画质间取得最优平衡。
动态分辨率适配
支持从360P到1080P灵活输出，根据硬件能力自动调节，兼顾速度与清晰度。

（三）训练设计

高吞吐训练策略
优化前向与反向传播链路，训练吞吐量达到同类模型3倍以上。
极低显存训练
无需分片即可训练14B模型，单卡可启动训练，集群可大幅放大批次。
多任务混合训练
同时使用文本-视频、图像-视频、视频-视频数据联合训练，泛化能力更强。

（四）技术指标表

技术项	规格
模型类型	自回归扩散模型（Autoregressive Diffusion）
参数规模	140亿
推理帧率	19.5 FPS（单H100）；约10 FPS（昇腾NPU）
支持分辨率	最高1080P
最大时长	分钟级
支持模态	文本、图像、视频
显存需求	训练/推理均支持单80GB显卡
训练框架	PyTorch
推理兼容	Diffusers、vLLM-Omni、SGLang-Diffusion
硬件支持	NVIDIA、华为昇腾NPU

四、应用场景

Helios凭借长时长、高速度、高质量、低成本的特性，可广泛落地于内容生产、影视制作、教育培训、数字人、广告营销、游戏素材等领域。

短视频/中长视频创作
个人博主、自媒体、MCN机构快速生成剧情、知识讲解、产品展示视频。
影视与动画预演
导演、编剧用文本快速生成镜头预览，降低实拍与渲染成本。
广告与营销素材
品牌方批量生成产品动态展示、场景化广告短片，提升素材产出效率。
教育培训课件
将教案、PPT转化为动态讲解视频，降低微课制作门槛。
数字人内容产出
驱动数字人生成连续动作与表情，制作长时直播、讲解、对话视频。
游戏与虚拟素材
生成游戏场景动画、NPC动作、剧情过场片段。
视频修复与续编
对老视频、短视频进行补帧、延长、风格化编辑。
科研与教学演示
用于AI生成模型、计算机视觉课程的教学与实验基座。

五、使用方法

Helios提供完整的环境配置、训练、推理、部署流程，以下为官方标准步骤。

（一）环境准备

硬件要求

推理：NVIDIA H100/A100/4090（80GB）或昇腾NPU
训练：单卡80GB即可起步，多卡可加速

系统与依赖

Linux（推荐）
Python 3.10+
PyTorch 2.0+
CUDA 11.8/12.6/12.8 或昇腾CANN

（二）快速安装

克隆仓库

git clone https://github.com/PKU-YuanGroup/Helios
cd Helios

创建Conda环境

conda create -n helios python=3.10
conda activate helios

安装依赖

GPU版本：

pip install -r requirements.txt

昇腾NPU版本：

pip install -r requirements_npu.txt

下载模型权重
从Hugging Face获取Helios-Base、Helios-Mid、Helios-Distilled权重。

（三）推理运行

命令行推理

python infer_helios.py --prompt "你的文本提示词" --model 权重路径 --output 输出视频路径

启动Gradio Demo

python app.py

启动后打开浏览器访问本地端口，即可可视化生成视频。

（四）模型训练

python train_helios.py --config 配置文件路径

支持单卡/多卡训练，无需分布式框架。

（五）效果评估

使用eval目录下脚本自动评估美学得分、运动幅度、语义一致性、自然度、帧间连贯性等指标。

六、常见问题解答

Helios需要什么显卡才能运行？

推荐使用80GB显存的NVIDIA H100、A100或RTX 4090；昇腾NPU也可良好支持。低显存显卡可降低分辨率与时长运行。

Helios生成视频最长能到多少秒？

官方支持分钟级生成，在单H100上可稳定生成60秒以上高连贯视频，具体时长受分辨率与显存影响。

Helios是否需要安装复杂的加速库？

不需要。Helios不依赖KV缓存、量化、稀疏注意力等加速技术，标准PyTorch环境即可运行。

Helios支持中文Prompt吗？

支持。模型对中英文提示词均有良好理解能力，可直接用中文描述生成需求。

Helios可以商用吗？

项目采用开源协议，允许学术与商用使用，具体以仓库LICENSE文件为准。

没有GPU可以使用Helios吗？

目前暂不支持CPU推理，可使用云服务器租赁H100/A100实例运行。

Helios支持图像生成视频吗？

支持。输入单张图片，即可生成动态视频，属于原生支持的I2V能力。

如何提高生成视频的清晰度？

提高分辨率参数、优化提示词、使用Base版模型（而非蒸馏版）可提升清晰度。

Helios训练需要多卡吗？

不需要。单80GB显卡即可训练14B模型，多卡可提升训练速度。

Helios会画面漂移或变色吗？

在官方配置下，Helios具备强抗漂移与色彩稳定能力，几乎不会出现明显漂移与变色。

七、相关链接

GitHub开源仓库：https://github.com/PKU-YuanGroup/Helios
技术论文arXiv：https://arxiv.org/abs/2603.04379
Hugging Face模型权重：https://huggingface.co/BestWishYsh/Helios-Distilled

八、总结

Helios是北京大学YuanGroup推出的开源140亿参数实时长视频生成模型，以无需传统抗漂移与加速技巧即可实现单卡19.5 FPS推理、分钟级高质量连贯视频生成为核心优势，统一支持文本、图像、视频多模态输入，兼顾训练与推理的低显存占用，兼容NVIDIA与昇腾NPU硬件，提供完整的代码、权重、工具链，大幅降低长视频生成的技术与硬件门槛，为内容创作、影视、广告、教育、数字人等领域提供高效、稳定、易用的AI视频生成基座，是当前长视频生成方向极具代表性的开源工业级方案。

AI生成视频文生视频图生视频开源AI模型

打赏

版权及免责申明：本文由@AI工具集原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/helios.html

THE END

AI工具集

工具不孤岛，AI集大成——这里有你要的一切智能解法

+ 关注

Helios：北大开源的实时长视频生成模型，单卡19.5FPS实现分钟级高质量无漂移创作

文章目录

一、Helios是什么

二、功能特色

（一）三大核心突破

（二）五大实用功能

（三）核心性能对比表

三、技术细节

（一）模型架构

（二）推理机制

（三）训练设计

（四）技术指标表

四、应用场景

五、使用方法

（一）环境准备

（二）快速安装

（三）推理运行

（四）模型训练

（五）效果评估

六、常见问题解答

七、相关链接

八、总结

相关文章