Helios:北大开源的实时长视频生成模型,单卡19.5FPS实现分钟级高质量无漂移创作
一、Helios是什么
Helios是由北京大学YuanGroup开源的140亿参数级实时长视频生成模型,是业内首个在单张NVIDIA H100 GPU上实现19.5 FPS端到端推理、并稳定支持分钟级时长视频生成的大模型。该项目以“高速度、高画质、长时长、低门槛、低显存”为核心目标,彻底解决传统长视频生成中普遍存在的画面漂移、帧率过低、显存爆炸、部署复杂四大行业痛点。
Helios基于自回归扩散模型(Autoregressive Diffusion) 架构,采用统一输入表示设计,原生支持文本生成视频(T2V)、图像生成视频(I2V)、视频编辑/续编(V2V) 三大核心任务,无需额外插件即可完成从文字到成片、从图片到动态画面、从短视频到长视频的全流程创作。
该项目完全开源,包含训练代码、推理代码、模型权重、评估脚本、部署工具,同时兼容NVIDIA GPU与华为昇腾NPU,支持Hugging Face Diffusers、vLLM-Omni、SGLang-Diffusion主流生态,是面向科研人员、开发者、内容创作者的工业级视频生成基座。
二、功能特色
Helios的核心竞争力体现在三大颠覆性突破与五大实用功能,在不依赖传统优化技巧的前提下,实现长视频生成的性能与效果双跃升。
(一)三大核心突破
无抗漂移技巧,长视频依然高度连贯
不使用自强制、误差库、关键帧采样、反向采样等常规抗漂移手段,仅依靠模型架构与时序建模能力,即可生成分钟级无抖动、无变形、无色彩失真的稳定视频。无标准加速技术,推理速度达到实时级
摒弃KV缓存、稀疏注意力、线性注意力、量化、TinyVAE、渐进式调度等行业通用加速方案,14B大模型依然在单H100上跑出19.5 FPS,昇腾NPU约10 FPS,达到流畅播放标准。无分布式框架,训练显存占用极低
训练阶段不依赖模型并行、张量分片、ZeRO等分布式框架,80GB显存可同时加载4个14B模型,批次大小达到图像扩散模型级别,大幅降低训练硬件门槛。
(二)五大实用功能
多模态统一生成
一套模型支持T2V、I2V、V2V,输入文本、单张图像、一段视频,均可输出高质量长视频。分钟级时长支持
突破短视频生成限制,稳定输出60秒以上高连贯视频,满足影视、广告、教学等长内容需求。单卡低成本部署
消费级/企业级单卡即可运行,无需多机多卡集群,个人与小团队均可落地使用。多硬件全兼容
原生支持NVIDIA H100/A100/4090,同时深度适配华为昇腾NPU,国产化生态友好。开箱即用工具链
提供Gradio Demo、命令行推理、训练脚本、评估指标、示例Prompt,降低二次开发成本。
(三)核心性能对比表
| 对比维度 | 传统长视频模型 | Helios |
|---|---|---|
| 模型参数 | 常见7B~13B | 14B |
| 单卡帧率 | 1~5 FPS | 19.5 FPS(H100) |
| 最大时长 | 10~30秒 | 分钟级 |
| 抗漂移手段 | 必须依赖多种技巧 | 无需任何常规抗漂移 |
| 加速技术 | 必须依赖KV缓存/量化等 | 无需标准加速方案 |
| 显存占用(80GB) | 仅能加载1个模型 | 可加载4个14B模型 |
| 支持任务 | 单一T2V为主 | T2V+I2V+V2V统一支持 |
| 硬件支持 | 以NVIDIA为主 | NVIDIA+昇腾NPU双支持 |

三、技术细节
Helios的技术设计围绕时序一致性、推理效率、显存优化三大方向展开,架构简洁但极具创新性。
(一)模型架构
统一模态输入表示
将文本、图像、视频特征映射到同一隐空间,用一套解码器完成所有生成任务,减少多任务适配开销。时序感知扩散Transformer
采用改进的DiT架构,强化时序依赖建模,让每一帧生成都能精准对齐历史画面,避免结构崩坏。轻量化时序注意力
通过窗口式时序关联,只关注近邻帧信息,既保证连贯性,又大幅降低计算量。首帧色彩锚定机制
以第一帧为色彩基准,全程保持色调、亮度、饱和度一致,解决长视频变色问题。
(二)推理机制
纯自回归一步生成
不使用循环生成、拼接生成,直接按时序逐帧输出,逻辑简单、稳定性强。无缓存动态调度
不保留历史KV,每帧独立计算但保持时序关联,在速度与画质间取得最优平衡。动态分辨率适配
支持从360P到1080P灵活输出,根据硬件能力自动调节,兼顾速度与清晰度。
(三)训练设计
高吞吐训练策略
优化前向与反向传播链路,训练吞吐量达到同类模型3倍以上。极低显存训练
无需分片即可训练14B模型,单卡可启动训练,集群可大幅放大批次。多任务混合训练
同时使用文本-视频、图像-视频、视频-视频数据联合训练,泛化能力更强。
(四)技术指标表
| 技术项 | 规格 |
|---|---|
| 模型类型 | 自回归扩散模型(Autoregressive Diffusion) |
| 参数规模 | 140亿 |
| 推理帧率 | 19.5 FPS(单H100);约10 FPS(昇腾NPU) |
| 支持分辨率 | 最高1080P |
| 最大时长 | 分钟级 |
| 支持模态 | 文本、图像、视频 |
| 显存需求 | 训练/推理均支持单80GB显卡 |
| 训练框架 | PyTorch |
| 推理兼容 | Diffusers、vLLM-Omni、SGLang-Diffusion |
| 硬件支持 | NVIDIA、华为昇腾NPU |
四、应用场景
Helios凭借长时长、高速度、高质量、低成本的特性,可广泛落地于内容生产、影视制作、教育培训、数字人、广告营销、游戏素材等领域。
短视频/中长视频创作
个人博主、自媒体、MCN机构快速生成剧情、知识讲解、产品展示视频。影视与动画预演
导演、编剧用文本快速生成镜头预览,降低实拍与渲染成本。广告与营销素材
品牌方批量生成产品动态展示、场景化广告短片,提升素材产出效率。教育培训课件
将教案、PPT转化为动态讲解视频,降低微课制作门槛。数字人内容产出
驱动数字人生成连续动作与表情,制作长时直播、讲解、对话视频。游戏与虚拟素材
生成游戏场景动画、NPC动作、剧情过场片段。视频修复与续编
对老视频、短视频进行补帧、延长、风格化编辑。科研与教学演示
用于AI生成模型、计算机视觉课程的教学与实验基座。
五、使用方法
Helios提供完整的环境配置、训练、推理、部署流程,以下为官方标准步骤。
(一)环境准备
硬件要求
推理:NVIDIA H100/A100/4090(80GB)或昇腾NPU
训练:单卡80GB即可起步,多卡可加速
系统与依赖
Linux(推荐)
Python 3.10+
PyTorch 2.0+
CUDA 11.8/12.6/12.8 或 昇腾CANN
(二)快速安装
克隆仓库
git clone https://github.com/PKU-YuanGroup/Helios cd Helios
创建Conda环境
conda create -n helios python=3.10 conda activate helios
安装依赖
GPU版本:
pip install -r requirements.txt
昇腾NPU版本:
pip install -r requirements_npu.txt
下载模型权重
从Hugging Face获取Helios-Base、Helios-Mid、Helios-Distilled权重。
(三)推理运行
命令行推理
python infer_helios.py --prompt "你的文本提示词" --model 权重路径 --output 输出视频路径
启动Gradio Demo
python app.py
启动后打开浏览器访问本地端口,即可可视化生成视频。
(四)模型训练
python train_helios.py --config 配置文件路径
支持单卡/多卡训练,无需分布式框架。
(五)效果评估
使用eval目录下脚本自动评估美学得分、运动幅度、语义一致性、自然度、帧间连贯性等指标。
六、常见问题解答
Helios需要什么显卡才能运行?
推荐使用80GB显存的NVIDIA H100、A100或RTX 4090;昇腾NPU也可良好支持。低显存显卡可降低分辨率与时长运行。
Helios生成视频最长能到多少秒?
官方支持分钟级生成,在单H100上可稳定生成60秒以上高连贯视频,具体时长受分辨率与显存影响。
Helios是否需要安装复杂的加速库?
不需要。Helios不依赖KV缓存、量化、稀疏注意力等加速技术,标准PyTorch环境即可运行。
Helios支持中文Prompt吗?
支持。模型对中英文提示词均有良好理解能力,可直接用中文描述生成需求。
Helios可以商用吗?
项目采用开源协议,允许学术与商用使用,具体以仓库LICENSE文件为准。
没有GPU可以使用Helios吗?
目前暂不支持CPU推理,可使用云服务器租赁H100/A100实例运行。
Helios支持图像生成视频吗?
支持。输入单张图片,即可生成动态视频,属于原生支持的I2V能力。
如何提高生成视频的清晰度?
提高分辨率参数、优化提示词、使用Base版模型(而非蒸馏版)可提升清晰度。
Helios训练需要多卡吗?
不需要。单80GB显卡即可训练14B模型,多卡可提升训练速度。
Helios会画面漂移或变色吗?
在官方配置下,Helios具备强抗漂移与色彩稳定能力,几乎不会出现明显漂移与变色。
七、相关链接
GitHub开源仓库:https://github.com/PKU-YuanGroup/Helios
技术论文arXiv:https://arxiv.org/abs/2603.04379
Hugging Face模型权重:https://huggingface.co/BestWishYsh/Helios-Distilled
八、总结
Helios是北京大学YuanGroup推出的开源140亿参数实时长视频生成模型,以无需传统抗漂移与加速技巧即可实现单卡19.5 FPS推理、分钟级高质量连贯视频生成为核心优势,统一支持文本、图像、视频多模态输入,兼顾训练与推理的低显存占用,兼容NVIDIA与昇腾NPU硬件,提供完整的代码、权重、工具链,大幅降低长视频生成的技术与硬件门槛,为内容创作、影视、广告、教育、数字人等领域提供高效、稳定、易用的AI视频生成基座,是当前长视频生成方向极具代表性的开源工业级方案。
版权及免责申明:本文由@AI工具集原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/helios.html

