Bernini:字节跳动开源的轻量化AI视频生成编辑框架
一、Bernini是什么
Bernini是字节跳动自研、基于Apache2.0开源协议发布的一站式AI视频生成与视频编辑框架,项目命名取自意大利著名雕塑大师贝尼尼,寓意模型具备精细化画面塑造、影视级内容创作能力。
本项目由字节内部伯尼尼研发团队落地,整体依托大语言模型语义规划器+DiT视频扩散渲染引擎双链路架构设计,打破传统文生视频模型“提示词理解偏差、帧间物体漂移、视频编辑破坏原有构图”的行业通病。现阶段开源版本为Bernini-R渲染分支,开放视频渲染全量推理源码与配套预训练权重,上游MLLM语义规划核心模块暂未开源,仅对外提供标准化调用接口规范。
不同于市面单一功能的文生视频开源项目,Bernini定位为统一多模态内容生产底座,兼容文生视频、图生视频、视频二次编辑、参考图约束生成四大核心业务形态,底层基于Wan系列视频模型基座叠加自研位置编码优化方案,兼顾落地轻量化部署与商用级画质输出双重需求。
二、功能特色
2.1 核心产品功能
✅ T2V文生视频:自然语言Prompt直接生成4~16秒高清短视频,支持画风、镜头运镜、环境光影、场景细节精细化描述生成;
✅ V2V智能视频编辑(王牌功能):依托文本指令对已有成品视频做定向修改,支持替换天气、增减画面物体、更换场景背景、修改画面色调、替换广告牌贴图,修改内容不破坏原始视频人物结构、空间透视与运动轨迹;
✅ IR-V2V参考图约束生成:输入1~N张参考图像锁定角色形象、场景风格、配色体系,基于参考素材生成连贯同设定短视频,规避AI生成人物五官崩坏、画风跳变问题;
✅ 附属静态图像生成:框架附带图像生成分支,可实现文生图、图生图AI绘图,一套环境同时满足图文、视频两类生成需求。
2.2 框架产品优势特色
前置语义规划机制:区别传统扩散模型直接编码提示词的逻辑,先由大模型拆解用户指令,输出结构化画面规划文档,定义每帧物体坐标、运动轨迹、光影参数,渲染阶段严格遵照规划结果作画;
全链路统一运行环境:文生视频、视频编辑、参考生成复用同一套底层权重与推理代码,无需安装多套依赖环境,大幅降低多业务切换部署成本;
硬件适配灵活:支持单卡消费级显卡(16G显存起步)本地部署、多卡分布式推理、云端容器化部署,同时兼容CUDA与CPU慢速推理;
开源协议宽松:Apache2.0开源协议,个人学习、企业商用二次开发均无版权捆绑限制。

三、技术细节
3.1 整体双层架构
Bernini采用规划层+渲染层解耦双层技术架构,两层数据通过标准化JSON规划文档完成数据互通:
上层:MLLM Semantic Planner(语义规划层)
输入内容包含文本提示词、原图素材、原视频帧数据,由大模型完成意图理解,输出结构化潜空间规划表,内容包含:场景层级划分、实体边界坐标、物体运动向量、镜头推拉摇移参数、全局光照参数。规划结果作为渲染层的约束条件,从源头减少生成画面逻辑错乱。该模块闭源,开源版仅预留对接入参接口。下层:Bernini-R DiT Renderer(渲染层,全开源)
基于DiT(Diffusion Transformer)架构改造,以字节自研Wan2.2视频模型作为基础骨干网络,叠加自研SA-3D RoPE分段感知三维位置编码技术,是整套框架可视化内容生成核心。
3.2 关键自研技术拆解
3.2.1 SA-3D RoPE编码
传统3D RoPE对整段视频统一位置编码,长序列视频容易出现前后帧空间错位、物体漂移;SA-3D RoPE按照画面空间区块+时序分段双维度编码,横向拆分画面空间区域、纵向拆分视频时间切片,分别注入位置信息,显著提升长时序视频帧间一致性,有效解决AI视频常见“人物变形、物体瞬移”痛点。
3.2.2 潜空间定向编辑算子
针对V2V视频编辑场景,模型不在像素空间直接修改画面,而是在潜空间依据规划参数微调特征张量,最大程度保留原视频主体结构、运动逻辑,实现局部画面无损替换,是Bernini视频编辑效果优于同类开源项目的关键技术。
3.3 底层环境与代码结构
Bernini-R/ ├── diffusers_pipeline/ # Diffusers标准化调用封装代码 ├── model_core/ # DiT主干网络与SA-3D RoPE实现源码 ├── preprocess_tools/ # 视频、图片预处理工具集 ├── weight_config/ # 权重加载配置文件 └── demo_sample/ # 官方测试示例脚本
项目原生基于PyTorch深度学习框架开发,依赖transformers、diffusers、accelerate、torchvision四大主流AI依赖库,权重采用bfloat16精度存储,兼顾显存占用与生成画质。
3.4 权重分发规则
预训练权重拆分两类:Wan2.2通用基座权重 + Bernini-R专属微调权重,托管于Hugging Face平台ByteDance/Bernini-R-Diffusers仓库,支持自动拉取与本地手动下载两种加载方式。
四、应用场景
4.1 C端个人创作者场景
短视频自媒体创作:文案一键生成剧情短视频、实拍短视频局部画面修改(替换背景、添加特效物体),降低短视频剪辑与实拍成本;
画师IP衍生创作:手绘稿作为参考图,批量生成同画风动态短片,用于动漫短预告、插画动态化。
4.2 B端企业商用场景
传媒影视小样试制:影视、广告行业根据脚本快速生成分镜动态小样,提前预览成片效果,缩减实拍试拍开销;
电商产品短视频:产品实拍图+文案描述生成商品展示短视频,适配抖音、快手电商好物种草内容生产;
教育课件动态素材:教辅机构一键生成科普动画短片、课程动态配图,丰富线上课件素材库。
4.3 技术研发场景
AI算法二次研发:科研机构、AI公司基于开源渲染代码,迭代优化自有视频生成模型;
AI工具二次封装:开发者基于Bernini-R底层封装在线AI视频生成网页工具、客户端软件。

五、使用方法
5.1 环境前置准备
硬件最低配置:NVIDIA显卡≥16GB显存;推荐配置:24GB及以上RTX显卡;软件环境:Python3.9~3.11、CUDA11.8/12.1。
第一步执行依赖安装指令:
pip install torch torchvision transformers diffusers accelerate safetensors --upgrade
5.2 最简文生视频调用示例
from diffusers import DiffusionPipeline
import torch
# 加载预训练模型
pipe = DiffusionPipeline.from_pretrained(
"ByteDance/Bernini-R-Diffusers",
torch_dtype=torch.bfloat16,
device_map="cuda"
)
# 输入提示词生成视频
result = pipe(prompt="雪山脚下木屋,清晨薄雾,缓慢平移镜头,写实8K画质")
# 保存生成视频
result.save("output_video.mp4")5.3 V2V视频编辑使用流程
导入本地原始MP4视频,使用内置preprocess_tools完成视频抽帧与特征预处理;
填写编辑指令(例如:把晴天改成大雪天气);
模型自动生成语义规划参数,潜空间修改画面特征,导出编辑完成的新视频文件。
5.4 离线本地权重部署方案
无法联网自动拉取权重时,前往Hugging Face手动下载全量权重文件,修改weight_config内路径参数指向本地权重文件夹即可离线运行。
六、竞品对比
选取当下主流三款开源文生视频项目:Bernini、Open-Sora Plan、Wan-Video做横向参数对比:
| 对比项目 | Bernini(Bernini-R) | Open-Sora Plan | Wan-Video(原生开源版) |
|---|---|---|---|
| 开发厂商 | 字节跳动自研 | 社区开源项目(非大厂) | 字节Wan团队 |
| 核心架构 | MLLM规划+DiT渲染双层架构 | 纯DiT扩散单架构 | 原生DiT单模型架构 |
| 核心优势 | 视频局部编辑能力突出、帧间稳定性强 | 开源完整度高、长视频拓展性好 | 原生生成画质优秀、推理速度快 |
| 短板 | 上层规划模块闭源、仅开放渲染层 | 无原生V2V编辑能力,需二次开发 | 视频编辑需额外微调权重,原生不支持指令改视频 |
| 显存门槛 | 16GB起步 | 20GB起步 | 14GB起步 |
| 商用协议 | Apache2.0可商用 | MIT协议可商用 | Apache2.0可商用 |
| 主打场景 | 文生视频+AI视频编辑双主线 | 超长时序文生视频 | 高清文生图、文生短视频 |
补充说明:Wan-Video为Bernini的底层基座模型,Bernini在Wan原生能力之上叠加编辑与语义规划优化,因此编辑能力显著优于原生Wan-Video。
七、常见问题解答
Q1:Bernini全量项目是否完整开源,包含MLLM规划模块源码?
A:当前仅开源Bernini-R渲染模块全部代码与权重,负责语义解析的MLLM Planner规划模块并未开源,官方仅在代码内预留标准化入参接口,用户可自行接入第三方大模型实现自建规划层。
Q2:本地部署提示显存不足,16G显存显卡运行报错如何解决?
A:可在代码中启用pipe.enable_vae_slicing()与pipe.enable_attention_slicing()显存分片优化接口,开启后可降低30%左右显存占用,代价是生成速度小幅下降;也可选用bfloat16量化精度加载权重,避免fp32高精度带来的显存溢出。
Q3:生成视频出现画面闪烁、物体频繁漂移是什么原因?
A:大概率是提示词描述模糊导致规划参数错乱,优化提示词补充镜头运动、物体固定描述;其次检查SA-3D RoPE模块代码是否完整,缺失自研位置编码会直接破坏帧间稳定性。
Q4:能否基于本项目进行闭源商业化产品开发?
A:项目采用Apache2.0开源协议,允许个人与企业修改源码、闭源封装商用产品,无强制开源衍生项目的约束,仅需要遵循协议标注原项目版权信息。
Q5:V2V视频编辑时修改局部画面却全图变色如何处理?
A:预处理阶段关闭全局色彩归一化参数,同时细化编辑Prompt,精准限定修改区域,依托规划器锁定非修改区域画面特征,避免全局潜空间特征被篡改。
Q6:无法自动从Hugging Face拉取模型权重该怎么办?
A:手动访问Hugging Face对应仓库打包下载全部权重文件,在配置文件中修改权重本地路径,使用本地离线权重加载运行。
八、相关链接
GitHub仓库地址:https://github.com/bytedance/Bernini
Hugging Face仓库:https://huggingface.co/ByteDance/Bernini
Bernini项目官方产品主页:https://bernini-ai.github.io
项目配套学术论文:https://arxiv.org/abs/2605.22344
九、总结
Bernini作为字节跳动正式对外开源的视频生成与编辑一体化AI框架,凭借语义规划加扩散渲染的双层创新架构,补齐了传统开源文生视频工具编辑能力薄弱、画面稳定性不足的行业短板,依托成熟的Wan模型基座与SA-3D RoPE自研技术,在兼顾生成画质的同时降低了本地部署硬件门槛,宽松的Apache2.0开源协议进一步拓宽了个人学习、自媒体创作、企业商用、二次开发等落地边界,既为普通内容创作者提供低成本AI成片工具,也为AI研发从业者提供了可落地的视频生成底层参考工程,是现阶段综合实用性靠前的国产开源多模态视频生成项目。
版权及免责申明:本文由@97ai原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/bernini.html

