Bernini:字节跳动开源的轻量化AI视频生成编辑框架

原创 发布日期:
65

一、Bernini是什么

Bernini是字节跳动自研、基于Apache2.0开源协议发布的一站式AI视频生成与视频编辑框架,项目命名取自意大利著名雕塑大师贝尼尼,寓意模型具备精细化画面塑造、影视级内容创作能力。

本项目由字节内部伯尼尼研发团队落地,整体依托大语言模型语义规划器+DiT视频扩散渲染引擎双链路架构设计,打破传统文生视频模型“提示词理解偏差、帧间物体漂移、视频编辑破坏原有构图”的行业通病。现阶段开源版本为Bernini-R渲染分支,开放视频渲染全量推理源码与配套预训练权重,上游MLLM语义规划核心模块暂未开源,仅对外提供标准化调用接口规范。

不同于市面单一功能的文生视频开源项目,Bernini定位为统一多模态内容生产底座,兼容文生视频、图生视频、视频二次编辑、参考图约束生成四大核心业务形态,底层基于Wan系列视频模型基座叠加自研位置编码优化方案,兼顾落地轻量化部署与商用级画质输出双重需求。

二、功能特色

2.1 核心产品功能

  • T2V文生视频:自然语言Prompt直接生成4~16秒高清短视频,支持画风、镜头运镜、环境光影、场景细节精细化描述生成;

  • V2V智能视频编辑(王牌功能):依托文本指令对已有成品视频做定向修改,支持替换天气、增减画面物体、更换场景背景、修改画面色调、替换广告牌贴图,修改内容不破坏原始视频人物结构、空间透视与运动轨迹;

  • IR-V2V参考图约束生成:输入1~N张参考图像锁定角色形象、场景风格、配色体系,基于参考素材生成连贯同设定短视频,规避AI生成人物五官崩坏、画风跳变问题;

  • 附属静态图像生成:框架附带图像生成分支,可实现文生图、图生图AI绘图,一套环境同时满足图文、视频两类生成需求。

2.2 框架产品优势特色

  1. 前置语义规划机制:区别传统扩散模型直接编码提示词的逻辑,先由大模型拆解用户指令,输出结构化画面规划文档,定义每帧物体坐标、运动轨迹、光影参数,渲染阶段严格遵照规划结果作画;

  2. 全链路统一运行环境:文生视频、视频编辑、参考生成复用同一套底层权重与推理代码,无需安装多套依赖环境,大幅降低多业务切换部署成本;

  3. 硬件适配灵活:支持单卡消费级显卡(16G显存起步)本地部署、多卡分布式推理、云端容器化部署,同时兼容CUDA与CPU慢速推理;

  4. 开源协议宽松:Apache2.0开源协议,个人学习、企业商用二次开发均无版权捆绑限制。

Bernini:字节跳动开源的轻量化AI视频生成编辑框架

三、技术细节

3.1 整体双层架构

Bernini采用规划层+渲染层解耦双层技术架构,两层数据通过标准化JSON规划文档完成数据互通:

  1. 上层:MLLM Semantic Planner(语义规划层)
    输入内容包含文本提示词、原图素材、原视频帧数据,由大模型完成意图理解,输出结构化潜空间规划表,内容包含:场景层级划分、实体边界坐标、物体运动向量、镜头推拉摇移参数、全局光照参数。规划结果作为渲染层的约束条件,从源头减少生成画面逻辑错乱。该模块闭源,开源版仅预留对接入参接口。

  2. 下层:Bernini-R DiT Renderer(渲染层,全开源)
    基于DiT(Diffusion Transformer)架构改造,以字节自研Wan2.2视频模型作为基础骨干网络,叠加自研SA-3D RoPE分段感知三维位置编码技术,是整套框架可视化内容生成核心。

3.2 关键自研技术拆解

3.2.1 SA-3D RoPE编码

传统3D RoPE对整段视频统一位置编码,长序列视频容易出现前后帧空间错位、物体漂移;SA-3D RoPE按照画面空间区块+时序分段双维度编码,横向拆分画面空间区域、纵向拆分视频时间切片,分别注入位置信息,显著提升长时序视频帧间一致性,有效解决AI视频常见“人物变形、物体瞬移”痛点。

3.2.2 潜空间定向编辑算子

针对V2V视频编辑场景,模型不在像素空间直接修改画面,而是在潜空间依据规划参数微调特征张量,最大程度保留原视频主体结构、运动逻辑,实现局部画面无损替换,是Bernini视频编辑效果优于同类开源项目的关键技术。

3.3 底层环境与代码结构

Bernini-R/
├── diffusers_pipeline/   # Diffusers标准化调用封装代码
├── model_core/       # DiT主干网络与SA-3D RoPE实现源码
├── preprocess_tools/   # 视频、图片预处理工具集
├── weight_config/     # 权重加载配置文件
└── demo_sample/      # 官方测试示例脚本

项目原生基于PyTorch深度学习框架开发,依赖transformers、diffusers、accelerate、torchvision四大主流AI依赖库,权重采用bfloat16精度存储,兼顾显存占用与生成画质。

3.4 权重分发规则

预训练权重拆分两类:Wan2.2通用基座权重 + Bernini-R专属微调权重,托管于Hugging Face平台ByteDance/Bernini-R-Diffusers仓库,支持自动拉取与本地手动下载两种加载方式。

四、应用场景

4.1 C端个人创作者场景

  1. 短视频自媒体创作:文案一键生成剧情短视频、实拍短视频局部画面修改(替换背景、添加特效物体),降低短视频剪辑与实拍成本;

  2. 画师IP衍生创作:手绘稿作为参考图,批量生成同画风动态短片,用于动漫短预告、插画动态化。

4.2 B端企业商用场景

  1. 传媒影视小样试制:影视、广告行业根据脚本快速生成分镜动态小样,提前预览成片效果,缩减实拍试拍开销;

  2. 电商产品短视频:产品实拍图+文案描述生成商品展示短视频,适配抖音、快手电商好物种草内容生产;

  3. 教育课件动态素材:教辅机构一键生成科普动画短片、课程动态配图,丰富线上课件素材库。

4.3 技术研发场景

  1. AI算法二次研发:科研机构、AI公司基于开源渲染代码,迭代优化自有视频生成模型;

  2. AI工具二次封装:开发者基于Bernini-R底层封装在线AI视频生成网页工具、客户端软件。

arena

五、使用方法

5.1 环境前置准备

硬件最低配置:NVIDIA显卡≥16GB显存;推荐配置:24GB及以上RTX显卡;软件环境:Python3.9~3.11、CUDA11.8/12.1。
第一步执行依赖安装指令:

pip install torch torchvision transformers diffusers accelerate safetensors --upgrade

5.2 最简文生视频调用示例

from diffusers import DiffusionPipeline
import torch

# 加载预训练模型
pipe = DiffusionPipeline.from_pretrained(
  "ByteDance/Bernini-R-Diffusers",
  torch_dtype=torch.bfloat16,
  device_map="cuda"
)
# 输入提示词生成视频
result = pipe(prompt="雪山脚下木屋,清晨薄雾,缓慢平移镜头,写实8K画质")
# 保存生成视频
result.save("output_video.mp4")

5.3 V2V视频编辑使用流程

  1. 导入本地原始MP4视频,使用内置preprocess_tools完成视频抽帧与特征预处理;

  2. 填写编辑指令(例如:把晴天改成大雪天气);

  3. 模型自动生成语义规划参数,潜空间修改画面特征,导出编辑完成的新视频文件。

5.4 离线本地权重部署方案

无法联网自动拉取权重时,前往Hugging Face手动下载全量权重文件,修改weight_config内路径参数指向本地权重文件夹即可离线运行。

六、竞品对比

选取当下主流三款开源文生视频项目:Bernini、Open-Sora Plan、Wan-Video做横向参数对比:

对比项目 Bernini(Bernini-R) Open-Sora Plan Wan-Video(原生开源版)
开发厂商 字节跳动自研 社区开源项目(非大厂) 字节Wan团队
核心架构 MLLM规划+DiT渲染双层架构 纯DiT扩散单架构 原生DiT单模型架构
核心优势 视频局部编辑能力突出、帧间稳定性强 开源完整度高、长视频拓展性好 原生生成画质优秀、推理速度快
短板 上层规划模块闭源、仅开放渲染层 无原生V2V编辑能力,需二次开发 视频编辑需额外微调权重,原生不支持指令改视频
显存门槛 16GB起步 20GB起步 14GB起步
商用协议 Apache2.0可商用 MIT协议可商用 Apache2.0可商用
主打场景 文生视频+AI视频编辑双主线 超长时序文生视频 高清文生图、文生短视频

补充说明:Wan-Video为Bernini的底层基座模型,Bernini在Wan原生能力之上叠加编辑与语义规划优化,因此编辑能力显著优于原生Wan-Video。

七、常见问题解答

Q1:Bernini全量项目是否完整开源,包含MLLM规划模块源码?

A:当前仅开源Bernini-R渲染模块全部代码与权重,负责语义解析的MLLM Planner规划模块并未开源,官方仅在代码内预留标准化入参接口,用户可自行接入第三方大模型实现自建规划层。

Q2:本地部署提示显存不足,16G显存显卡运行报错如何解决?

A:可在代码中启用pipe.enable_vae_slicing()pipe.enable_attention_slicing()显存分片优化接口,开启后可降低30%左右显存占用,代价是生成速度小幅下降;也可选用bfloat16量化精度加载权重,避免fp32高精度带来的显存溢出。

Q3:生成视频出现画面闪烁、物体频繁漂移是什么原因?

A:大概率是提示词描述模糊导致规划参数错乱,优化提示词补充镜头运动、物体固定描述;其次检查SA-3D RoPE模块代码是否完整,缺失自研位置编码会直接破坏帧间稳定性。

Q4:能否基于本项目进行闭源商业化产品开发?

A:项目采用Apache2.0开源协议,允许个人与企业修改源码、闭源封装商用产品,无强制开源衍生项目的约束,仅需要遵循协议标注原项目版权信息。

Q5:V2V视频编辑时修改局部画面却全图变色如何处理?

A:预处理阶段关闭全局色彩归一化参数,同时细化编辑Prompt,精准限定修改区域,依托规划器锁定非修改区域画面特征,避免全局潜空间特征被篡改。

Q6:无法自动从Hugging Face拉取模型权重该怎么办?

A:手动访问Hugging Face对应仓库打包下载全部权重文件,在配置文件中修改权重本地路径,使用本地离线权重加载运行。

八、相关链接

  1. GitHub仓库地址:https://github.com/bytedance/Bernini

  2. Hugging Face仓库:https://huggingface.co/ByteDance/Bernini

  3. Bernini项目官方产品主页:https://bernini-ai.github.io

  4. 项目配套学术论文:https://arxiv.org/abs/2605.22344

九、总结

Bernini作为字节跳动正式对外开源的视频生成与编辑一体化AI框架,凭借语义规划加扩散渲染的双层创新架构,补齐了传统开源文生视频工具编辑能力薄弱、画面稳定性不足的行业短板,依托成熟的Wan模型基座与SA-3D RoPE自研技术,在兼顾生成画质的同时降低了本地部署硬件门槛,宽松的Apache2.0开源协议进一步拓宽了个人学习、自媒体创作、企业商用、二次开发等落地边界,既为普通内容创作者提供低成本AI成片工具,也为AI研发从业者提供了可落地的视频生成底层参考工程,是现阶段综合实用性靠前的国产开源多模态视频生成项目。

打赏
THE END
作者头像
97ai
我不是在训练模型,而是在与未来的自己对话。