Bernini：字节跳动开源的轻量化AI视频生成编辑框架

AI新闻 97ai 1个月前

143

一、Bernini是什么

Bernini是字节跳动自研、基于Apache2.0开源协议发布的一站式AI视频生成与视频编辑框架，项目命名取自意大利著名雕塑大师贝尼尼，寓意模型具备精细化画面塑造、影视级内容创作能力。

本项目由字节内部伯尼尼研发团队落地，整体依托大语言模型语义规划器+DiT视频扩散渲染引擎双链路架构设计，打破传统文生视频模型“提示词理解偏差、帧间物体漂移、视频编辑破坏原有构图”的行业通病。现阶段开源版本为Bernini-R渲染分支，开放视频渲染全量推理源码与配套预训练权重，上游MLLM语义规划核心模块暂未开源，仅对外提供标准化调用接口规范。

不同于市面单一功能的文生视频开源项目，Bernini定位为统一多模态内容生产底座，兼容文生视频、图生视频、视频二次编辑、参考图约束生成四大核心业务形态，底层基于Wan系列视频模型基座叠加自研位置编码优化方案，兼顾落地轻量化部署与商用级画质输出双重需求。

二、功能特色

2.1 核心产品功能

✅ T2V文生视频：自然语言Prompt直接生成4~16秒高清短视频，支持画风、镜头运镜、环境光影、场景细节精细化描述生成；
✅ V2V智能视频编辑（王牌功能）：依托文本指令对已有成品视频做定向修改，支持替换天气、增减画面物体、更换场景背景、修改画面色调、替换广告牌贴图，修改内容不破坏原始视频人物结构、空间透视与运动轨迹；
✅ IR-V2V参考图约束生成：输入1~N张参考图像锁定角色形象、场景风格、配色体系，基于参考素材生成连贯同设定短视频，规避AI生成人物五官崩坏、画风跳变问题；
✅ 附属静态图像生成：框架附带图像生成分支，可实现文生图、图生图AI绘图，一套环境同时满足图文、视频两类生成需求。

2.2 框架产品优势特色

前置语义规划机制：区别传统扩散模型直接编码提示词的逻辑，先由大模型拆解用户指令，输出结构化画面规划文档，定义每帧物体坐标、运动轨迹、光影参数，渲染阶段严格遵照规划结果作画；
全链路统一运行环境：文生视频、视频编辑、参考生成复用同一套底层权重与推理代码，无需安装多套依赖环境，大幅降低多业务切换部署成本；
硬件适配灵活：支持单卡消费级显卡（16G显存起步）本地部署、多卡分布式推理、云端容器化部署，同时兼容CUDA与CPU慢速推理；
开源协议宽松：Apache2.0开源协议，个人学习、企业商用二次开发均无版权捆绑限制。

Bernini：字节跳动开源的轻量化AI视频生成编辑框架

三、技术细节

3.1 整体双层架构

Bernini采用规划层+渲染层解耦双层技术架构，两层数据通过标准化JSON规划文档完成数据互通：

上层：MLLM Semantic Planner（语义规划层）
输入内容包含文本提示词、原图素材、原视频帧数据，由大模型完成意图理解，输出结构化潜空间规划表，内容包含：场景层级划分、实体边界坐标、物体运动向量、镜头推拉摇移参数、全局光照参数。规划结果作为渲染层的约束条件，从源头减少生成画面逻辑错乱。该模块闭源，开源版仅预留对接入参接口。
下层：Bernini-R DiT Renderer（渲染层，全开源）
基于DiT（Diffusion Transformer）架构改造，以字节自研Wan2.2视频模型作为基础骨干网络，叠加自研SA-3D RoPE分段感知三维位置编码技术，是整套框架可视化内容生成核心。

3.2 关键自研技术拆解

3.2.1 SA-3D RoPE编码

传统3D RoPE对整段视频统一位置编码，长序列视频容易出现前后帧空间错位、物体漂移；SA-3D RoPE按照画面空间区块+时序分段双维度编码，横向拆分画面空间区域、纵向拆分视频时间切片，分别注入位置信息，显著提升长时序视频帧间一致性，有效解决AI视频常见“人物变形、物体瞬移”痛点。

3.2.2 潜空间定向编辑算子

针对V2V视频编辑场景，模型不在像素空间直接修改画面，而是在潜空间依据规划参数微调特征张量，最大程度保留原视频主体结构、运动逻辑，实现局部画面无损替换，是Bernini视频编辑效果优于同类开源项目的关键技术。

3.3 底层环境与代码结构

Bernini-R/
├── diffusers_pipeline/   # Diffusers标准化调用封装代码
├── model_core/       # DiT主干网络与SA-3D RoPE实现源码
├── preprocess_tools/   # 视频、图片预处理工具集
├── weight_config/     # 权重加载配置文件
└── demo_sample/      # 官方测试示例脚本

项目原生基于PyTorch深度学习框架开发，依赖transformers、diffusers、accelerate、torchvision四大主流AI依赖库，权重采用bfloat16精度存储，兼顾显存占用与生成画质。

3.4 权重分发规则

预训练权重拆分两类：Wan2.2通用基座权重 + Bernini-R专属微调权重，托管于Hugging Face平台ByteDance/Bernini-R-Diffusers仓库，支持自动拉取与本地手动下载两种加载方式。

四、应用场景

4.1 C端个人创作者场景

短视频自媒体创作：文案一键生成剧情短视频、实拍短视频局部画面修改（替换背景、添加特效物体），降低短视频剪辑与实拍成本；
画师IP衍生创作：手绘稿作为参考图，批量生成同画风动态短片，用于动漫短预告、插画动态化。

4.2 B端企业商用场景

传媒影视小样试制：影视、广告行业根据脚本快速生成分镜动态小样，提前预览成片效果，缩减实拍试拍开销；
电商产品短视频：产品实拍图+文案描述生成商品展示短视频，适配抖音、快手电商好物种草内容生产；
教育课件动态素材：教辅机构一键生成科普动画短片、课程动态配图，丰富线上课件素材库。

4.3 技术研发场景

AI算法二次研发：科研机构、AI公司基于开源渲染代码，迭代优化自有视频生成模型；
AI工具二次封装：开发者基于Bernini-R底层封装在线AI视频生成网页工具、客户端软件。

arena

五、使用方法

5.1 环境前置准备

硬件最低配置：NVIDIA显卡≥16GB显存；推荐配置：24GB及以上RTX显卡；软件环境：Python3.9~3.11、CUDA11.8/12.1。
第一步执行依赖安装指令：

pip install torch torchvision transformers diffusers accelerate safetensors --upgrade

5.2 最简文生视频调用示例

from diffusers import DiffusionPipeline
import torch

# 加载预训练模型
pipe = DiffusionPipeline.from_pretrained(
  "ByteDance/Bernini-R-Diffusers",
  torch_dtype=torch.bfloat16,
  device_map="cuda"
)
# 输入提示词生成视频
result = pipe(prompt="雪山脚下木屋，清晨薄雾，缓慢平移镜头，写实8K画质")
# 保存生成视频
result.save("output_video.mp4")

5.3 V2V视频编辑使用流程

导入本地原始MP4视频，使用内置preprocess_tools完成视频抽帧与特征预处理；
填写编辑指令（例如：把晴天改成大雪天气）；
模型自动生成语义规划参数，潜空间修改画面特征，导出编辑完成的新视频文件。

5.4 离线本地权重部署方案

无法联网自动拉取权重时，前往Hugging Face手动下载全量权重文件，修改weight_config内路径参数指向本地权重文件夹即可离线运行。

六、竞品对比

选取当下主流三款开源文生视频项目：Bernini、Open-Sora Plan、Wan-Video做横向参数对比：

对比项目	Bernini（Bernini-R）	Open-Sora Plan	Wan-Video（原生开源版）
开发厂商	字节跳动自研	社区开源项目（非大厂）	字节Wan团队
核心架构	MLLM规划+DiT渲染双层架构	纯DiT扩散单架构	原生DiT单模型架构
核心优势	视频局部编辑能力突出、帧间稳定性强	开源完整度高、长视频拓展性好	原生生成画质优秀、推理速度快
短板	上层规划模块闭源、仅开放渲染层	无原生V2V编辑能力，需二次开发	视频编辑需额外微调权重，原生不支持指令改视频
显存门槛	16GB起步	20GB起步	14GB起步
商用协议	Apache2.0可商用	MIT协议可商用	Apache2.0可商用
主打场景	文生视频+AI视频编辑双主线	超长时序文生视频	高清文生图、文生短视频

补充说明：Wan-Video为Bernini的底层基座模型，Bernini在Wan原生能力之上叠加编辑与语义规划优化，因此编辑能力显著优于原生Wan-Video。

七、常见问题解答

Q1：Bernini全量项目是否完整开源，包含MLLM规划模块源码？

A：当前仅开源Bernini-R渲染模块全部代码与权重，负责语义解析的MLLM Planner规划模块并未开源，官方仅在代码内预留标准化入参接口，用户可自行接入第三方大模型实现自建规划层。

Q2：本地部署提示显存不足，16G显存显卡运行报错如何解决？

A：可在代码中启用pipe.enable_vae_slicing()与pipe.enable_attention_slicing()显存分片优化接口，开启后可降低30%左右显存占用，代价是生成速度小幅下降；也可选用bfloat16量化精度加载权重，避免fp32高精度带来的显存溢出。

Q3：生成视频出现画面闪烁、物体频繁漂移是什么原因？

A：大概率是提示词描述模糊导致规划参数错乱，优化提示词补充镜头运动、物体固定描述；其次检查SA-3D RoPE模块代码是否完整，缺失自研位置编码会直接破坏帧间稳定性。

Q4：能否基于本项目进行闭源商业化产品开发？

A：项目采用Apache2.0开源协议，允许个人与企业修改源码、闭源封装商用产品，无强制开源衍生项目的约束，仅需要遵循协议标注原项目版权信息。

Q5：V2V视频编辑时修改局部画面却全图变色如何处理？

A：预处理阶段关闭全局色彩归一化参数，同时细化编辑Prompt，精准限定修改区域，依托规划器锁定非修改区域画面特征，避免全局潜空间特征被篡改。

Q6：无法自动从Hugging Face拉取模型权重该怎么办？

A：手动访问Hugging Face对应仓库打包下载全部权重文件，在配置文件中修改权重本地路径，使用本地离线权重加载运行。

八、相关链接

GitHub仓库地址：https://github.com/bytedance/Bernini
Hugging Face仓库：https://huggingface.co/ByteDance/Bernini
Bernini项目官方产品主页：https://bernini-ai.github.io
项目配套学术论文：https://arxiv.org/abs/2605.22344

九、总结

Bernini作为字节跳动正式对外开源的视频生成与编辑一体化AI框架，凭借语义规划加扩散渲染的双层创新架构，补齐了传统开源文生视频工具编辑能力薄弱、画面稳定性不足的行业短板，依托成熟的Wan模型基座与SA-3D RoPE自研技术，在兼顾生成画质的同时降低了本地部署硬件门槛，宽松的Apache2.0开源协议进一步拓宽了个人学习、自媒体创作、企业商用、二次开发等落地边界，既为普通内容创作者提供低成本AI成片工具，也为AI研发从业者提供了可落地的视频生成底层参考工程，是现阶段综合实用性靠前的国产开源多模态视频生成项目。

AI视频生成 AI视频编辑开源AI模型

打赏

版权及免责申明：本文由@97ai原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/bernini.html

THE END

97ai

我不是在训练模型，而是在与未来的自己对话。

+ 关注

Bernini：字节跳动开源的轻量化AI视频生成编辑框架

文章目录

一、Bernini是什么

二、功能特色

2.1 核心产品功能

2.2 框架产品优势特色

三、技术细节

3.1 整体双层架构

3.2 关键自研技术拆解

3.2.1 SA-3D RoPE编码

3.2.2 潜空间定向编辑算子

3.3 底层环境与代码结构

3.4 权重分发规则

四、应用场景

4.1 C端个人创作者场景

4.2 B端企业商用场景

4.3 技术研发场景

五、使用方法

5.1 环境前置准备

5.2 最简文生视频调用示例

5.3 V2V视频编辑使用流程

5.4 离线本地权重部署方案

六、竞品对比

七、常见问题解答

八、相关链接

九、总结

相关文章