BitDance：字节跳动开源的二进制令牌自回归超快高分辨率AI图像生成模型

原创发布日期：2026-02-24

163

一、BitDance是什么

BitDance是由字节跳动等机构联合推出的开源自回归生成模型项目，核心解决传统离散自回归模型在视觉生成中令牌器重建质量低、词汇表过大采样困难、逐令牌生成速度慢等痛点，通过二进制令牌体系+并行预测范式，实现高分辨率、高质量、高速度的图像生成，同时支持统一多模态建模。

该项目于2026年2月正式开源，配套发布论文、预训练模型、在线Demo与完整代码库，核心模型为14B参数文生图模型，同时提供轻量级ImageNet类别条件生成模型，在自回归模型阵营中首次实现对主流扩散模型的性能反超，兼具学术研究价值与工程落地能力。

BitDance的核心定位：

面向高分辨率图像生成的自回归SOTA模型
基于二进制令牌的统一多模态基础架构
开箱即用的生产级图像生成开源工具链
可扩展、可复现、可微调的学术研究平台

与传统自回归模型（如VAR、Emu3、Janus-Pro）和扩散模型（如SD3、FLUX.1-Dev）相比，BitDance在速度、画质、扩展性三者间取得平衡，用更低计算成本实现更高生成质量，是自回归视觉生成路线的里程碑式开源成果。

二、功能特色

1. 极致生成速度：30倍加速，高分辨率秒级出图

采用Next-Patch Diffusion并行预测机制，单步最多生成64个视觉令牌
1024×1024图像仅需64步完成，传统自回归模型需数千步
同等硬件下，生成速度提升30倍以上，支持实时级图像生成

2. 顶级生成画质：SOTA指标，照片级真实感

文生图基准DPG-Bench总分88.28，超越主流开源扩散模型与自回归模型
ImageNet 256×256生成FID低至1.24，达到自回归模型顶尖水平
强语义理解、空间推理与文字渲染能力，复杂提示词还原度高
支持最高1024px超清图像生成，细节丰富、结构稳定

3. 二进制令牌创新：超大词汇表，重建质量飞跃

配套UniWeTok统一二进制令牌器，词汇表规模达2^128
突破传统令牌器词汇表上限，图像重建精度、保真度显著提升
二进制表示降低计算复杂度，采样更稳定、收敛更快

4. 统一多模态架构：文本-视觉原生兼容

文本令牌沿用标准LLM范式，视觉令牌采用二进制高效范式
一套架构同时处理文本与视觉，天然支持多模态理解与生成
易于与现有大语言模型融合，降低多模态系统开发成本

5. 完整模型矩阵：覆盖大模型与轻量场景

项目提供两类核心模型，满足研究与落地不同需求：

模型类型	代表模型	参数规模	核心能力	适用场景
文生图模型	BitDance-14B-64x	14B	1024px文生图，64步生成	生产级文生图、高质量创作
文生图模型	BitDance-14B-16x	14B	512/1024px文生图，16步/块	通用图像生成、服务部署
ImageNet模型	BitDance-H-1x	1.0B	256px类别条件生成，FID=1.24	学术研究、轻量验证
ImageNet模型	BitDance-L-1x	527M	256px类别条件生成，FID=1.31	中等算力验证、教学实验

6. 全栈开源工具链：训练-推理-评估一站式

提供完整训练代码、FSDP分布式训练支持
开箱即用推理脚本，支持单卡/多卡部署
配套标准评估流程，可复现FID、IS等权威指标
支持Hugging Face Diffusers集成，降低使用门槛

BitDance：字节跳动开源的二进制令牌自回归超快高分辨率AI图像生成模型

三、技术细节

1. 核心技术栈

基础架构：Transformer自回归架构
令牌体系：UniWeTok二进制视觉令牌器
预测头：二进制扩散头（Binary Diffusion Head）
并行范式：Next-Patch Diffusion（下一补丁扩散）
训练框架：PyTorch、FSDP分布式训练
部署支持：原生PyTorch、Hugging Face Diffusers

2. 二进制令牌技术（UniWeTok）

传统视觉令牌器使用固定小词汇表（如8192/32768），重建质量与表达能力受限。BitDance提出UniWeTok统一二进制令牌器：

词汇表规模：2^32 / 2^128 / 2^256，接近“无限词汇表”
编码方式：将图像块映射为二进制向量，而非离散索引
优势：重建精度更高、细节保留更好、泛化能力更强
配套论文：arXiv:2602.14178，独立验证SOTA性能

3. 二进制扩散头

将传统逐令牌分类问题转换为连续空间向量预测：

把大规模整数分类拆解为并行二元分类任务
降低采样难度，提升生成稳定性与收敛速度
天然适配二进制令牌，实现预测-解码全链路优化

4. Next-Patch Diffusion并行生成

突破自回归“逐令牌生成”瓶颈：

一次性预测一个图像补丁（Patch）的所有二进制令牌
单步最大并行预测64个令牌，生成步数断崖式下降
1024px图像仅需64步，速度提升30倍+
并行度可配置（1x/4x/16x/64x），适配不同硬件

5. 模型缩放与Scaling Law

遵循与LLM一致的缩放定律，参数越大效果越好
14B模型在语义、结构、细节上全面超越小模型
训练数据效率更高，更少数据达到闭源模型效果
支持从百万级到百亿级参数平滑扩展

6. 训练与推理配置

训练：14B模型需大规模GPU集群（如64×H100）
推理：14B模型可在单张A100/H100运行，支持低内存优化
轻量模型：242M~1.0B模型可在消费级GPU（3090/4090）运行

四、应用场景

1. 创意设计与内容生产

广告海报、电商主图、宣传物料快速生成
游戏原画、概念设计、场景草图实时创作
自媒体配图、短视频封面、IP形象设计
室内/工业设计效果图快速预览

2. 游戏与元宇宙开发

游戏贴图、材质、场景实时生成
动态NPC形象、道具、场景迭代
低延迟沉浸式视觉内容生产

3. 影视与动画制作

分镜脚本、概念图、关键帧快速生成
背景、道具、特效元素批量制作
动画风格化渲染与预览

4. 学术研究与技术创新

自回归模型架构优化、令牌算法研究
多模态大模型统一建模探索
高效图像生成算法验证与对比
二进制表示在AI生成中的应用拓展

5. 企业级服务与工具开发

私有化部署文生图API服务
设计工具、办公软件AI图像插件
教育、文创、电商行业垂直生成工具

五、使用方法

1. 环境准备

# 克隆仓库
git clone https://github.com/shallowdream204/BitDance.git
cd BitDance

# 创建Conda环境
conda create -n bitdance python=3.10
conda activate bitdance
pip install torch torchvision torchaudio
pip install -r requirements.txt

2. 模型下载

从Hugging Face下载预训练模型：

文生图模型：shallowdream204/BitDance-14B-64x
ImageNet模型：shallowdream204/BitDance-ImageNet
二进制令牌器：shallowdream204/UniWeTok

3. 快速推理（文生图）

# 运行示例脚本
python example_t2i.py \
 --prompt "A beautiful sunset over the ocean, photorealistic, high detail" \
 --model BitDance-14B-64x \
 --size 1024 \
 --steps 64

4. 使用Diffusers推理

from diffusers import BitDancePipeline
import torch

pipe = BitDancePipeline.from_pretrained(
  "shallowdream204/BitDance-14B-64x",
  torch_dtype=torch.float16
).to("cuda")

image = pipe(
  prompt="A cute cat sitting on a sofa, 8k, ultra realistic",
  num_inference_steps=64,
  height=1024,
  width=1024
).images[0]

image.save("output.png")

5. ImageNet类别条件生成

# 采样生成
torchrun --nproc_per_node=8 sample_ddp.py \
 --model BitDance-H \
 --ckpt models/BitDance_H_1x.pt \
 --vae-ckpt models/ae_d16c32.pt \
 --sample-dir results/

6. 模型训练

# 分布式训练脚本
bash scripts/train.sh

BitDance：字节跳动开源的二进制令牌自回归超快高分辨率AI图像生成模型

六、常见问题解答

BitDance与传统自回归模型（如VAR、Emu3）的核心区别是什么？

核心区别在令牌体系与生成范式：BitDance用二进制令牌替代传统离散索引，用Next-Patch Diffusion并行生成替代逐令牌生成，速度提升30倍+，画质与扩展性更强。

BitDance相比扩散模型（SD3、FLUX）有哪些优势？

优势包括：生成步数极少（64步vs数千步）、速度更快、遵循LLM式缩放定律、架构更统一、易于多模态融合，在开源模型中画质达到SOTA。

运行BitDance-14B需要什么硬件配置？

建议最低配置：NVIDIA A100（40GB+）或H100 GPU；消费级GPU可运行轻量级ImageNet模型（242M~1.0B），如RTX 3090/4090。

BitDance支持中文提示词吗？

支持，模型在多语言数据上训练，中文提示词可正常生成，效果接近英文水平，在中文文生图基准中表现优秀。

除了文生图，BitDance还支持哪些任务？

当前开源版本主打文生图与ImageNet类别条件生成；项目团队正在开发图像编辑、图生图、视频生成等能力，未来会逐步开源。

BitDance的模型可以商用吗？

项目采用开源协议，允许学术与商用使用，具体以仓库LICENSE文件为准，建议使用前仔细阅读协议条款。

如何提高生成图像的质量？

可通过以下方式优化：使用更详细的提示词、提高推理步数、调整CFG-Scale、使用64x并行模型、升级到14B大模型。

BitDance支持本地私有化部署吗？

完全支持，所有模型与代码均可本地部署，无在线API依赖，适合企业私有化与安全合规场景。

UniWeTok令牌器可以单独使用吗？

可以，UniWeTok独立开源，可单独用于图像编码、重建、特征提取等任务，与BitDance模型解耦。

有没有在线Demo可以体验？

有，官方提供Hugging Face Spaces在线Demo，无需代码即可测试文生图能力。

七、相关链接

GitHub仓库：https://github.com/shallowdream204/BitDance
项目官网：https://bitdance.csuhan.com
论文地址：https://arxiv.org/abs/2602.14041
Hugging Face模型库：https://huggingface.co/collections/shallowdream204/bitdance
在线Demo：https://huggingface.co/spaces/shallowdream204/BitDance-14B-64x

八、总结

BitDance是基于二进制令牌的自回归生成模型开源项目，通过UniWeTok超大词汇表二进制令牌器、二进制扩散头与Next-Patch Diffusion并行生成三大核心创新，解决传统自回归模型速度慢、采样难、重建差的痛点，实现30倍生成加速与SOTA级画质，提供14B生产级文生图模型与轻量级ImageNet模型，配套完整训练、推理、评估工具链，支持多场景落地与学术研究，是自回归视觉生成路线的突破性开源方案，兼具速度、质量与扩展性，为AI图像生成提供了全新技术选择。

AI图像生成文生图开源项目

打赏

版权及免责申明：本文由@97ai原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/bitdance.html

THE END

97ai

我不是在训练模型，而是在与未来的自己对话。

+ 关注

BitDance：字节跳动开源的二进制令牌自回归超快高分辨率AI图像生成模型

文章目录

一、BitDance是什么

二、功能特色

1. 极致生成速度：30倍加速，高分辨率秒级出图

2. 顶级生成画质：SOTA指标，照片级真实感

3. 二进制令牌创新：超大词汇表，重建质量飞跃

4. 统一多模态架构：文本-视觉原生兼容

5. 完整模型矩阵：覆盖大模型与轻量场景

6. 全栈开源工具链：训练-推理-评估一站式

三、技术细节

1. 核心技术栈

2. 二进制令牌技术（UniWeTok）

3. 二进制扩散头

4. Next-Patch Diffusion并行生成

5. 模型缩放与Scaling Law

6. 训练与推理配置

四、应用场景

1. 创意设计与内容生产

2. 游戏与元宇宙开发

3. 影视与动画制作

4. 学术研究与技术创新

5. 企业级服务与工具开发

五、使用方法

1. 环境准备

2. 模型下载

3. 快速推理（文生图）

4. 使用Diffusers推理

5. ImageNet类别条件生成

6. 模型训练

六、常见问题解答

七、相关链接

八、总结

相关文章