BitDance - Scaling Autoregressive Generative Models with Binary Tokens

论文链接: arXiv:2602.14041 GitHub: shallowdream204/BitDance

概述

BitDance 是一种可扩展的自回归(AR)图像生成器,通过预测二进制视觉 tokens而非传统的 codebook 索引,实现了高效的高分辨率图像生成。

核心贡献: 在 ImageNet 256x256 上达到 FID 1.24,是 AR 模型中的最佳结果。

核心创新

1. 二进制视觉 Tokens

传统 AR 模型使用 codebook 索引(如 VQ-VAE 的离散编码),而 BitDance 使用二进制 latents

  • 每个 token 可表示 2^256 种状态
  • 紧凑且高度表达的离散表示
  • 高熵二进制表示,信息密度更高

2. Binary Diffusion Head

由于 token 空间巨大(2^256),标准分类(softmax)难以采样。BitDance 使用二进制扩散头

  • 不用 softmax 预测索引
  • 使用连续空间扩散生成二进制 tokens
  • 解决大 token 空间的采样难题

3. Next-Patch Diffusion

新的解码方法,并行预测多个 tokens

  • 高准确度的并行预测
  • 大幅加速推理速度
  • 相比传统 AR 的逐 token 生成更高效

性能表现

ImageNet 256x256

模型FID参数量
BitDance1.24260M
其他 AR 模型> 1.5更大

关键优势:

  • AR 模型中最佳 FID
  • 参数效率高(260M vs 1.4B)

与 SOTA 对比

对比项BitDanceSOTA AR
参数量260M1.4B
参数效率5.4x 更少-
推理速度8.7x 更快-

Text-to-Image 生成

  • 大规模多模态 tokens 训练
  • 高分辨率、逼真图像生成
  • 强性能和良好的扩展性

1024x1024 图像生成

对比项BitDancePrior AR
速度提升> 30x-

技术细节

二进制 Token 表示

传统方法: codebook index (有限状态,如 8192)
BitDance: binary latent (2^256 状态)

Binary Diffusion Head

传统 AR: softmax → 预测 codebook index
BitDance: diffusion → 生成 binary tokens

Next-Patch Diffusion

  • 并行解码多个 patches
  • 保持高准确度
  • 显著减少推理步数

模型版本

模型参数量说明
BitDance-14B-16x15B16 倍下采样
BitDance-14B-64x15B64 倍下采样

关键优势

1. 表达能力强

  • 2^256 状态 vs 传统 codebook 的有限状态
  • 更高的信息密度

2. 生成效率高

  • 并行 token 预测
  • 推理速度大幅提升

3. 参数效率好

  • 更少参数达到更好性能
  • 良好的扩展性

与其他方法对比

方法类型代表模型特点
传统 ARVQ-GAN逐 token 生成,慢
并行 ARParallel AR并行但参数大
DiffusionStable Diffusion高质量但迭代多
BitDance-AR + Diffusion,快且高效

应用场景

1. Text-to-Image

  • 高分辨率图像生成
  • 逼真细节
  • 快速生成

2. ImageNet 类条件生成

  • 最佳 FID
  • 高效训练

局限性

  • 二进制表示需要特殊处理
  • Diffusion head 增加训练复杂度
  • 大规模训练资源需求

影响与意义

技术创新

  • 打破传统 AR 模型的 token 表示限制
  • 结合 AR 和 Diffusion 的优势
  • 开辟新的生成模型方向

实用价值

  • 高分辨率图像快速生成
  • 参数效率高,部署友好
  • 开源代码和模型

参考资源