Open-Sora代码详细解读(1)：解读DiT结构-白红宇

Open-Sora代码详细解读(1)：解读DiT结构

阅读量：791 次

发布时间：2023-02-23

本文共 603 字，大约阅读时间需要 2 分钟。

DiT相比于Unet的关键改进点

虽然Transformer架构在自然语言处理和计算机视觉领域展现了强大的可扩展性，但在扩散模型领域，Unet仍然是主流的架构选择。这种情况下，采用DiT架构替代Unet架构，需要深入探讨以下几个关键问题。

首先，Token化处理是DiT架构的重要改进点之一。与Unet不同，DiT采用了专门设计的8B Tokenizer，这种设计能够更好地处理视频数据的时空关系，从而在生成过程中实现更高的质量控制。

其次，DiT引入了3D Sparse VAE。这一机制通过在时间维度上引入稀疏性，有效缓解了扩散过程中信息丢失的问题，使得生成的视频在细节和逻辑上都能得到更好的保留。

再者，DiT引入了Adaptive Layer Normalization (adaLN)块。这种自适应的层标准化机制能够根据不同层的特性自动调整参数，从而在训练过程中更好地优化模型性能。

最后，DiT Block的设计采用了更加灵活的结构。与Unet的标准化块不同，DiT Block通过引入条件卷积和扩散热门机制，能够更好地控制生成过程中的信息流动。

总的来说，DiT架构通过在Tokenization、3D Sparse VAE、Adaptive Layer Normalization以及DiT Block等方面的改进，显著提升了视频生成模型的性能和效果，为扩散模型的研究和应用提供了新的方向。

转载地址：http://nosfk.baihongyu.com/

你可能感兴趣的文章