本文共 603 字,大约阅读时间需要 2 分钟。
DiT相比于Unet的关键改进点
虽然Transformer架构在自然语言处理和计算机视觉领域展现了强大的可扩展性,但在扩散模型领域,Unet仍然是主流的架构选择。这种情况下,采用DiT架构替代Unet架构,需要深入探讨以下几个关键问题。
首先,Token化处理是DiT架构的重要改进点之一。与Unet不同,DiT采用了专门设计的8B Tokenizer,这种设计能够更好地处理视频数据的时空关系,从而在生成过程中实现更高的质量控制。
其次,DiT引入了3D Sparse VAE。这一机制通过在时间维度上引入稀疏性,有效缓解了扩散过程中信息丢失的问题,使得生成的视频在细节和逻辑上都能得到更好的保留。
再者,DiT引入了Adaptive Layer Normalization (adaLN)块。这种自适应的层标准化机制能够根据不同层的特性自动调整参数,从而在训练过程中更好地优化模型性能。
最后,DiT Block的设计采用了更加灵活的结构。与Unet的标准化块不同,DiT Block通过引入条件卷积和扩散热门机制,能够更好地控制生成过程中的信息流动。
总的来说,DiT架构通过在Tokenization、3D Sparse VAE、Adaptive Layer Normalization以及DiT Block等方面的改进,显著提升了视频生成模型的性能和效果,为扩散模型的研究和应用提供了新的方向。
转载地址:http://nosfk.baihongyu.com/