Stable Diffusion 3.0 首次推出新的扩散转换架构-DG城市

Stability AI 今天发布了其 Stable Diffusion 3.0 下一代旗舰文本到图像生成式 AI 模型的早期预览。

在过去的一年里，Stability AI 一直在稳步迭代和发布多个图像模型，每个模型都显示出越来越高的复杂度和质量。7 月份发布的 SDXL 极大地改进了 Stable Diffusion 基础模型，现在该公司正在寻求更进一步。

新的 Stable Diffusion 3.0 模型旨在提供更高的图像质量和更好的性能，以从多主题提示生成图像。它还将提供比以前的 Stable Diffusion 模型更好的排版，从而在生成的图像中实现更准确和一致的拼写。排版在过去一直是 Stable Diffusion 的弱点，包括 DALL-E 3、Ideogram 和 Midjourney 在内的竞争对手也一直在最近的版本中努力。Stability AI 正在构建 Stable Diffusion 3.0，具有从 800M 到 8B 参数的多种模型尺寸。

Stable Diffusion 3.0 不仅仅是 Stability AI 已经发布的模型的新版本，它实际上基于一个新的架构。

“Stable Diffusion 3 是一种扩散变压器，一种类似于最近 OpenAI Sora 模型中使用的新型架构，”Stability AI 首席执行官 Emad Mostaque 告诉 VentureBeat。“它是原始 Stable Diffusion 的真正继承者。”

扩散变压器和流量匹配将开启图像生成的新时代

Stability AI 一直在尝试多种类型的方法来生成图像。

本月早些时候，该公司发布了 Stable Cascade 的预览版，该预览版使用 Würstchen 架构来提高性能和准确性。Stable Diffusion 3.0 通过使用扩散变压器采取了不同的方法。

“Stable Diffusion 以前没有变压器，”Mostaque 说。

Transformer 是大部分 AI 革命的基础，并被广泛用作文本生成模型的基础。图像生成主要属于扩散模型领域。这篇详细介绍扩散变压器（DiTs）的研究论文解释说，这是一种用于扩散模型的新架构，它用在潜在图像补丁上运行的变压器取代了常用的U-Net骨干网。DiTs 方法可以更有效地使用计算，并且可以胜过其他形式的扩散图像生成。

Stable Diffusion 受益于的另一大创新是流量匹配。关于流匹配的研究论文解释说，这是一种训练连续归一化流（CNF）以模拟复杂数据分布的新方法。据研究人员称，与扩散路径相比，使用具有最佳传输路径的条件流匹配（CFM）可以带来更快的训练、更有效的采样和更好的性能。