Stable Diffusion 3.0 首次推出新的扩散转换架构

Stable Diffusion 3.0 首次推出新的扩散转换架构

Stability AI 今天发布了其 Stable Diffusion 3.0 下一代旗舰文本到图像生成式 AI 模型的早期预览。

在过去的一年里,Stability AI 一直在稳步迭代和发布多个图像模型,每个模型都显示出越来越高的复杂度和质量。7 月份发布的 SDXL 极大地改进了 Stable Diffusion 基础模型,现在该公司正在寻求更进一步。

新的 Stable Diffusion 3.0 模型旨在提供更高的图像质量和更好的性能,以从多主题提示生成图像。它还将提供比以前的 Stable Diffusion 模型更好的排版,从而在生成的图像中实现更准确和一致的拼写。排版在过去一直是 Stable Diffusion 的弱点,包括 DALL-E 3、Ideogram 和 Midjourney 在内的竞争对手也一直在最近的版本中努力。Stability AI 正在构建 Stable Diffusion 3.0,具有从 800M 到 8B 参数的多种模型尺寸。

Stable Diffusion 3.0 不仅仅是 Stability AI 已经发布的模型的新版本,它实际上基于一个新的架构。

“Stable Diffusion 3 是一种扩散变压器,一种类似于最近 OpenAI Sora 模型中使用的新型架构,”Stability AI 首席执行官 Emad Mostaque 告诉 VentureBeat。“它是原始 Stable Diffusion 的真正继承者。”

扩散变压器和流量匹配将开启图像生成的新时代

Stability AI 一直在尝试多种类型的方法来生成图像。

本月早些时候,该公司发布了 Stable Cascade 的预览版,该预览版使用 Würstchen 架构来提高性能和准确性。Stable Diffusion 3.0 通过使用扩散变压器采取了不同的方法。

“Stable Diffusion 以前没有变压器,”Mostaque 说。

Transformer 是大部分 AI 革命的基础,并被广泛用作文本生成模型的基础。图像生成主要属于扩散模型领域。这篇详细介绍扩散变压器(DiTs)的研究论文解释说,这是一种用于扩散模型的新架构,它用在潜在图像补丁上运行的变压器取代了常用的U-Net骨干网。DiTs 方法可以更有效地使用计算,并且可以胜过其他形式的扩散图像生成。

Stable Diffusion 受益于的另一大创新是流量匹配。关于流匹配的研究论文解释说,这是一种训练连续归一化流(CNF)以模拟复杂数据分布的新方法。据研究人员称,与扩散路径相比,使用具有最佳传输路径的条件流匹配 (CFM) 可以带来更快的训练、更有效的采样和更好的性能。

 

Stable Diffusion 已经学会了如何拼写

Stable Diffusion 3.0 中改进的排版是 Stability AI 在新模型中内置的多项改进的结果。

“这要归功于 Transformer 架构和额外的文本编码器,”Mostaque 说。“完整的句子现在是可能的,连贯的风格也是如此。”

虽然 Stable Diffusion 3.0 最初被展示为一种文本到图像生成的 AI 技术,但它将成为更多技术的基础。近几个月来,Stability AI 也一直在构建 3D 图像生成和视频生成功能。

“我们制造的开放式模型可以在任何地方使用并适应任何需求,”莫斯塔克说。“这是一系列不同尺寸的模型,将支持我们下一代视觉模型的开发,包括视频、3D等。”

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容