Stable Diffusion3技术报告发布:揭示Sora相同架构的细节

实用资讯56分钟前发布 Youzhizhan
0 0


很快,《文森特新王》稳定扩散3的技术报告就在这里。

全文共28页,诚意满满。

Stable Diffusion3技术报告发布:揭示Sora相同架构的细节

“老规矩”,宣传海报(⚠️)直接从模型生成,然后炫耀文字渲染能力:

Stable Diffusion3技术报告发布:揭示Sora相同架构的细节

因此,比DALL·E3和Midjourney v6更强的SD3,文本和命令跟随技能,它究竟是如何点亮的?

技术报告披露:

这一切都取决于多模态扩散变压器架构MMDiT。

成功的关键是对图像和文本表示使用两组独立的权重,这实现了比以前版本的SD3更强的性能激增。

对于特定的几何,让我们打开报表查看。

微调DiT以提高文本呈现功能

在SD3发布之初,官方已经透露其架构与Sora相同,属于diffuse transformer-DiT。

现在答案揭晓:

由于文生图模型需要考虑文本和图像两种模式,因此Ai离DiT更近了一步,提出了一种新的架构MMDiT。

这里的”MM”是指”多模态”。

与之前版本的Stable Diffusion一样,官方使用两个预先训练的模型来获得适当的文本和图像表示。

其中,文本表示的编码是用三种不同的文本嵌入器完成的,包括两个剪辑模型和一个T5模型。

图像令牌的编码是用改进的自动编码器模型完成的。

由于文本和图像的嵌入在概念上根本不是同一件事,SD3为这两种模式使用两组独立的权重。

Stable Diffusion3技术报告发布:揭示Sora相同架构的细节

(有网友抱怨:这个架构图好像要启动”人类完成计划”了,嗯,是的,有些人只是”看到《新世纪福音战士》的信息,点击了这篇报道”)

Stable Diffusion3技术报告发布:揭示Sora相同架构的细节

言归正传,如上图所示,这相当于每个模式都有两个独立的变压器,但它们的序列将被连接起来进行注意操作。

通过这种方式,两种表示都可以在自己的空间中工作,同时考虑到另一种。

最终,通过这种方法,信息可以在图像和文本模型之间”流动”,提高了模型的整体理解能力和输出时的文本渲染能力。

而且正如前面的效果所示,这种架构也可以很容易地扩展到视频等多种模式。

Stable Diffusion3技术报告发布:揭示Sora相同架构的细节

具体测试表明MMDiT优于dit out of DiT:

它在训练过程中的视觉保真度和文本对齐比现有的文本到图像骨干(如UViT和DiT)更好。

Stable Diffusion3技术报告发布:揭示Sora相同架构的细节

重新加权流技术,不断提高性能

在发布之初,除了diffuse Transformer架构外,官方还透露SD3融合了流量匹配。

什么”流动”?

正如今天发布的论文标题所揭示的那样,SD3使用”整流流”(RF)。

Stable Diffusion3技术报告发布:揭示Sora相同架构的细节

这是一种”极其简化,一步生成”的扩散模型生成新方法,已被选择用于ICLR2023。

它允许模型的数据和噪声在训练过程中以线性轨迹连接,从而产生更”直”的推理路径,可以用更少的步骤进行采样。

基于RF,SD3在训练过程中引入了全新的轨迹采样。

它侧重于给轨迹的中间部分赋予更多的权重,因为作者假设这些部分将完成更具挑战性的预测任务。

通过多个数据集,指示器和采样器配置,用60种其他扩散轨迹方法(如LDM,EDM和ADM)测试了这种生成方法。:

虽然以前的RF方法在小步进采样方案中表现出良好的性能,但随着步数的增加,它们的相对性能下降。

相比之下,SD3重新加权的RF变体可以持续提高性能。

模型能力可以进一步提高

官方使用重加权RF方法和MMDiT架构进行了大规模的文本到图像生成研究(scaling study)。

训练的模型从15个具有4.5亿个参数的模块到38个具有80亿个参数的模块。

由此他们观察到,随着模型大小和训练步骤的增加,验证损失显示出平滑的下降趋势,即模型通过不断学习适应更复杂的数据。

Stable Diffusion3技术报告发布:揭示Sora相同架构的细节

为了测试这是否转化为模型输出更有意义的改进,官方还评估了自动图像对齐索引(GenEval)和人类偏好评分(伊洛)

结果是:

两者之间有很强的相关性。也就是说,验证损失可以作为预测整体模型性能的非常有力的指标。

Stable Diffusion3技术报告发布:揭示Sora相同架构的细节

此外,由于这里的扩张趋势没有出现饱和的迹象(即随着模型尺寸的增加,性能仍在提高,并未达到极限),因此官方持乐观态度。:

SD3的表现将在未来持续改善。

最后,技术报告还提到了文本编码器的问题:

通过删除用于推理的47亿个参数,内存密集型T5文本编码器,SD3的内存需求可以显着降低,但与此同时,性能损失很小(胜率从50%下降到46%)。

不过为了文字呈现能力,官方还是建议不要去掉T5,因为没有它,文字呈现的胜率会降到38%。

Stable Diffusion3技术报告发布:揭示Sora相同架构的细节

所以总结一下,它意味着:在SD3的三个文本编码器中,T5在生成带有文本(以及高度详细的场景描述)的图像时贡献最大。

网友:开源的承诺如期兑现,谢谢

SD3报道一出,不少网友表示:

Stability AI对开源的承诺是非常可喜的,我希望他们能够继续保持和运营很长一段时间。

Stable Diffusion3技术报告发布:揭示Sora相同架构的细节

还有人报了OpenAI的名字。:

Stable Diffusion3技术报告发布:揭示Sora相同架构的细节

更可喜的是,有人在评论区提到:

SD3型号的所有权重都可以下载。 目前的计划是8亿个参数,20亿个参数,80亿个参数。

Stable Diffusion3技术报告发布:揭示Sora相同架构的细节
Stable Diffusion3技术报告发布:揭示Sora相同架构的细节

速度如何?

咳咳,技术报告中提到:

80亿SD3在24GB RTX4090上需要34s才能生成1024*1024图像(50个采样步骤)—-但这只是早期未优化的初步推理测试的结果。

完整报告:https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf。
参考连结:
[1]https://stability.ai/news/stable-diffusion-3-research-paper …
[2]https://news.ycombinator.com/item?id=39599958 …

[ad]
© 版权声明

相关文章

暂无评论

暂无评论...