Stable Diffusion 3来啦!提示文本理解更好,图像质量更强

添加书签

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

2月23日,著名大模型开源平台stability.ai在官网推出了——Stable Diffusion 3。

该版本与Stable Diffusion 2相比,在文本语义理解、色彩饱和度、图像构图、分辨率、类型、质感、对比度等方面大幅度增强,可对标闭源模型Midjourney。

Stable Diffusion 3的参数在8亿——80亿之间,也就是说Stable Diffusion 3可能是专为移动设备开发的,AI算力消耗将更低,推理速度却更快。

目前,Stable Diffusion 3支持申请使用,未来会扩大测试范围。

申请地址:https://stability.ai/stablediffusion3

Stable Diffusion 3来啦!提示文本理解更好,图像质量更强插图

stability.ai没有过多的介绍Stable Diffusion 3的技术内容,但指出其核心架构使用了Transformer和Flow FMatching(简称“FM”)。

Transformer大家都很熟悉了,ChatGPT、T5BERT等很多著名模型都是基于该架构开发的。

而FM是Meta AI和魏茨曼科学研究所在2022年10月发布的,一种全新高效建模、训练技术概念。

Flow Matching论文地址:https://arxiv.org/abs/2210.02747

Flow Matching简单介绍

目前,很多文生图模型使用的是CNF(连续正规化流动)训练方法,主要使用常微分方程对流动进行建模,实现从一种已知分布到目标分布的平滑映射。

但由于训练过程需要进行大量的微分方程模拟,会导致算力成本高、模型设计复杂、可解释性差等缺点

FM则是放弃微分方程的直接模拟,而是通过回归固定条件概率轨迹来实现无模拟训练。研究人员设计了条件概率分布与向量场的概念,利用边缘分布的结合可以建立总体目标概率轨迹与向量场,从而消除了模拟过程对梯度计算的影响

Stable Diffusion 3来啦!提示文本理解更好,图像质量更强插图1

1)条件概率路径构建:FM需要给出一个目标概率路径,该路径从简单分布演变到逼近数据分布。然后利用条件概率路径构建了目标路径,这样每个样本有一个对应的条件路径。

2)变换层:构成FM的基本单元,每个变换层都是可逆的。这意味着从输入到输出的每一步映射都可以精确地反转,从而允许从目标分布反推到原始分布。

3)耦合层:将输入分成两部分,对其中一部分应用变换,而变换函数可以是任意的神经网络,其参数由另一部分决定,保证了变换的可逆性。

目前,FM技术已在图像生成与超分辨率、图像理解、图像修复与填充、条件图像生成、图像风格迁移与合成、视频处理等领域得到广泛应用。

Stable Diffusion 3案例展示

本次的发布页面也是由Stable Diffusion 3生成的,提示词:史诗般的动漫艺术风格,一位巫师站在夜间的山顶上,向黑暗的天空施放咒语,上面写着由彩色能量生成的“Stable Diffusion 3”文字

Stable Diffusion 3来啦!提示文本理解更好,图像质量更强插图2

教室桌子上有一个红苹果,电影风格,背景的黑板上用粉笔写着“要么做大,要么回家”

Stable Diffusion 3来啦!提示文本理解更好,图像质量更强插图3

一名宇航员骑着一只穿着蓬蓬裙的猪,撑着一把粉色的伞,猪旁边的地上有一只戴着高帽的知更鸟,角落里写着” Stable Diffusion “的字样。

Stable Diffusion 3来啦!提示文本理解更好,图像质量更强插图4

一只变色龙,黑色背景,摄影风格。

Stable Diffusion 3来啦!提示文本理解更好,图像质量更强插图5

一辆跑车的夜间照片,侧面写有“SD3”字样,汽车在赛道上高速行驶,巨大的路标上写着“更快”的文字。

Stable Diffusion 3来啦!提示文本理解更好,图像质量更强插图6

波浪冲击苏格兰灯塔的鱼眼镜头照片,黑色波浪。

Stable Diffusion 3来啦!提示文本理解更好,图像质量更强插图7

本文素材来源stability.ai官网,如有侵权请联系删除

END

Stable Diffusion 3来啦!提示文本理解更好,图像质量更强插图8

Stable Diffusion 3来啦!提示文本理解更好,图像质量更强插图9

Stable Diffusion 3来啦!提示文本理解更好,图像质量更强插图10

本篇文章来源于微信公众号: AIGC开放社区