文本生成4K超高清图像，华为等推出创新模型PixArt-Σ

添加书签

AIGC开放社区
2024-03-16

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

华为诺亚方舟实验室、大连理工大学和香港大学的研究人员，推出了文本生成4K超高清图像的模型——PixArt-Σ。

与上一代PixArt-α相比，PixArt-Σ在图像质量/细节、训练效率、文本语义理解/还原等方面实现了大幅度提升。

尤其是训练效率，PixArt-Σ基于DiT架构（Diffusion Transformer）并提出了一种高效的注意力模块来压缩Key和Value，再通过局部聚合关键字和值的组卷积和特殊的权重初始化方案。

使得PixArt-Σ不仅能生成4K分辨图像，在训练、推理比SDXL、SD Cascade等模型更高效。

论文地址：https://arxiv.org/abs/2403.04692

项目地址：https://pixart-alpha.github.io/PixArt-sigma-project/

PixArt-Σ的核心技术在于提出了一种”从弱到强”(Weak-to-Strong)的训练方法。通过将高质量的训练数据融入到其前作PixArt-α的预训练基础上,再结合高效Tokens压缩注意力模块,PixArt-Σ成功实现了从弱模型到强模型的高效演化。

高效Tokens压缩注意力

传统的自注意力机制在处理像素级别的Tokens时,计算复杂度会呈指数级增长,这给文生4K图像带来了巨大挑战，而高效Tokens压缩注意力机制可以很好解决这一难题。

其设计思路是，在自注意力机制的Query(Q)、Key(K)和Value(V)之中,只对K和V进行压缩,保留了所有的Q。依据是,Q主要用于捕获精细的像素级信号,而K和V则承载了更高层次的语义信息,所以比较适合进行压缩。

为了实现K、V压缩,PixArt-Σ采用了2×2的步长卷积核对邻近区域进行局部聚合操作。该操作将相邻的2×2个K(或V)Token合并压缩为1个Token,从而将K和V的总量减少到原来的1/4,大幅降低了计算复杂度。

同时为确保模型可以从之前的PixArt-α平滑过渡到PixArt-Σ，研究人员提出了”Conv Avg Init”(卷积平均初始化)权重初始化方案。

该方案将2×2的卷积核初始化为平均卷积,可以在不做任何调整的情况下,让K、V压缩模块最初就能产生较为粗糙但接近正确的结果,从而加速后续的微调流程。

在高效Tokens压缩注意力的帮助下，PixArt-Σ在生成4K图像时,训练和推理的时间缩减了34%左右极大节省了AI算力。

从弱到强训练方法

训练方法方面，如果直接从低分辨率过渡到4K分辨率,模型可能难以快速适应,影响训练效率。PixArt-Σ则使用了从弱到强的训练策略：1）先从256×256的低分辨率着手,通过80K步的训练,让模型对齐文本和图像特征；

2）再以512×512为中介,经过10K步训练,过渡到1024×1024分辨率；3）最后在此基础上通过2K步的训练,最终实现了对2K和4K分辨率的支持。

这种分阶段、循序渐进的策略,避免了分辨率突然升高带来的适应性困难。

值得一提的是,PixArt-Σ在过渡到更高分辨率时,借助了”位置嵌入插值”技术,将低分辨率模型的位置嵌入升采样到高分辨率,作为初始化进一步加速了模型的效率。

高质量训练数据集

为了提升PixArt-Σ生成图像的质量和多样性，研究人员搜集了一个一个包含3300万张高分辨率图像的内部数据集Internal-Σ，比之前的数据集大了一倍还多。

Internal-Σ数据集中,所有图像的分辨率均高于1K,其中还特别收录了230万张4K分辨率的图像。这些高分辨率图像不仅扩大了PixArt-Σ生成的风格,还能为模型学习生成4K图像的真实数据分布提供必要的素材。

此外，为了精准还原用户的文本语义提示，研究人员弃用了之前的PixArt-α使用的LLaVA，采用了更强大的Share-Captioner模型来生成详细准确的图像文本描述。

同时,扩大了文本编码器可处理tokens长度至300词,使文本描述能更丰富详细,提高文本与图像的语义对齐能力。

PixArt-Σ生成图片展示

以下是研究人员公布PixArt-Σ的生成图片案例，在质量、细节、语义还原等方面非常优秀。

一个华丽的珊瑚礁纸艺世界，充满了色彩缤纷的鱼类和海洋生物。

模特特写照片，朦胧光影，激光金属发饰，柔和美丽，浅金色瞳孔，白色睫毛，低饱和度，真实皮肤细节，毛孔细纹清晰，光反射折射，超清，电影摄影、获奖作品。

乐高模型，未来火箭站，复杂细节，高分辨率，虚幻引擎，超高清。

本文素材来源PixArt-Σ论文，如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区

文本生成4K超高清图像，华为等推出创新模型PixArt-Σ

即将举行的活动

联系我们

最新网络研讨会

推荐

AIGC开放社区

加入 AIGC开放社区

文本生成4K超高清图像，华为等推出创新模型PixArt-Σ

即将举行的活动

联系我们

订阅我们的免费咨讯

最新网络研讨会

推荐

AIGC开放社区

加入 AIGC开放社区