重磅！OpenAI发布文生视频模型Sora，一次可生成1分钟！

添加书签

AIGC开放社区
2024-02-16

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

2月16日凌晨，OpenAI在官网发布了创新性文生视频模型——Sora。

从OpenAI在官网展示的Sora生成视频的效果来看，在生成视频质量、分辨率、文本语义还原、视频动作一致性、可控性、细节、色彩等方面非常好！

特别是可以生成最长1分钟的视频！超过Gen-2、SVD-XT、Pika等主流产品，一出手就是王炸。

2023年9月21日，OpenAI发布了文生图模型DALL·E 3，加上现在的Sora以及之前的语音模型Whisper，ChatGPT已经具备了文本、图像、视频、音频4大多模态功能，AGI离我们还远吗？

Sora生成的1分钟视频：提示词，一位时尚女性走在街道上，街道上到处是温暖的霓虹灯和动画城市标志。她身穿黑色皮夹克、红色长裙和黑色靴子，手拿黑色钱包；

她戴着太阳镜，涂着红色唇膏。她走起路来自信而随意。街道潮湿而反光，与五颜六色的灯光形成镜面效果。许多行人走来走去。

Sora简单介绍

目前，文生视频领域因为帧间依赖处理、训练数据、算力资源、过拟合等原因，一直无法生成高质量的长视频。

而Sora最大技术突破是，可以在保持质量的前提下，生成1分钟的视频，在业内非常罕见。这也再次展示了OpenAI在大模型领域超强的技术研发能力。

Sora是一种扩散模型，主要通过静态噪音的视频开始生成视频，然后再通过多个步骤去除噪音，逐渐转换视频。

Sora与ChatGPT一样采用的是Transformer架构，并使用了DALL-E 3中的重述技术，是一种为视觉训练数据生成高精准描述性的字幕。所以，Sora在生成视频过程中精准还原用户的文本提示语义。

功能方面，除了文本生成视频之外，Sora还能根据图像生成视频，并能准确地对图像内容进行动画处理。也能提取视频中的元素，对其进行扩展或填充缺失的帧，功能非常全面。

稍晚一些OpenAI会发布Sora论文，「AIGC开放社区」为大家带来更深度的技术解读。

Sora生成案例展示

以下视频全部由Sora生成，再次感叹一下，效果、时长等方面真的太强了！

逼真的特写视频，两艘海盗船在一杯咖啡内航行时互相争斗。

一只维多利亚冠鸽的特写镜头，展示了它醒目的蓝色羽毛和红色胸部。它的冠羽由精致的花边羽毛组成，眼睛则是醒目的红色。

鸽子的头部略微偏向一侧，给人一种高贵威严的感觉。背景是模糊的，让人注意到这只鸟引人注目的外表。

3D视频，一只圆滚滚、毛茸茸的小动物，睁着一双富有神采的大眼睛，在生机勃勃的魔法森林中探险。它是兔子和松鼠的奇异混合体，有着柔软的蓝色皮毛和长满条纹的尾巴。它沿着波光粼粼的小溪蹦蹦跳跳，眼睛睁得大大的，充满了好奇。

森林里充满了神奇的元素：会发光和变色的花朵、长着紫色和银色树叶的树木，还有像萤火虫一样的小浮光。这只生物停下来，与一群围着蘑菇环跳舞的小精灵嬉戏。该生物仰望着一棵发光的大树，敬畏之情油然而生。

无人机拍摄大苏尔加雷点海滩上海浪拍打崎岖悬崖的景象。湛蓝的海水拍打出白色的浪花，夕阳的金光照亮了岩石海岸。远处有一座小岛，岛上有一座灯塔，绿色的灌木丛覆盖着悬崖边缘。

从公路到海滩的陡峭落差非常壮观，悬崖的边缘突出海面。这里的景色捕捉到了海岸的原始之美和太平洋海岸公路的崎岖地貌。

镜头跟在一辆白色复古越野车后面，车顶有黑色行李架，越野车在陡峭的山坡上沿着松树环绕的陡峭土路快速行驶，轮胎上的尘土飞扬，阳光照在越野车上，越野车在土路上快速行驶，给整个场景投下了温暖的光辉。

土路缓缓弯向远方，看不到其他车辆。道路两旁的树木都是红杉，还有零星的绿色植物。从后方看，汽车轻松地沿着弯道行驶，仿佛在崎岖的地形上行驶。土路本身被陡峭的丘陵和山脉环绕，头顶是晴朗的蓝天和飘渺的白云。

24 岁女子眨眼的超特写，正值 “魔幻时刻”，电影胶片，70 毫米拍摄，景深，色彩鲜明，电影效果。

镜头围绕着一大堆老式电视机旋转，这些电视机播放着不同的节目–上世纪 50 年代的科幻电影、恐怖电影、新闻、静态节目、上世纪 70 年代的情景喜剧等，背景是一家大型博物馆的展厅。

本文素材来源OpenAI官网，如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区

即将举行的活动