豆包发布视频大模型，可生成影视级视频

添加书签

AIGC开放社区
2024-09-26

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

字节跳动旗下的火山引擎在深圳举办的 AI 创新巡展会上，发布了最新两款视频大模型PixelDance和Seaweed，进军文生视频领域。

豆包视频模型能够轻松实现自然连贯的多拍动作以及多主体复杂交互，生成的视频更加精准、逼真。

豆包视频模型生成的视频可以精准地遵循复杂提示指令，让不同人物在视频中完成多个动作指令的互动，且互动过程流畅自然，毫无生硬之感。

此外，豆包视频模型在细节处理方面也相当出色，人物样貌、服装细节甚至头饰在不同运镜下都能始终保持一致，这种高度的一致性使得生成的视频接近实拍效果。

无论是特写镜头下人物面部的细微表情，还是全景镜头中人物服装的纹理和配饰的光泽，都能在各种运镜切换中保持稳定和清晰。

光影方面，经过在剪映、即梦 AI 等业务场景中的不断打磨和持续迭代，豆包视频生成模型在画面视觉效果方面具备了专业级的水准。其出色的光影布局能力，能够根据不同的场景和氛围，精准地模拟自然光和人造光的效果，营造出逼真的光影层次感。

架构方面，豆包视频模型基于先进的 DiT开发而成，这一架构为模型的高效运行和强大功能提供了坚实的基础。通过高效的 DiT融合计算单元，模型能够实现视频在大动态与运镜中的自由切换。

在视频制作中，运镜是非常重要的手段之一，可以通过不同的镜头运动方式来引导观众的视线，增强画面的节奏感和叙事性。

豆包视频生成模型的 DiT 架构使得它能够自如地运用变焦、环绕、平摇、缩放、目标跟随等多种镜头语言。例如，在拍摄一个城市风光的视频时，通过变焦镜头可以突出城市的标志性建筑，让观众更加清晰地欣赏到建筑的细节和美感；

环绕镜头则可以全方位地展示建筑的外观和周围环境，给观众带来一种身临其境的感觉；平摇镜头可以用来展现城市的街道和人群，展现城市的生活气息；

缩放镜头可以在不同场景之间进行切换，营造出不同的视觉效果和情感氛围；目标跟随镜头可以跟踪运动的物体或人物，增强视频的动态感和吸引力。

风格方面支持包括黑白、3D 动画、2D 动画、国画等不同风格视频，包含1:1、3:4、4:3、16:9、9:16、21:9 六个比例，适配于各种终端，以及电影、手机竖屏等不同画幅。

火山引擎总裁谭待表示，截至到9月，豆包大模型的日均 tokens 使用量已经超过1.3万亿，4个月的时间里 tokens整体增长超过了10倍。在多模态方面，豆包·文生图模型日均生成图片5,000万张，此外，豆包目前日均处理语音85万小时。这些数据充分说明了豆包模型在实际应用中的广泛使用以及受到了用户的喜爱。

本文素材来源火山引擎，如有侵权请联系删除

END