OpenAI 2024 发布会第 3 天:Sora 正式对外发布
注:本文长度 2050 字,阅读 4 分钟。
新版本 Sora Turbo
自今年 2 月份 OpenAI 发布 Sora 的技术报告以来,一直没有提供更进一步的 Sora 的访问权限。终于在昨晚的发布会上正式开始了对用户的访问。
本次还发布了 Sora 的新版本,Sora Turbo。主要的更新是速度更快,目前在 ChatGPT Plus 和 Pro 上可以使用的版本就是这个版本。
除了访问更快以外,目前 Sora Turbo 支持最高 1080P 分辨率的视频生成,并且最长支持 20s。
本次的核心看点,除了比 2 月份的技术报告展示的生成速度更快以外,还有 OpenAI 提供了一些配套工具以及延伸开发功能。这个在下面的「功能」部分来介绍。OpenAI 仍然在延续创造 ChatGPT 时刻的产品思路。
Sora 可用性和订阅
ChatGPT Plus 账户和 Pro 账户
ChatGPT Plus 和 Pro 账户已经包含了 Sora,无需额外付费。但是 Plus 账户每月只能最多生成 50 个 480P 分辨率的视频,或者更少的 720P 的视频。
对于 Pro 用户,也就是前天发布的 200 美金/月的版本。用户可以支持 500 次快速生成,然后会进入到无限量的慢速生成 Sora 视频的队列。并且分辨率从 Plus 账户的 720P 提升到 1080P,并且支持 5 个视频的并发生成。
OpenAI 目前正在为需要更多用量,更专业的用户计划提供 10 倍用量的、更高分辨率和更长生成时长的版本,这个版本预计明年初推出。
不可访问区域和定义
Sora 不包括在 ChatGPT 团队版、企业版或教育版中。并且也不对 18 岁以下的人开放。除了过去 OpenAI 明确表示不提供服务的地区,包括中国、俄罗斯以及伊朗等国家和地区外,目前 Sora 在英国大部分地区以及瑞士和欧洲经济区也无法使用(但这些支持的区域预计未来几个月内会提供支持)。
功能
Remix
Remix 功能虽然 Sora 介绍了三个维度,但实际上就只有一种:通过文字来进行重新创作,无论是通过文字描述移除视频中的某个主体、替换某个主体、重绘某个主体。
Re-cut
该功能可以做到在 OpenAI 提供的视频编辑器当中,通过人工筛选你认为最精彩的一些视频帧,然后通过 Sora 的视频生成能力继续进行扩充。
Storyboard
故事板是我认为最重要的功能之一。同样是在 OpenAI 提供的编辑器内,通过在时间轴上创建并编辑一张一张的故事板来生成对应节点的图片。这个功能可以替代过去的人工绘制,不但更快,而且细节更丰富,更能贴近实际的效果。而且依赖 Sora 强大的一致性和文本理解能力,这可能是最有场景、成本友好可以被工业界采用的方案,也是强大的付费功能。
Loop
顾名思义,就是创建无限的循环视频,这也是非常有用的功能之一。比如生成无限循环的浪花的场景。
Blend
融合功能提供的是把两个视频无缝的拼接起来,提供自然的主体的介入过渡。
Style presets
风格预设功能也无需多解释,可以利用 Sora 的一致性和风格理解能力,创建同一种风格的视频。这也是非常有用的功能之一,可以帮助创作者始终保持一种风格进行创作。
为什么 OpenAI 要为 Sora 创造这么多的功能
我认为比起 Sora 的正式对外发布,让我更兴奋的是 OpenAI 背后在应用层的思路。如果是一家以创造领先模型的公司,为什么要做这么多应用层的功能?
这是就我在前文提到的,OpenAI 还是延续了创造 ChatGPT 时的产品思路。虽然生成视频已经不算是什么特别新鲜的事物了,但是为大众所致可能也只有一年左右的时间。OpenAI 这次在 Sora Turbo 正式发布之际,提供了很多上述的工具,但是并没有公布给开发者 API 访问,这很奇怪对吧。
我认为,OpenAI 正在尝试为开发者们以及其他未来可能的合作方,在通过上述的功能来演示如何使用 Sora 的全部能力。可以理解为 OpenAI 正在做一系列的未来如何在应用层使用 Sora 的最佳实践。从场景上看,虽然这一次 OpenAI 单独为 Sora 做了一个工具网站,但是 Sora 这个模型最大的访问量未来肯定不会在 Sora.com 上,肯定会集成在现在的视频编辑工具内。那么如何使用好 Sora,就需要 OpenAI 来开发一系列的场景来启发未来 API 开放后的开发者。就像 OpenAI 在创造了 GPT-3 模型之后,搭建了 Chatgpt.com 一样,启发了一众的开发者。
为什么 Sora Turbo 没有发布 API 呢?原因可能是 OpenAI 现在还是没有完全准备好 Sora。虽然 OpenAI 创造了一些看上去比较专业的工具,比如故事板等等。目的就是为了启发开发者可以开始想象利用 Sora 进入到电影工业界了。但是肯定 Sora 目前无论是成本、稳定性、速度、生成长度以及质量上还不足以让开发者大规模支持到现有的工具内。
Sora 目前的不足
关于性能
OpenAI 表示,目前部署的 Sora 的版本会经常生成不现实的物理效果,并且在长时间的复杂动作中表现不佳。
关于成本
尽管 Sora Turbo 已经比 2 月份发布的时候快的多(意味着目前的版本仍然花费了很长时间来生成,成本仍然居高不下),但是 OpenAI 也认为这并不是人人都可以负担得起的,他们正在努力降低成本。或许我们可以期待按照 OpenAI 一切 顺利的节奏,三个月左右就会迎来平均单价的降低。
Sora 的版权问题
C2PA 元数据
为了确保生成的视频更规范、以及提供一定的保障措施。OpenAI 对 Sora 生成的视频都添加了 C2PA 的元数据,用来标识这是 Sora 生成的。并且这些元数据在 OpenAI 内部可以进行搜索。比如在之前的 OpenAI DALL·E3 模型生成的图片上就包含了该数据。
C2PA 是一种开放的技术标准,普遍用在初版领域,可以将出版商、公司等信息嵌入到媒体内,来验证其来源和相关信息。但这也只是一种开放的技术标准,实际的视频文件是在用户手中的,用户其实也可以通过各种简单的工具来编辑媒体内的元数据,使得这些视频变得无法识别和追踪。
尤其是对于相对专业一些的个人或者媒体,对媒体数据进行管理的时,经常会用到元数据,按照内部的要求进行修改可能是非常常见的。这让 Sora 的方案显得更像是表态,而不是真正的具备可追踪性。
作者:Erlich Liu 微信号:geekthings