短视频的GPT时代!Sora重磅亮相,世界的模拟器或已诞生 | 智库
最大的股票配资公司_股票配资公司排行_最专业股票配资平台
最大的股票配资公司_股票配资公司排行_最专业股票配资平台

股票配资公司排行

短视频的GPT时代!Sora重磅亮相,世界的模拟器或已诞生 | 智库

发布日期:2024-05-22 02:43    点击次数:166

OpenAI官方发布的文生视频模型Sora,可快速生成最多长达60秒的相应视频内容,重新定义了AI生成视频的技术突破。在此之前,一些模型已实现了功能的持续迭代,并初步实现商业化,例如Pika 1.0免费对公众开放,Gen-2模型采用套餐包订阅收费模式,中国大陆的年套餐订阅价格为998元。

2024年有望迎来AI视频年。我们可以期待在时机成熟后,Sora模型对全行业掀起的新一轮革命。不过,Sora仍面临着一些调整,一是商业化需要算力支持,生成成本仍然较高;二是Sora面临版权与产权的挑战;三是Sora底层数据的训练需考虑隐私与数据保护。

来源:新财富杂志(ID:xcfplus)

作者:朱珺(华泰证券研究所传媒行业首席分析师)吴珺(华泰证券研究所传媒行业分析师)

2024年2月16日凌晨,OpenAI官方发布了文生视频模型Sora。该模型最长可以生成长达一分钟的高清视频,重新定义了AI生成视频的技术突破。Sora模型将自然语言处理技术与视频生成技术相结合,使用大量带有相应文本字幕的视频进行训练。用户仅需通过输入文字描述,Sora即可快速生成最多长达60秒的相应视频内容。

Sora具备生成包括多个角色、特定类型的运动、准确细节的主体和复杂场景的能力,还能够创建多个镜头,模拟复杂的摄像机运镜效果,使生成的视频更加生动。此外,由于OpenAI将扩散模型与大语言模型(LLM)相结合,使Sora具备理解和模拟真实世界的能力,所生成的视频中已经可以展现空间以及空间内物体之间的真实物理关系。除了文生视频功能外,Sora还具备图生视频、视频扩展、视频拼接、视频编辑、图像生成等功能。

01

Sora有何优势?

在视频质量方面,Sora较Pika、Runway具有显著优势。相较于这些之前的AI文生视频工具,Sora可以通过多镜头等方式生成更加复杂的视频,在时长、流畅度以及逻辑性方面表现出显著的优势。OpenAI认为,视频生成模型是构建通用物理世界模拟器的一条有前景的道路,它使人工智能理解和模拟运动中的物理世界,迈向了一个新的高度。Sora的发布也意味着通用人工智能(AGI)时代有望加速到来,是AGI实现过程中的重大里程碑事件。与其他AI文生视频模型相比,Sora有四大优势。

图表1:Sora与其他AI文生视频模型性能对比

资料来源:OpenAI官网、DataLearner、华泰研究

一是视频时长及镜头切换的突破。其他头部AI文生视频工具尚且无法完成镜头切换后的衔接,因此作品往往局限于10秒内的单一镜头视频。而Sora不仅可以实现不同镜头间流畅切换,还能生成60秒超长视频。

二是视频尺寸自由。基于OpenAI公布的Sora技术报告,Sora模型可以生成1920x1080与1080x1920之间所有尺寸的视频。而例如Runway Gen2仅支持特定长宽比的视频。

三是背景角色稳定。过往的AI文生视频工具通常会出现背景角色不稳定的情况,即在背景中有许多物体时,画面经常失真、混乱。以“东京漫步的女士”视频为例,在Runway中输入同样的提示词后,背景人物会做出一些怪异的走路姿势,而Sora视频中背景角色表现非常稳定。

四是与真实世界一致。由于Sora初步具备理解和模拟真实世界的能力,生成的视频通常具备一些新兴特征,包括3D一致性、物体持久性、模拟物理交互等。

图表2:Sora生成的视频中人物在切换镜头后仍保持一致性

资料来源:OpenAI官网、华泰研究

在技术方面,Sora实现了数据处理及底层模型的全面革新。

Sora具备统一视觉数据处理功能,可将视觉数据转化为“小补丁”(Patches)。基于OpenAI技术报告,LLM通过代码将多种文本形式进行了统一,Sora从中汲取灵感,将视频和图片压缩成一系列包含原始时间空间信息等物理世界含义的Patches。Sora可以学习这些Patches之间的关系来捕捉运动、颜色变化等复杂视觉特征,统一不同视觉数据的表现形式。

其视频压缩网络还可降低视觉数据维度。OpenAI训练了一个压缩网络和解码器模型,用于降低视觉数据的维度。视频压缩网络将原始视频作为输入、输出在时间和空间上压缩的Latent。解码器则将Latent映射回像素空间。

02

文生视频大模型进化迭代,2024年迎AI视频年

回顾文生视频的发展史,2023年有多款产品落地,2024年加速迈进AI视频新时代。

2023年是文生视频模型的开启之年。在2023年以前,市面上尚不存在公开的文本生成视频模型。仅2023一年实际诞生的模型就达数十个,全球用户数量超过百万级别。目前市场上有21个重要AI视频模型已投入使用并取得一定进展。

图表3:文生视频AI模型2023发布时间线

资料来源:OpenAI官网、华泰研究

2024年,各大公司加快了文生视频模型的研发步伐,有望迎来AI视频年。1月2日,以文生图工具闻名的Midjourney宣布将在未来几个月加快训练文生视频模型。1月23日,谷歌公司推出了文生视频模型Lumiere,可以直接生成全帧率、低分辨率的视频,具有多个时空尺度。Runway的文生视频模型Gen-2在2023年年末也完成了一次重要的功能更新,实现了产出视频质量的大幅跃升。字节跳动和腾讯也分别于2024年1月上旬和下旬公布了视频模型MagicVideo V2与VideoCrafter2。马斯克称2024年将是AI电影元年,AI视频生成产业将加速。

图表4:截至2023.12市场现有的重点关注文生视频模型

资料来源:venturetwins、a16z、华泰研究

目前,科技巨头大多暂未公开其大模型产品,已公开的大多出自初创公司,部分创业者甚至尚未开发网站,而且仅能以Discord机器人为载体。除阿里巴巴的多个模型系列选择在开源平台Github上公开以外,如Meta的Emu Video、谷歌的VideoPoet和Lumiere、字节跳动的MagicVideo等行业巨头的大模型均未公开,而是发表大量相关论文以及对外演示视频。

Sora模型目前暂未对公众完全开放,仅提供给部分内测用户使用。考虑到多重风险,OpenAI表示暂无计划向公众开放使用Sora模型,但目前已向部分专家开放以评估潜在风险,也正向部分设计师、电影制作人、视觉艺术家等授予访问权限以获得反馈。我们可以期待在时机成熟后,Sora模型将对全行业掀起新一轮革命。

当前具有代表性的文生视频模型,均实现了功能的持续迭代,并初步实现商业化。包括文生视频Pika 1.0模型、文生视频Gen-2模型,及文本生成动画工具包Stable Animation SDK等。

文生视频Pika 1.0模型由团队Pika Labs于2023年年底开放免费公测,支持3D动画、动漫或电影等各种类型内容生成。Pika官网给出的功能介绍包含生成和编辑两个部分。生成功能支持输入文本、图像、视频生成或拓展视频。而此次发布更亮点的功能在于Pika 1.0的编辑部分。目前,Pika 1.0免费对公众开放。

文生视频Gen-2模型由Runway最早于2023年3月发布,目前已能生成4k分辨率的长达18秒视频。Runway官网给出八种不同的视频生成方式,包括文、图像、文字图像结合生成视频的三种基础功能。结合由Runway开发的Motion brush功能,用户可以选定图像中的特定区域确定其运动方式。Gen-2模型发布于公司官网、App Store和Discord机器人,采用套餐包订阅收费模式,中国大陆的年套餐订阅价格为998元。

文本生成动画工具包Stable Animation SDK由团队Stability AI在2023年5月发布,能够实现文本输出动画功能。此前,该公司曾以开源文生图AI模型Stable Diffusion在用户中取得极高的关注度。除了支持动画生成,模型还提供多种风格模板,如3D模型、仿真胶片、动漫、电影、像素风格等。Stable Animation采用单次收费模式,取决于所需视频的输出分辨率和帧数。生成一支8秒(约100帧)最低分辨率(512*512)视频收费0.375美元,而一支60秒高清(1024p)分辨率视频收费1.35美元。

03

Sora将如何改变传媒各细分赛道?

影视方面,Sora或可以降低传统影视制作门槛,IP类资产有望价值放大。

Sora可通过提示词生成完整且有逻辑的视频,为创作者提供低成本、高效率的创作方式。对影视行业的主要影响可能体现在三方面。一是大幅降低制作门槛及成本。在空间上,减少了对场景搭建、场地切换等特定资源的依赖,Sora可以用于生成逼真的特效场景降低制作成本。在时间上,将大幅缩短影视拍摄的流程,让非专业团队制作出具有专业水准的视频内容成为可能。二是极大程度丰富影视作品的创造性及风格。制作门槛及时间成本的大幅降低将加速影视内容的迭代,用户生产内容(UGC)的专家化也将创造新的风格与形式,增强影视内容的吸引力与丰富度。三是对于具备创意和灵感优势的生产者更为受益,能更容易产出优质的视频内容。

对于专业影视内容制作公司来说,短期Sora仍将作为工具性产品,助力生产效率提升和成本降低。中长期随着视频内容制作门槛的降低,生产者供给的竞争格局还有待进一步观察,未来更注重故事和创意。预计拥有核心导演及IP资源的公司更受益。Sora的出现或将重塑影视行业,机会与挑战并存,预计影视制作公司将出现分化:一方面,影视作品的“灵魂”来自于创意及情感,Sora作为优秀的生成工具将助力优质的想法和故事落地,文本创作力及导演能力等将成为核心竞争力。拥有核心导演编剧及创意资源的公司竞争力有望提升,低端代工制作公司面临压力。另一方面,新的IP及内容将海量涌现,经典IP有望借助Sora加速生成影视化作品及衍生内容,持续扩大影响力。

在营销方面,广告视频制作基础环节有望替代人力,为营销策划提供创意。

Sora对营销行业的影响也体现在三个方面。一是提升广告相关视频的创造效率。Sora能够快速生成广告宣传视频及商品演示视频,大幅降低广告相关内容的制作成本及时间,有望取代低创造性、可复制的视频内容,小规模且缺乏创意人才的广告公司预计面临压力。二是提供灵感,增强广告吸引力。Sora有望为广告策划环节提供灵感,加速创意实现过程。三是更低成本定制化需求。Sora可大批量快速生成定制化的视频内容,以满足不同用户群体的需求,提升客户转化率及留存率。

游戏方面,Sora可以模拟生成游戏视频,降低生产成本。

Sora可被应用于游戏角色创立,场景开发等过程。游戏是虚拟世界的一种体现,Sora对于物理世界的理解和模拟可以与游戏场景开发高度适配,可以帮助游戏开发者创立角色或背景故事。OpenAI也在Sora技术报告中提出,Sora能够模拟如视频游戏的数字化过程,根据官方视频演示,Sora能在控制如《Minecraft》的游戏角色进行基本操作的同时,高质量动态渲染游戏世界。可以预见,Sora未来将可能被应用生成游戏动画和场景等,增加游戏情感故事背景,提高可玩性,游戏开发者的成本将被降低。

04

Sora的挑战:商业化仍有阻力,法律伦理问题尚待研究

首先,商业化需要算力支持,其发展进度仍待观察。目前生成每支视频的算力与时间成本仍然较高,商业化需考虑使用者多次修改所额外诞生的视频版本。由于ChatGPT高昂的训练和运营成本,目前OpenAI仍有算力瓶颈,考虑到商业化落地后,部分用户语言表达难以一次性准确描述所需的视频内容,可能会降低视频生成精度。出于多次修改的可能,一支60秒视频的成本可能是多次生成后的成本叠加。

其次,Sora面临版权与产权的挑战,以及作品的责任归属。AI作品原创性问题在目前的法律领域尚属于起步阶段,可能让作者或开发者、用户甚至AI本身陷入争议。美国版权局在2023年3月发布了版权指南,对于AI图像版权的归属作出了有条件界定,如作品需要由人工控制,AI信息需进行披露,AI图像不受版权保护等等。相关内容的商用版权问题将更加复杂,涉及到收益分配及相关的时效性等。此外,不良用户可能会借助AI生成不法视频,包含虚假信息、诽谤或煽动性言论、暴力血腥画面等存在违背社会道德和法律的内容等,对社会公众造成严重损害。此时责任归属的判定至关重要,否则会将AI本身及开发者卷入社会舆论的漩涡。

Sora底层数据的训练需考虑隐私与数据保护。模型的训练是基于大量数据集和素材库,可能包含个人隐私或者版权信息,输出的视频素材也可能会包含受版权保护的内容,因此训练时需注意相关内容的界定。此外用户使用时也可能上传个人敏感信息,模型应告知个人数据的最终处理去向,采取相关的安全措施。在不同国家及地区,相关法律尚未统一。2023年12月8日,欧盟成员国及欧洲议会议员就《人工智能法案》达成初步协议。当前,法案为不同风险程度的人工智能系统施加不同的要求和义务,提出基础模型提供者还应当遵守透明度义务,采取足够的保障措施防止产生违反欧盟法律的内容,在不影响国家或欧盟版权立法的情况下,记录并公开提供受版权法保护的训练数据使用情况的详细摘要。大模型公司如何面对国际社会的不同规则,避免模型被用于信息安全斗争,会是将要面临的一大挑战。

本文所提及的任何资讯和信息,仅为作者个人观点表达或对于具体事件的陈述,不构成推荐及投资建议,不代表本社立场。投资者应自行承担据此进行投资所产生的风险及后果。