摘要
Sora模型标志着向构建全面模拟物理世界前进的一大步,展示了生成式人工智能在现实复刻上的深远能力。该模型的推出不仅开启了视觉叙事的新篇章,而且能够把抽象的想象力转换成动态的视觉呈现,实现了将文字的精髓转化为视觉艺术的过程。在这个由数字技术和算法驱动的时代,Sora正重新塑造着人类与数字世界之间的互动关系。本文以Sora为代表的大模型为例,探讨文生视频技术的出现在众多创意领域的革命性潜力,包括电影、短视频、微剧乃至新闻传播等多个行业。然而,对人工通用智能(AGI)的追求往往伴随着严峻的伦理风险,包括深度伪造内容的增多、对人权的潜在威胁、技术滥用的风险以及对知识产权保护的挑战,诱发人们进行关于技术应用反思的讨论,并审视技术进步对社会价值观和认知框架的影响。为确保技术应用的长期持续性和负责任的进展,确保所生成内容的准确性和完整性显得尤为关键。
关键词
Sora 生成式人工智能 伦理风险
自2022年11月ChatGPT发布以来,AI技术的兴起象征着一次深刻的变革,它不仅重塑了人机互动模式,而且深度融入日常生活和各行各业的方方面面[1]。基于这一势头,OpenAI于2024 年2月发布了Sora,一款能够根据文本提示生成视频(Text to Video,T2V)的先进AI模型。这些视频既可以是现实场景,也可以是想象中的场景。与之前的视频生成模型相比,Sora的特点是能够生成长达1分钟的高质量视频,同时保持对用户文本指令的遵守[2]。Sora模型的卓越性能体现在其能够构建细致入微的场景,包括多个角色在复杂背景下的特定动作,以及人物与场景元素和摄像机运动的一致性模拟。此外,Sora能够有效地模拟物理世界的互动,实现不同主题和场景之间的无缝过渡,并且能够在视频风格和环境之间进行转换,甚至实现视频内容的时间延伸,即视频的“续写”。Sora不仅能够从文本生成视频,还能通过图像和现有视频资料生成新视频,同时具备文本到图像(Text to Image)的生成功能。Sora的技术进步得益于深度学习(Deep Learning)、扩散模型(Diffusion Models)和多模态变换器(Multimodal Transformers)等先进技术的综合运用[3]。其创新之处在于将这些复杂的技术集成在一个模型中,实现从简单文本到复杂视频的直接转换,标志着T2V技术的重大进展。
Sora所创作的内容被喻为“真实世界的模拟器”,其对物理世界的精确模拟展示了对现实世界规则的深刻理解和再现。这种全方位的模拟不仅仅是对现实世界各种要素的挖掘和重组,更是对人类与客观经验世界之间媒介角色的一次重新审视。Sora大模型作为未来媒介的滥觞,预示着数字文明的新范式,将重新定义对“真实”的认知。本文旨在探讨Sora这一视频生成模型的出现,将如何影响影视、短剧和传媒行业的发展。在这一过程中,笔者将深入分析Sora技术的应用前景,以及它可能带来的伦理挑战,包括但不限于虚假信息的传播、个人隐私的侵犯以及道德责任的模糊界限。通过对这些问题的探讨,可以更好地理解Sora技术的双刃剑特性,以及它在未来社会中的角色和影响。
一、Sora对影视、短视频产业影响几何?
每一次技术的进步,都会引发人类社会对既有规则的担忧。依赖文生视频大模型,Sora最先改变的极有可能就是影视行业的游戏规则。此次 Sora 凭借其卓越的文本理解和视频生成能力,已经颠覆了人们对影视制作的传统认知。从文生图、文生文,到文生视频能力的进阶、迭代,这一技术将如何重塑影视行业的生产模式和创作关系?
(一)技术突破与创作自由的交汇
在传统影视制作中,创作电影杰作是一个艰巨而昂贵的过程,往往需要数年的努力、尖端的设备以及大量的投资。以技术含量最高的科幻电影为例,《流浪地球》的特效制作耗时两年多,最终完成了超过2000个特效镜头。据报道,电影预算高达5000万美元,其中相当一部分用于后期特效制作。然而,先进的视频生成技术出现预示着电影制作新时代正在到来,从简单的文本输入中自主制作电影的梦想正在成为现实。MovieFactory应用扩散模型从ChatGPT精心制作的脚本中生成电影风格的视频,这是一个重大的飞跃。Mobile VidFactory更是能够根据用户提供的简单文字自动生成垂直移动视频。可以想象,随着大模型技术的进一步应用,特效制作的时间有望从数月缩短至数天,这将极大地降低电影拍摄的时间成本和技术门槛,为电影制作带来新的维度,将传统的叙事艺术与AI驱动的创造力相结合。
尽管Sora目前仅能生成最长一分钟的视频,这一限制在一定程度上减少了其在内容创作上的灵活性。对于90分钟左右的电影而言,无疑对Sora计算能力的精细程度、素材库存储的丰富程度提出了极高的要求。然而,对于短剧行业而言,一分钟的视频长度恰好符合微短剧的市场需求。据艾媒咨询《中国网络微短剧市场规模的研究报告》显示,2023 年短剧市场规模已达到373.9亿元,两年内增长了近10倍,接近百年电影市场 549.2亿规模的70%[4]。在短视频和自媒体等社交平台竞争激烈的当下,Sora能够迅速生成与热点相关的视频内容,确保时效性,从而在流量竞争中占得先机。
(二)加速“视频化社会”新生态进程
随着数字技术的不断进步,人类正见证着一场从文字主导到视频主导的媒介转型,这一转变标志着“视频化社会”的发轫。在这一社会形态中,影视作品,尤其是短视频成为当下不可或缺的思想表达方式和信息传递载体。根据《2023中国网络视听发展研究报告》显示,近四分之一新网民因短视频触网,短视频“纳新”能力远超即时通信。新入网的网民中,24.3%的人第一次上网时使用的是短视频应用,与其他应用拉开较大距离[5]。这一现象不仅证明了短视频作为媒介的吸引力,也暗示了其在社会传播中的潜在主导地位。但是,与文字相比,视频的通用性还处在始发阶段,远未成为社会主导媒介[6]。ChatGPT等生成式人工智能技术通过深刻变革文本处理方式,打破了传统信息处理的边界,而Sora模型的出现则是降低视频内容创作门槛的一个里程碑,显着提高了视频媒介的通用性和可达性。Sora的推出,促进了可视化媒介空间的构建,这一空间与现实世界相互作用和影响,进一步深化了虚拟与现实的交织,使得人类社会变成一个“现实—虚拟”连续体,其中视频起着关键的作用[7]。
此前孵化过爆火虚拟形象“柳叶熙”的创壹科技,在2024年1月上线了短剧新作《柒两人生》。该剧90分钟的总时长中,有60%的内容采用了虚拟制片技术,上线不到 2 小时便迅速冲上热搜,并在抖音平台上获得了高达4.2亿次的播放量。这一现象不仅体现了虚拟制片技术的潜力,也预示了该技术在未来娱乐产业中的发展趋势。更重要的是,以Sora为代表的视频大模型的出现极大地打破了元宇宙发展的核心桎梏,为元宇宙等前沿领域的未来发展描绘出了充满无限可能的美好蓝图。生成式人工智能技术的快速发展正在深刻地重塑视频作品的媒介特性,推动着“视频化社会”向更深层次的演进。随着这一进程的加速,可以预见视频将成为连接个体、社群乃至整个社会的关键纽带,其在教育、娱乐、商业等领域的应用将更加广泛和深入。
(三)游走在深度伪造与创新的边缘
2024年2月9日上线的Netflix新剧《杀人者的难堪》运用AI换脸技术,创造出与主演孙锡久极为相似的童年角色,从五官细节到整个人的气质,和孙锡久本人如同复制粘贴一般。观众纷纷表示“就算是亲生的,都生不出这么像的。”这一运用不仅展示了AI在影视制作中的巨大潜力,也引发了关于AI技术使用的伦理讨论。与 AI换脸技术相比,“文生视频”的Sora表现得更为简单粗暴,其对伦理观念、对真实的理解乃至法律制度提出了更为严峻的挑战。
在生成式人工智能的背景下研究虚假信息至关重要,因为先进的人工智能算法已经日益成为生成和检测欺骗性信息的工具[8]。Sora等先进的人工智能视频生成工具,已经将深度伪造(Deep Fake)技术推向了一个新的高度,即所谓的“真实伪造”(Real Fake),创造出一种新的现实感知:在这种现实中,观众难以区分何为真实,何为虚构。Sora之所以能够达到这样的效果,归功于其对物理世界各个方面的精细模拟,即便在缺乏3D建模的情况下,也能展现出动态相机运动的3D一致性和对象的远程一致性,包括对象的持久性以及与环境的简单互动。例如在数字环境下,Sora能够控制像《我的世界》这类游戏环境,在维持视觉保真度的同时遵循基本的游戏策略。这些新兴能力表明,扩展视频模型在创建人工智能以模拟物理和数字世界的复杂性方面是有效的。具体到日常生活中的物理规则,如食物被咬下时留下的痕迹,Sora生成的视频能够准确反映这些细节,使其产出的内容与现实世界的规律高度一致,进而挑战人们对真实性的传统认识。然而,尽管Sora在模拟现实方面取得了显着成就,但它仍存在技术上的不足。例如,在处理空间位置和对象数量一致性方面的问题,这些问题暴露了当前AI视频生成技术的局限性。随着不断训练,未来的AI视频效果或能做到与人工拍摄不相上下的程度,“扔进一部小说,出来一部大片”或许将照进现实。但是也必须警惕其潜在的滥用风险。虚假信息的生成和传播可能会对社会秩序、公共安全甚至国际关系产生严重影响,认识到这一点是防范技术滥用的重要一环。
二、“风暴之眼”:Sora之后的新闻业将何去何从?
生成式人工智能技术,尤其是如Sora模型这样的先进实例,标志着人工智能领域的一次重大转型。它的核心突破不仅在于对数据进行深度解析和理解,更在于开辟了通过AI独立创作内容的新纪元。这种技术进步将AI从一个主要聚焦于数据处理与分析的角色,转变为具备独立创作能力、能够模拟现实乃至构建新的虚拟世界的创作者。在新闻传播领域,生成式AI如Sora的应用预示着巨大的变革。这一技术能够使记者和媒体机构快速生产出富有吸引力的视觉内容,为新闻报道添加更多直观和生动的元素,从而增强观众的体验和互动性。然而,这也带来了假新闻和误导性信息扩散的潜在风险,对新闻机构在信息核实和舆论引导方面的职责提出了更高的挑战。鉴于此,新闻行业在享受生成式AI带来的便利和创新优势的同时,必须面对如何确保新闻内容真实性和权威性的重要课题。
(一)突破性:Sora在视觉报道中的应用
以Sora为代表的生成式人工智能技术正引领新闻视觉报道进入一个全新的时代。该技术通过迅速构建包含丰富视觉元素的报道和解释性视频,极大地拓展新闻内容的表现力,并显着提升报道的吸引力和观众的参与度。Sora的能力在于模拟真实环境和场景,帮助记者以前所未有的方式传达复杂的新闻故事,使得原本成本高昂、技术要求严格的视频制作变得简便易行。
尽管Sora的虚拟创造能力为新闻报道带来了前所未有的机遇,但它也引发了对新闻真实性的深思。学者邓建国表示,“新闻报道追求真实(facts),而Sora全是虚拟(fictional),它唯一可以被新闻业利用的也许是建构在新闻事实基础上的情景再现。”[9]特别是在无法直接获取现场图像的灾难报道或突发事件中,通过生成高度逼真的动画来模拟事故现场,既可以帮助公众更直观地理解事件,也对事故原因的探究起到了重要作用。以大型自然灾害的报道为例,记者可以使用Sora生成一个模拟的灾害现场视频,展示灾害发生的过程、影响范围以及救援行动的布置。这种虚拟重现不仅能够提供给观众更为生动的视觉体验,也有助于在不可到达的灾区进行“现场报道”,从而在不增加现场风险的情况下传达关键信息。此外,Sora技术的应用潜力远不止于当下新闻的呈现,它还能够穿越时空的界限,为历史事件的再现提供强大的支持。通过精心制作的虚拟视频将观众带回历史的关键时刻,不仅能增强历史事件的传播效果,更能以全新的维度为该事件赋予教育与启示。
(二)危险性:新闻伦理的价值对齐问题
在OpenAI尚未公布Sora模型的具体公开日期之际,其对于新闻伦理和治理的潜在影响已引起业界的广泛关注。Sora模型的未来发展预示着在提升视频制作效率和降低成本方面的巨大潜力,但同时也可能引发专业视频制作领域的职业风险。过于逼真的AI生成视频可能导致虚假新闻的扩散,对新闻伦理构成严重威胁。因此,确保大型生成模型的可信度和安全性成为亟待解决的问题。在众多应对策略中,模型对齐技术尤为关键,目标是使模型的行为和输出与设计者的意图及道德标准保持一致,这触及技术发展、道德责任和社会价值之间的价值对齐[10]。随着Sora模型在生成内容能力上变得越来越强大,如何避免其被滥用于产生仇恨言论和虚假信息等有害内容,已成为一项紧迫的任务[11]。
为应对由Sora带来的挑战,除了内部对模型的精细对齐,还需强化外部安全措施。这包括内容过滤和审查机制、使用权限和访问控制、数据隐私保护,以及透明度和可解释性的增强。另外,Sora作为多模态模型(文本到视频模型),由于能够理解和生成包括文本、图像、视频等各种类型的内容,给安全性又带来了额外的复杂性。传统的内容验证和事实核查手段面对这种新型内容生成模式显得不再有效,这不仅加剧了滥用和版权问题,也增加了监管和管理的复杂度。因此,开发新的技术和方法以识别和过滤由此产生的有害内容,成为确保技术健康发展的必要之举。例如,OpenAI通过使用检测分类器来鉴别视频是否由Sora生成,并部署文本分类器以识别可能的有害文本输入,作为防范措施之一[12]。
三、如何策略性引导Sora 的发展与应用?
Sora的问世及其突破性的技术功能,对视听产业乃至整个传媒领域产生了深刻的影响。悲观主义者甚至抛出了“取代人类”的论调。既然 Sora带来的冲击无法回避,那么关键就在于如何策略性地引导Sora的发展与应用。
首先需要明确认识到,生成式人工智能技术,如Sora本质上仍是一种技术的延伸,类似于为人类提供机械臂的辅助工具。从传播媒介的角度来看,历史上每一次新技术的出现,如报纸、广播、电话、电视和互联网,都曾引起社会对其所带来变革的惊叹。随着社会的演进和技术的迭代,技术进步本质上是社会发展的催化剂,每一次创新都是一个新的起点,旧技术终将被更先进的技术所替代。面对Sora等新技术的发展,相关行业从业者首先需要做的是理解、接触并深入了解其背后的底层逻辑,这恰恰是从赋魅到祛魅的过程。当对新技术背后的生成逻辑有足够认识的时候,恐惧感自然就会消失。
目前,Sora尚处于发展阶段,未达到广泛应用的程度。然而,其发展趋势已经引起了广泛的关注和期待。可以预见,随着Sora等大型模型的逐步开源,它们将为内容创作者提供前所未有的工具,使得视频内容的创作、编辑和个性化定制变得更加高效和灵活。在新闻报道和某些栏目制作中,由于对真实性有着严格的要求,Sora可能暂时无法直接应用。然而,在文艺节目制作、大型活动的宣传、影视剧动画片的创作、多语种节目的译制与推广,以及新媒体内容的制作与传播等方面,Sora的应用前景显得尤为广阔。只要媒体机构能够妥善把关,确保内容的真实性和质量,就可以采用这种“拿来主义”的策略,将Sora等文生视频大模型作为强大的辅助工具,以提升内容创作的速度和质量。
在利用Sora等大型模型的同时,相关行业也需要从自身出发,对技术进行训练和改进,使其真正成为创作的助手。尽管Sora在视频生成领域展现出巨大潜力,但它仍无法独立完成完整的创作过程,尤其是在对生成内容进行详细修改或优化时。此外,Sora在理解复杂语言指令和捕捉微妙语义差异方面的局限性,可能导致生成的视频内容无法完全达到创作者的期望。这一限制意味着Sora在视频编辑和内容增强方面的应用仍有其不足之处,它更多地扮演着参与者的角色,而非独立的创作者。以HBO的《权力的游戏》为例,这部长篇电视剧的成功不仅在于其宏大的叙事和复杂的人物关系,还在于创作者对细节的精心打磨和对情感层面的深刻挖掘。这样的作品需要创作者投入大量的情感和智慧,以及对人类社会和心理的深刻理解,这些都是目前Sora等AI模型所无法单独实现的。
如果说短视频的成功往往依赖于瞬间的创意,那么新闻报道则需要融入人文关怀和情感考量,而感人至深的长篇影视作品则更加离不开人类独特的视角和情感投入,这些都是当前技术所无法完全复制的。因此,虽然Sora等生成式 AI 技术为传媒行业带来了新的工具和可能性,但人类的创造力和情感智慧仍然是不可替代的。行业应当在充分利用这些技术的同时,保持对人类独特价值的尊重和发挥。
结语
Sora模型以其能够生成长达60秒的1080P 高清视频的能力,在文本到视频(Text-to-Video)领域中展现出显着的竞争优势。这一技术进步不仅超越了市场上其他仅能生成几秒钟短视频的模型,如Runway、Pika和Stable Video Diffusion,而且预示着在视频内容创作领域树立新的行业标准的可能性。此外,Sora的高质量视频输出和先进的物理引擎技术,使得制作具有高度逼真物理现实主义的视频内容成为现实。Sora的技术成就标志着人工通用智能(AGl)领域的重大进展,预示着人工智能将更深入地融入我们的日常生活,并可能重塑我们的工作方式和对概念的理解。
然而,互联网技术的发展趋势是朝着“知难行易”的方向发展,随着文本到视频技术的竞争日益加剧,我们预计将看到市场上产品的持续改进。在这个过程中,需要关注几个值得注意的挑战,特别是在知识产权保护和模型训练资源透明度方面。为防止生成深度伪造视频和不当内容的产生,人文情怀和逻辑伦理的融入是关键。我们需要采取措施确保人权得到保障,如对生成视频进行可靠水印以追踪其来源,以及利用区块链技术提升信任度和可追溯性。此外,为了确保技术应用的可持续性,优化生成过程以降低计算资源消耗和环境影响也是必不可少的。面对这些挑战,跨学科的合作至关重要,需要共同制定综合框架、监管策略和技术创新,以促使文本到视频的人工智能应用更加道德和负责任。
参考文献:
[1]OpenAI.ChatGPT:Get instant answers,find creative inspiration,learn something new[EB/OL].(2022-11-30)[2024-03-25].https://openai.com/chatgpt.
[2]OpenAI.Sora:Creating video from text[EB/OL].(2024-02-15)[2024-03-25].https://openai.com/sora.
[3]Liu Y,Zhang K,Li Y,et al.Sora:A Review on Background,Technology,Limitations,and Opportunities of Large Vision Models[J].arXiv preprint arXiv:2402.17177,2024.
[4]艾媒咨询.2023-2024年中国微短剧市场研究报告 [EB/OL].(2023-11-22)[2024-04-22].https://report.iimedia.cn/repo13-0/43507.html?acPlatCode=IIMReportamp;acFrom=recomBaramp;iimediaId=97110.
[5]刘欣.网络视听成为第一大互联网应用!《2023中国网络视听发展研究报告》发布[J].中国广播影视,2023(8):42-43.
[6]孙玮.“视频化社会”的来临——从ChatGPT展望媒介通用性变革[J].探索与争鸣,2023(12):55-62,193.
[7]孙玮.化:视频化生存的前世、今生、未来[J].新闻与写作,2022(4):5-14.
[8]Amaro I,Barra P,Della Greca A,et al. Believe in Artificial Intelligence? A User Study on the ChatGPTs Fake Information Impact[J].IEEE Transactions on Computational Social Systems,2023(3):1-10.
[9]李晓璐,贺涵甫.首个文生视频模型Sora 是人类助手还是对手?[N].广州日报,2024-02-23(09).
[10]Shen T,Jin R,Huang Y,et al. Large language model alignment:A survey[J].arXiv preprint arXiv:2309.15025,2023.
[11]Huang Y,Sun L.Harnessing the power of chatgpt in fake news:An in-depth exploration in generation,detection and explanation[J].arXiv preprint arXiv:2310.05046,2023.
[12]OpenAl.Safety at OpenAI[EB/OL].(2024-02-15)[2024-03-25].https://openai.com/index/sora/#safety.
[13]王树义,肖骁,倪考梦等.Sora的职业影响:知识工作者应对AI核心技能替代的策略[J].图书馆论坛:2024(03):1-10.