【摘要】基于大语言模型的生成式人工智能备受关注,在阐述Sora特点与技术路径的基础上,分析Sora对融合出版业的赋能及潜在风险,并进行反思。作为全新的文本生成视频模型,Sora的出现为融合出版行业带来新的机遇、创新融合出版业态,丰富行业内容制作形式,但同时也冲击既有岗位,带来如深度伪造、编码凝视等风险。因此,在融合出版行业,Sora既是助手,也可能成为潜在的对手,其关键在于如何发挥人的主体性以平衡技术应用与人类智慧的协同发展。
【关键词】Sora;生成式人工智能;融合出版;人机协同;主体性
一、Sora:作为“世界模拟器”的生成式人工智能模型
在人工智能的发展背景下,基于大语言模型(LLMs)的生成式人工智能备受关注,诸如聊天式机器人ChatGPT、文本转图片模型DALL-E2、Midjourney等模型掀起AI热潮,席卷各个行业。继推出大语言模型产品ChatGPT后,2024年2月15日,OpenAI公司发布最新一代的文生视频人工智能模型Sora,再度掀起热潮。OpenAI公司对Sora的命名取自日语“天空”之意,在官网介绍材料中称Sora为“worldsimulator”,指出Sora被设计作为一个复杂的世界模拟器运行,可以依据自然语言文本指令,渲染接近现实并富有想象力的场景。从技术层面讲,Sora并不是文本生成视频模型领域的首创产品,早期的模型包括Runway的Gen-2、StabilityAI的StableVideoDiffusion以及最近谷歌的Lumiere,都为文本生成视频领域铺垫了道路,但是由于缺乏具有高质量文本视频的数据集以及建模高维视频数据较为复杂,早期模型所生成视频长度过短、画面单一、质量较低等。而Sora模型能够深刻理解人类自然语言,在保持视觉质量并遵守用户文本指令的前提下,可以生成长达一分钟逼真且富有想象力的视频。从3—4秒的切片画面到60秒的完整短视频,目前Sora所带来的媒介生态迭代可以理解为一种渐进式革命,即Sora是定位在生成式AI浪潮下的视频技术革命层面的一个节点,其发展的技术路径是对早期生成式人工智能模型技术逻辑的系统性整合,本质上是媒介技术的一次重大升维,使得弱人工智能向强人工智能的跃迁达到了新的高度。
毋庸置疑,以Sora为代表的生成式人工智能模型的出现将改变人们处理任务、解决问题以及与技术交互的方式。首先,Sora不仅可以接受自然语言的文本提示词,还可以识别视觉领域的图片和视频提示。基于此,Sora能够对输入的图像和视频进行编辑,既可以扩展既有的画面,保证视频片段的连贯衔接,又可以给静态图像添加动画效果,提升视频片段的创意色彩。Sora增强了将文本描述转换为视觉内容的可访问性,为更多想要积极参与内容创作的用户提供了一种创新的解决方案。[1]其次,Sora具备高质量的模拟能力。Sora不但可以理解自然物理世界动态的空间维度,在不依赖3D建模的前提下,将人物和场景元素在三维空间中始终保持与3D一致,而且可以把握现实世界的时间维度,与既定对象有持久以及长距离的简单交互,比如Sora可以在对象被遮挡或离开画面时仍然保持时间一致性。此外,Sora能够大幅降低UGC的门槛,可以消弭专业化壁垒,将专业术语、操作转化为简单的文本提示词,比如在《我的世界》《蛋仔派对》等有较高创作自由度的主流UGC游戏中,玩家的美术功底和操控能力决定了该类游戏可玩性的上限。但随着类Sora技术的普及迭代,AI技术可以把剧情设计、世界观构成、交互玩法等内容创作转换为简单的文本提示词,将进一步消融UGC游戏的技术门槛,为玩家和游戏生态提供更多可能。这些功能印证着发掘以Sora为代表的生成式人工智能模型的潜力是朝着构建物理世界通用模拟器的有效路径。最后,Sora具备更灵活的采样能力。一方面,Sora可以控制生成视频的画面帧率,能够生成宽屏1920×1080p视频、竖屏1080×1920p视频以及介于两者之间的内容;另一方面,Sora可以改善画面的构图和框架,呈现更加贴合专业视频的帧率,匹配更完美的画面纵横比。因此,基于Sora在创建内容生成和从文本转换到视频的强大功能,其问世必将为社会各行业带来变革。在影视创作行业,Sora可以丰富影视产品的叙事手段,增强画面的视觉表现力,将极具想象色彩的画面清晰地呈现,比如首部中国原创文生视频AI系列动画《千秋诗颂》,聚焦语文教材的200多首诗歌,借助央视听媒体大模型,还原古诗词中的场景;在医疗领域,Sora可以模拟多个角色和物体之间的交互,完整构建复杂的医疗假设,促进病患沟通等。综合来看,Sora不是简单的视频生成器,其终极目标是模拟和复刻真实的世界图景。Sora的出现不仅是从文生文字、图片到文生视频的转变,更是人工智能大模型技术发展迈向通用人工智能发展过程中的里程碑式节点。[2]
然而,除了关注Sora模型的巨大潜力外,如何解决现代人工智能模型中存在的问题仍然至关重要。实际上,生成式人工智能模型的应用前提都离不开数据,离不开数据语料库的建设,因此,Sora等AI工具在数据抓取、学习以及应用过程中存在的风险是不可忽视的研究议题。[3]美国《连线》杂志的编辑艾伦·亨利(AlanHenry)指出,由于数据集设计不当以及AI工具对自身决策和执行流程的幻觉缺乏认识,目前的人工智能文本生成系统仍然容易出现基本的简单错误。这一言论强调了作为智能媒介技术的Sora在使用过程中带来的深度伪造、错误信息等挑战(训练数据集的滥用、用户隐私泄露、人工智能偏见)。此外,Sora的广泛使用可能会对各行各业带来冲击,是否会影响原有工作者甚至颠覆原有工作等问题也不容忽视。
总体来说,文本生成视频模型Sora的发展是沿着智能生成文本、图片到智能生成视频的路径进行的,是从以文本为基础的单模态到以影像为基础的多模态的变化,代表了人工智能将人类想象力可视化的重大飞跃。[4]这一飞跃也恰巧反映了生成式人工智能研究的目标,即赋予人工智能系统理解和互动自然物理环境的能力。[5]随着生成式人工智能技术从早期的智能生成文本、智能生成图片到如今智能生成视频的更新迭代,AIGC(人工智能生成内容)的可用度和便利度越来越高,生成式人工智能大模型的应用不断在各个领域铺展。[6]有学者认为,随着AI工具的广泛运用,未来PGC(专业生成内容)将普遍采用AI工具制作,UGC(用户生成内容)会逐渐被AIGC(人工智能生成内容)取代,内容生产领域将迎来全新的变革。[7]作为注重内容创作的出版行业,Sora的出现标志着一场深刻的变革即将到来,出版业内既有的运行范式将会发生改变。本文结合“可供性理论”的分析框架,聚焦于Sora对融合出版行业的三个核心要素——移动可供性、生产可供性和社交可供性进行分析,主要讨论以下问题:一是探讨Sora对融合出版行业的赋能;二是分析以Sora为代表的生成式人工智能对融合出版行业带来的机遇和风险;三是反思在迈向通用人工智能(AGI)发展的道路上,融合出版行业将如何拥抱全新智能媒介技术所带来的新变化?通过对Sora在融合出版行业的相关机遇、风险的全面了解以及对新技术热潮的反思,本文的目标是提供应对这些挑战和缓解风险的实用建议,从融合出版角度看,利益相关者可以采纳本文概述中的建议,充分了解并使用以Sora为代表的生成式人工智能模型,为迈向通用人工智能(AGI)时代做好准备。
二、技术升维:Sora与融合出版行业的结合点
智能媒介技术的发展为融合出版的创新赋能,Sora的出现不仅代表了生成式人工智能创意工具的飞跃,更是将出版行业的创新推向新的高度。作为一种新型生成式人工智能模型,Sora克服早期视频生成模型生成视频长度短、渲染视频质量低等限制,为融合出版行业范式的创新提供了巨大的机遇。在出版领域,Sora可以为融合出版提供新质生产力,拓展融合出版行业制作内容的方式,为内容创作提供范式,最终促进融合出版的发展,可以在出版从业人员中落地开花,大幅提升融合出版业的工作效率。在媒体领域,正如AI电影《山海奇境》制作人陈坤所表示的:“在Sora诞生前,其利用AI视频工具制作科幻电影的成本已经下降了一半,Sora落地后,更加值得期待。”因此,未来的Sora还有望进一步降低影视、传媒作品的创作门槛、成本等,营造更广泛的媒体生态。Sora在自动驾驶领域引发的变革也不可忽视,现有行业技术可以支撑Sora依据数据库内容的输入,实时更新变化自动驾驶汽车的模拟场景,实现更全面、深度且便捷的汽车训练和测试。无论是艺术创作还是科技模拟,Sora与既有的生成式人工智能不同,其具备理解人类世界因果、时空观念的能力,这代表着人工智能在将人类抽象思维向具象化视频转变过程中迈出的巨大一步。此外,Sora还可以将创意性思维转换为可视化场景,使得人工智能能够理解人类的想象力,这印证着以Sora为代表的生成式人工智能不会局限于现有创新技术的框架下,将成为高度智能化的人类助手,以化学实验中“催化剂”的身份呈现,加速催化社会各行业和领域的发展与变革。[8]
(一)移动可供性:智能驱动产品生成,推动形态创新提质增效
Sora的出现将推动融合出版行业内容创作的多元化和多形态展现,结合3D渲染、元宇宙等技术,创建“人人皆现场,观众如临场”的新时代表达。传统的出版行业以专业生成内容(PGC)为主,出版物以纸质读物为主,出版行业承担着编审等责任。随着社交媒体的出现,用户生成内容(UGC)逐渐普及,文字、图片、音视频等形态的数字化出版物接踵而来,但是专业界限模糊,生成内容质量参差不齐,出版行业转向以校审为主。[9]随着以Sora为代表的生成式人工智能爆火,用户通过简单的文本提示词就能够生成作品,编辑出版的专业门槛大幅降低,以Sora为代表的生成式人工智能可以输出高质量产品,在此过程中,融合出版行业可以利用Sora先进的文本生成视频功能,创作多元、多形态的出版物,通过创新的交互式产品增强趣味性、现场感等以吸引读者,比如在教育类出版物中可以通过视频生成技术展现科幻的故事情节以及复杂的科学实验等,在保证视频质量的前提下,还可以实现创意的别具一格。
此外,为满足日益增长的互联网用户的在线需求,纸质的编辑出版产品逐渐向数字化的融合出版产品发展,并逐渐与数字化的融合出版行业无缝对接。[10]在融合出版产品领域中,鉴于3D模型、VR/AR/MR等技术高额的应用成本,出版产品的质量不一,融合产品的应用受限。[11]无论是为出版物订制多维度的视觉风格,还是为融合产品用户带来沉浸式的阅读体验,Sora都可以依据关键词或文本提示生成高质量的三维实景视频,从而降低虚拟现实技术应用的成本,为融合出版产品提质增效。[12]因此,将Sora模型应用在融合出版行业内,不仅开辟了新的产品表现形态,还降低了技术应用成本,为融合出版类产品的发展提供更多的可能性。
(二)生产可供性:强化私人订制意识,驱动用户体验升级
Sora的出现将进一步推动融合出版行业从自我中心向用户中心发展,通过媒体将社交由“人际交互”向“人机交互”扩展,提高生成式人工智能模型使用的灵活性,赋能用户能动性。相较于传统编辑出版行业以自我为中心的营销状态,随着媒介技术的发展,用户逐渐成为融合出版行业应考虑的主要目标。有学者从算法个性化视角出发,指出通用人工智能(AGI)个性化的终极愿景就是实现“用户自我化”,作为AI驱动工具的Sora,其可以根据用户输入的文本指令生成独特性的视频产品,实现真正意义上的“私人订制”。[13]因此,以Sora为代表的生成式人工智能不但可以帮助融合出版行业精准预测用户需求,实现产品的个性化订制,还能够促进用户与出版商的互动与交流,增强用户的参与感和互动性,提升用户使用产品的体验感。此外,在游戏领域,Sora可以通过实时适应玩家的决策选择文本对话,动态渲染出高保真的游戏场景,使得过场动画不再局限于设定好的脚本事件,让用户有更多独一无二的互动体验。为应对媒介技术生态环境的变革,融合出版行业还可以研发适配出版业务自身的生成式人工智能模型,积极探索新的业务模式和服务形态。例如,通过建立贴合Sora使用模型的用户行为数据库,出版商可以分析用户使用Sora模型生成内容的偏好,进而提供更加精准的内容推荐。同时,出版商还可以利用Sora等工具,开展互动式内容创作,让用户参与到内容的生产过程中,进一步提升用户的参与感和满足感。
总之,Sora的出现为融合出版行业带来了前所未有的机遇。通过强化私人订制意识,并不断优化用户体验,出版商可以在这个数字化、智能化的时代找到新的增长点。未来,随着技术的进一步发展,我们有理由相信,融合出版行业将能够为用户提供更加丰富、个性化的阅读体验,同时也将为整个社会的知识传播和文化发展作出更大的贡献。
(三)社交可供性:协同社交媒体技术,革新视频化营销策略
随着以Sora为代表的文本生成视频模型成为前沿技术,它们普遍运用在不同的研究领域,基于Sora根据文本指令生成短视频的能力,其可以与社交媒体结合,为融合出版行业社交媒体平台上的内容创作提供新的可能性。[14]对出版社而言,一方面,Sora可以整合出版产品的文本与图像,将静态的图文叙事转化为动态的视频叙事,提升用户阅读体验;另一方面,Sora可以依据出版产品生成用户想象的画面,既简化视频创作流程,又创新画面视觉元素,极大地提升宣传效果。有研究表明,Sora能够突破抽象和现实的界限,实现文本、图片和动态叙事的整合,使视频营销更加大众化,凭借Sora,融合出版行业可以制作视频预告片、书籍介绍视频等多种形式的宣传内容,通过社交媒体、视频网站等平台广泛传播,这种视频化的宣传方式不但能够更好地吸引读者注意,提高书籍的曝光率和销售量,促进出版社的运营,还能够将创作内容动态化和沉浸式呈现,助力推动融合出版行业迈入新时代。[15]
总体来看,以Sora为代表的文本生成视频模型实现了在融合出版行业改变规则的创新,可以满足出版商与用户的多样化需求,为双方带来更具定制化的互动体验,也为改变融合出版行业数字营销提供可能性。随着生成式人工智能技术的不断发展,融合出版行业可以借助Sora实现人机协同的运行范式,持续变革和再造行业工作流程,推动出版全媒体营销矩阵的形成,补足补强融合出版行业营销数字化的薄弱环节,提高营销转化率,推动智能媒介生态下融合出版行业的转型升级。[16]
三、风险陈列:Sora狂欢热潮后的冷思考
任何事情的发展都具有两面性,虽然以Sora为代表的生成式人工智能催化了社会各行业与领域的发展进程,但是这类工具也有可能成为有害内容的“放大镜”,放大生成式人工智能模型对社会以及各行业的冲击与风险。有学者认为,Sora的到来实际上是对人类社会权利的一次重新洗牌,原有掌握在人类手中的权利被更多地分配到了人工智能中,而在向人工智能交付社会行使权利的过程中,不可避免地会出现一系列负面问题。[17]比如,Sora所输出的内容存在深度伪造的风险,会导致人们的混乱与分裂,破坏社会的信任和凝聚力;Sora模型内还包含有歧视和偏见的训练数据集,会加剧性别、种族等话题的冲突。此外,鉴于Sora模型对训练数据集的依赖,其训练过程中是否存在数据滥用等行为也有待考证。与任何新技术一样,Sora的出现也会对社会各行业带来冲击,比如其快速生成高质量视频的能力大幅度降低了影视创作的门槛,可能会进一步挤占传媒行业的工作岗位等。总之,无论是数据训练还是挤占岗位,随着人工智能逐步向通用人工智能(AGI)发展,其自主性权利逐渐扩大,人与机器的关系也发生异化,即从既有的机器模仿人类的行为转变为人主动学习机器的运行逻辑,人类的思维逐渐向机器化发展,各种社会矛盾也随之浮出水面。[18]此外,鉴于人工智能逐渐向现实图像的生成方式发展,其所带来的有害因素变得不易察觉,因此我们要时刻保持警惕,反思以Sora为代表的生成式人工智能热潮的背后风险。
(一)深度伪造致使社会恐慌,增加编辑审核的难度
无论是超脱于现实生活的视频画面还是与现实世界几无差别的超真实画面,Sora都可以依据用户输入的文本指令进行创建,既可以将想象画面真实呈现,提升融合出版产出内容的趣味性,又能够增强视觉的真实感,提升用户的体验效果。但是对融合出版行业而言,Sora创作高保真视频的优势同样也是一把“双刃剑”,基于Sora生成高保真视频的特性,超真实的画面,易消弭真实与虚幻之间的界限,其产出的视频极易令人相信,当这些内容以“真相”形式进行传播时,无论是意外的(错误信息)还是故意的(虚假信息),都会导致人们认知混乱和社会恐慌。显而易见,当Sora的深度伪造(Deepfakes)风险嵌入到社交媒体背景下的传播环境中,不法分子更容易制作并传播深度伪造视频,增加编辑内容审核的难度,虚假信息更易于传播,人们很容易陷入到一个充斥着以假乱真视频的社交媒体平台环境中,使媒介上传播的内容真实与虚构变得无法区分,其结果会使公众的社会信任和凝聚力遭受破坏。[19]Mvondo等人基于UTAUT2理论,构建用户Sora使用意愿研究模型,通过对940名受访者进行调查,发现用户对Sora模型输出内容的感知真实性是驱动用户使用意愿的关键因素,这证明用户对文本生成视频模型深度伪造的风险表示担忧,而当用户发现Sora模型生成的内容真实且引人入胜时,他们会认为文生视频模型很有用,并愿意使用它。[20]DigiDiplomacy首席人工智能治理负责人埃斯克·蒙托亚(EskeMontoya)指出:“人工智能正在重塑竞选策略、选民参与和选举诚信的结构。”政治家可以利用生成式人工智能技术战略性地制作并传播有关对手的虚假但令人信服的负面文本、图片、视频等来影响选举的结果。比如,在2024年1月的美国新罕布什尔州初选中,一通由AI生成的模仿乔·拜登(JoeBiden)总统声音的虚假电话阻止了部分选民的投票行为。现有的人工智能深度伪造技术已经带来了不容忽视的风险,以Sora为代表的文本转视频技术进一步扩大了深度伪造滋生的空间,提升了融合出版行业审核内容的难度,未来对AI视频的监管任重而道远。
(二)技术更迭冲击工作岗位,侵权、版权界定或成难题
Sora可以低成本、快速地生成高质量的内容,是让人摆脱琐碎事物的转折点,但也存在逐渐僭越权利的界限,挤压出版行业的生存空间,引起岗位替代、人员失业等风险。生成式人工智能技术背后的底层逻辑是可用度、便利度,Sora的出现能够更新融合出版产品的创作方式,大幅降低内容创作的技术门槛,改变融合出版行业的传播格局,即传播内容生成主体从早期的专业生成内容(PGC)过渡到用户生成内容(UGC)再变革到当下人工智能生成内容(AIGC),出版产品呈现方式从纸质产品到图像、音视频产品,然后过渡到数字融合产品再到当下的极度拟真甚至超越现实的AI产品,智能媒介技术日新月异的更迭不断打破创作者的专业壁垒,给融合出版行业的发展带来挑战,也使整个行业的主体认同遭受冲击。[21]除变革内容产出方式外,以Sora为代表的生成式人工智能技术还改变了传统融合出版行业的供给结构,重新定义出版人的身份,即传统读者与编辑之间的固有身份被打破,人人皆可通过智能媒介技术创作出高质量的产品,相应地,如文案编撰、视频剪辑制作等重复性、标准程度较高的工作岗位会面临被替代的风险。此外,生成式人工智能改变内容产出方式,以对话式的方式获取知识,作为内容产业的出版业应防范人工智能可能带来的著作权侵权问题。北京印刷学院副院长陈丹指出,目前难以发现和界定人工智能侵犯版权的行为,出版业的版权资产面临着被盗用的风险。诚然,ChatGPT、Sora等人工智能模型依赖数据库存活,如何界定数据学习的版权是亟待解决的问题,正如HarrisX首席执行官DritanNesho所表示的,以Sora为代表的生成式人工智能的复杂性与先进度不断增长,增加了人们对智能工具影响生活的担忧,亟须为这个新兴行业建立监管护栏,保证技术的可控性。
(三)数据输入一叶障目,资本的诡谲暗流涌动
生成式人工智能模型的输出内容并不是凭空产生的,而是高度依赖于训练它的数据集,有关数据的使用主要有两方面的风险。其一是训练数据集的狭窄。与其他生成式人工智能产品一样,Sora只能从现有的数据库中获取数据进行训练,因此它会不加任何情感价值过滤地吸收互联网中的内容,这使得它容易受到文化偏见或刻板印象的影响。[22]比如在性别阴影实验(GenderShadesProject)中,研究者发现部分商业人工智能系统错误地将女性和肤色较深的人识别为男性,其实验数据表明深色皮肤的女性被错误分类的概率高达34.7%,而肤色较浅的男性的最大错误率仅为0.8%,存在严重的性别化、偏见化。[23]因此,生成式人工智能本质上并不是中立的,它们优先反映那些有能力塑造AI的人的偏好和偏见,而对其他群体则存在一种编码凝视,即AI在用户无意识的情况下就按照既有的偏见划分队列、区别对待。此外,Sora训练数据集由西方国家设计,其中必定灌输西方的意识形态以及价值观,潜移默化地影响融合出版行业,会导致在关键领域出现歧视性结果。
其二是训练数据集的来源。生成式人工智能能够快速生成高质量的内容归因于其输入数据的架构,除去数据训练集狭窄带来的歧视与偏见外,以Sora为代表的生成式人工智能的训练数据集从何而来也是一个值得深究的问题。对此,OpenAI公司仅仅表示Sora的训练数据是经过许可、公开可用的,并未对是否使用其他社交媒体平台中的视频数据作出明确回应。然而数据的“可公开获取”与“公域”并不总是能画等号。[24]一方面,Sora的数据可能来源于艺术家、作家等,在未经适当授权的情况下可能会复制、学习受版权保护材料,侵犯版权,致使创作者的创作意愿下降。[25]另一方面,伴随着数据的跨界流动,Sora可能会收集与国家、科研机构等相关的敏感数据,产生数据泄露、影响数据主权等问题,将国家安全置于风险之中。就融合出版行业而言,现有人工智能的数据来源于西方,在数据的输入与内容的产出中带有先天的价值观倾向,可能会冲击融合出版行业秉持的顶层设计;此外,以Sora为代表的人工智能技术的发展已经超出当前法律的规定,现有的版权法无法充分顾及人工智能生成内容的细微差别,因此亟须对融合出版作品的版权保护进行重新规定。
四、技术反思:Sora身份的应对策略
人工智能(AI)不仅是技术进步的产物,更是人类社会演变的象征,以Sora为代表的人工智能模型,从前期的降本增效到中期的“入口之争”,再到后期的范式变革,AI颠覆知识内容供给的方式,既是推动社会发展的“催化剂”,也是揭示社会深层问题的“放大镜”。道德是人类固有的属性,技术、机器等属性是由人对善恶的偏好决定的,关注Sora给世界带来震惊的同时,我们需要进一步深化自我对人工智能技术的反思。总而言之,我们需要从人的主体性出发,培养一种“中庸”“健康”的技术使用方法,既可以充分发挥Sora的变革潜力,又能够防范其带来的潜在风险。对融合出版行业而言,面对文生视频模型给融合出版领域带来的风险,亦步亦趋可能会让技术挤占人类的位置,引发行业危机,因此融合出版行业应当积极拥抱Sora带来的变革,采取监管与鼓励并行的举措。
其一,建立数据输入的伦理准则,以顶层设计规训模型使用。生成式人工智能模型的输出高度依赖其数据集的输入,然而其获取的数据集并不是客观公正的,而是不加过滤地从现有互联网数据库中获取的,是充斥研发者个人价值观、存在歧视与偏见且包含西方意识形态的数据集。因此,为了确保Sora模型在出版行业的健康发展,融合出版业需要从顶层设计出发,给予AIGC合理的发展空间,面对生成式人工智能模型暴露的风险与缺陷,应当建立行业内生成式人工智能模型数据输入的多元化监管机制与多维协同治理体系,构建以我国核心价值观组成的“过筛网”,明确其使用限度、视频类型以及传播场景,确保训练数据的多样性和公正性,减少输出内容偏见和歧视的产生。此外,融合出版行业应当积极响应国家有关人工智能的法案,比如,2023年7月正式公布的《生成式人工智能服务管理暂行办法》,融合出版领域需对其中AIGC的具体应用及管理规则进行细化,进一步强化生成式人工智能模型的逻辑学习,坚守顶层设计对生成式人工智能模型的数据使用的规训,推动构建融合出版行业防范和制止人工智能风险的共识,实现输入数据多样性、公正性的目标,为Sora技术在融合出版行业的健康发展提供坚实基础。
其二,设立技术监管机制,审核监督AI模型输出内容。除了确保生成式人工智能模型数据输入的多样性、公正性,对AI模型输出内容的监管也是必不可少的。以Sora为代表的生成式人工智能技术,虽然具有通过文本自动生成逼真视频的能力,但是它们无法自我“体验”输出内容,也不能“自我”审视和理解自身,不具备辨别是非的价值系统和情绪感知。比如Sora快速生成的视频可以显著降低深度伪造内容的制作门槛,使得伪造他人言行变得更加容易,从而可能被滥用于诈骗、诽谤、色情等违法行为,对社会秩序构成破坏,甚至对国家安全构成潜在威胁。因此,针对AI生成信息的真实性挑战,融合出版机构有必要对Sora生成内容的真伪进行严格审查和核实,应建立专门机构负责监管和审核AI生成的内容,确保其真实性和准确性。具体而言,融合出版行业一方面要培训编辑人员,提升其对文本生成视频审核监督的素养,防止深度伪造等不良内容的传播;另一方面要善于用技术制约技术,加快打造深度伪造信息检测系统,提升监管生成式人工智能模型能力。
其三,培训融合出版人员以适应技术变革,促进人机协作的深入发展。技术逐渐嵌入人类社会的方方面面甚至人类的身体本身,“迫使”人类让渡些许权利,比如Sora可以将文本描述迅速转换为视觉上引人注目的内容,并且生成长达1分钟具有高质量画面的视频,抢占融合出版人员拍摄、剪辑等创作的权利;Sora所生成的多模态知识,视频、动画、游戏等有很强的交互性,传统的出版行业所设计的平面形式的图书毫无优势,从业者可能会面临职业危机。但是就目前阶段而言,Sora作为一种AI辅助工具,更多的是推动行业革新,促进出版成员调整角色定位、提升专业素养,以适应技术进步带来的新环境,而非直接导致人员失业。比如贾煜等人通过设计“功能导向”或“娱乐导向”的单因素组间随机实验调查用户对AIGC类产品的使用满意度,结果表明与AIGC功能特性相比,其娱乐导向更贴合用户的使用满意度。[26]这种趋势可能在揭示着以Sora为代表的生成式人工智能模型首先会涌向娱乐业,在业界的应用暂时不会冲击相应的工作岗位。此外,在融合出版流程中,AI无法超越人工对内容在意识形态以及价值观层面的审核,难以复刻人的高级情感和人际沟通能力去与读者互动等。显然,人工智能是否会构成实质性的威胁尚需进一步观察,而Sora未来对人类社会的作用,归根到底在于如何协调人与技术之间权利的平衡。因此,融合出版业首先应当对人工智能的表现祛魅,明确自身的角色定位,把重心放在内容把关和专业生产上,通过培养数字化、智能化出版人才,将抽象思想转换为实际行动,保证融合出版人员处于独立于技术对象之外的位置。其次,要培养融合出版人员主动拥抱以Sora为代表的人工智能技术,以引领融合出版人员的发展方向,深化人机协同,为实现一个更加包容、创新和道德驱动的未来而努力。最后,要始终明确一点:人工智能的存在将持续下去,并且传统的以人为主导的编辑、文案编辑和校对工作也将继续存在。[27]
随着以Sora为代表的AI模型不断发展,人工智能技术作为异己的力量凸显,人与技术的关系逐渐从“技术规则”向“技术规训”转变,即从人类规训、使用技术到技术反向驯化、规范人类的转变。[28]但实际上,生成式人工智能想要产出对内容的提问与引导仍是其必不可少的关键环节。面对逐渐变革的智能传播技术,或许各行业工作方式、岗位发生变动或更改,但是人类的价值和主体性是不可替代的。因此,Sora不应该被视为人类智慧的替代品,而应将其视为增强人类能力的补充工具。尽管Sora带来了一种全新的内容生产范式,但是鉴于其应用方面的缺陷,如无法完全模拟出自然物理状况下的场景以及社会事物的因果关系(咬过饼干后却无咬痕),以及其所带来的风险,如未知来源的数据集以及带有歧视和偏见的训练数据等,因此,从目前开始到很长一段时间,人类仍需发挥主体性对以Sora为代表的人工智能技术进行规训,将其身份框定在助手而非对手。
[本文为河南省哲学社会科学规划项目“社交媒体环境下农村地区社会化阅读行为及推广效果研究”(编号:2021CXW031);河南省优势特色学科平台项目“中国城市国际形象传播现状、问题与路径研究”(编号:24XKJS002)的阶段性成果]
参考文献:
[1]Liu Y, Zhang K, Li Y, et al. Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models[J]. arXiv preprint arXiv:2402.17177, 2024.
[2]黄欣荣.从ChatGPT到Sora:生成逻辑、哲学本质及世界图景[J].新疆师范大学学报(哲学社会科学版),2024,45(06):72-80.
[3]张新新,孟轶.Sora驱动下的融合出版新技术新业态新模式分析[J].中国编辑,2024(4):29-36.
[4]喻国明,苏健威.从Sora到AGI:智能媒介的升维与全新场景体验时代的到来[J].编辑之友,2024(6):39-45.
[5]Liu Y, Zhang K, Li Y, et al. Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models[J]. arXiv preprint arXiv:2402.17177, 2024.
[6]陆小华.Sora技术链可用性与新闻出版业智能变革策略[J].中国出版,2024(5):5-11.
[7]Wang F Y, Miao Q, Li L, et al. When does Sora show: The beginning of TAO to imaginative intelligence and scenarios engineering[J]. IEEE/CAA Journal of Automatica Sinica, 2024, 11(4): 809-815.
[8]黄欣荣.从ChatGPT到Sora:生成逻辑、哲学本质及世界图景[J].新疆师范大学学报(哲学社会科学版),2024,45(06):72-80.
[9]徐敬宏,张如坤.ChatGPT在编辑出版行业的应用:机遇、挑战与对策[J].中国编辑,2023(5):116-122.
[10]张新新.出版转型的体系性思考与理论建构[J].中国编辑,2020(9):54-59.
[11]左志红,丁以绣.如何应对?既不等待观望也别亦步亦趋:Sora引发的“出版四问”系列报道之四[N].中国新闻出版广电报,2024-03-05(3).
[12]张新新,孟轶.Sora驱动下的融合出版新技术新业态新模式分析[J].中国编辑,2024(4):29-36.
[13]江潞潞.智能交往,未来已来:“激荡AIGC”数字交往八人谈观点综述[J].传媒观察,2023(3):48-54.
[14]Kustudic M, Mvondo G F N. A Hero Or A Killer? Overview Of Opportunities, Challenges, And Implications Of Text-To-Video Model Sora[J]. Authorea Preprints, 2024, 10.
[15]Mogavi R H, Wang D, Tu J, et al. Sora OpenAIs Prelude: Social Media Perspectives on Sora Open AI and the Future of AI Video Generation[J]. arXiv preprint arXiv:2403.14665, 2024.
[16]张新新.出版转型的体系性思考与理论建构[J].中国编辑,2020(9):54-59.
[17]方兴东,钟祥铭,宋珂扬.Sora与新控制危机:理解智能传播时代风险的新机制、新治理和新逻辑[J].传媒观察,2024(5):59-70.
[18]刘海龙.生成式人工智能与知识生产[J].编辑之友,2024(3):5-13.
[19]胡泳.AI视频的兴起:Sora类生成式平台的可能性与风险[J].传媒观察,2024(4):5-19.
[20]Mvondo G F N, Niu B. Factors Influencing User Willingness To Use SORA[J]. arXiv preprint arXiv:2405.03986, 2024.
[21]陆小华.Sora技术链可用性与新闻出版业智能变革策略[J].中国出版,2024(5):5-11.
[22]Mogavi R H, Wang D, Tu J, et al. Sora OpenAIs Prelude: Social Media Perspectives on Sora Open AI and the Future of AI Video Generation[J]. arXiv preprint arXiv:2403.14665,2024.
[23]Buolamwini J, Gebru T. Gender shades: Intersectional accuracy disparities in commercial gender classification[C]//Conference on fairness, accountability and transparency. PMLR,2018:77-91.
[24]胡泳.AI视频的兴起:Sora类生成式平台的可能性与风险[J].传媒观察,2024(4):5-19.
[25]Kustudic M, Mvondo G F N. A Hero Or A Killer? Overview Of Opportunities, Challenges, And Implications Of Text-To-Video Model Sora[J]. Authorea Preprints, 2024, 10.
[26]贾煜,韦懿轩,黄玥,等.功能导向还是娱乐导向?ChatGPT使用类型对用户满意度的影响研究[J].全球传媒学刊,2024,11(02):79-98.
[27]Anne McCarthy.The Potential Impact of AI on Editing and Proofreading[EB/OL].[2023-5-10].https://newyorkbookforum.org/blog/the-potential-impact-of-ai-on-editing-and-proofreading/.
[28]胡绵.深度反思人与技术的关系[N].中国社会科学报,2022-08-09.
作者简介:邓元兵,郑州大学新闻与传播学院教授(郑州 450001);李菲,郑州大学新闻与传播学院硕士生(郑州 450001)。
编校:王志昭