摘要" AIGC的快速发展正在深切影响着出版业的生态重构,同时也为电子音像出版的转型升级提供了破题思路。国家和行业对AIGC发展做出的深入部署,引领着技术创新与电子音像出版的多元耦合。研究发现,虽然潜在的法律、安全和伦理问题仍需解决,但AIGC正在赋能电子音像出版,使其向着生产内容活化、产业生态联合、权责归属清晰的未来图景前进。
关键词" AIGC 电子音像出版 内容生产 数字出版
自AIGC出现以来,正如哈特穆特·罗萨(Hartmut Rosa)的社会加速理论所指出,在“根据目标导向而有意的加速”[1]。2024年2月,OpenAI发布视频生成模型Sora,称将带领视频生成领域进行一次升维。3月,Kimi表示在长文技术上取得突破,Kimi智能助手启动200万字无损上下文内测。同月,xAI公司面向个人和企业开源3140亿参数大模型Grok-1。4月,ChatGPT3.5迎来免费注册使用。
随着AIGC技术狂飙式的发展,人们对它的态度似乎陷入了《快乐的科学》中所描绘的窘境——既反思科学带来的痛苦,又沉浸于对其无限能力的憧憬[2]。电子音像出版作为一种与图文声像关联紧密的出版形式,无疑会受到AIGC的巨大冲击。在AIGC浪潮下,本就在寻找出路的电子音像出版将会走向何方?本文将结合AIGC参与电子音像出版的现实基础,反思其可能带来的潜在风险,进而探究AIGC赋能电子音像出版的未来图景。
一、未来已来:电子音像出版应用AIGC技术的现实基础
2024年,从顶层设计到行业规制,出版业政策性导向显现出对科技创新的明显关照。AIGC更是每个月都会有重磅技术公布,让业界思考将其应用于出版的可能。可以说,在多重因素的驱动下,电子音像出版应用AIGC技术已具备了成熟的土壤。
(一)顶层设计与行业规制的基础支撑
科技创新能够催生新产业、新模式、新动能,是发展新质生产力的核心要素。人工智能是引领这一轮科技革命和产业变革的关键性技术,国家在战略层面为各产业应用人工智能提供了政策支持。算力是行业建立国产大模型的底座,2023年12月23日国家发展改革委员会、国家数据局发布《数字经济促进共同富裕实施方案》表示,将深入实施“东数西算”工程,加快推动全国一体化算力网建设。2024年3月8日,国家市场监督管理总局等18个部门联合印发《贯彻实施lt;国家标准化发展纲要gt;》行动计划,推进生成式人工智能领域未来产业标准研究。
响应国家人工智能布局,国家新闻出版署针对出版行业提出更详细要求。《关于实施2024年出版业科技与标准创新示范项目的通知》指出,要利用人工智能等技术,在出版业内容生产、内容资源管理、印刷发行、版权保护等领域取得创新成果。《关于实施2024年度出版智库高质量建设计划的通知》提出要聚焦开展出版新兴技术应用等主题的研讨。
出版行业对政策导向快速做出行动反馈,生成式人工智能(AIGC)成为全国编辑出版学名词审定委员会公布的2023年度数字出版领域十大热词之一。2024年,在学界、业界颇具影响力的出版融合发展大会和第三届出版融合发展创新论坛,都将AIGC赋能出版作为重要议题。在国家新闻出版署公布的2023年出版业科技与标准创新示范项目入选名单中,河南教育电子音像出版社申报的基于知识图谱和云原生技术的数字教育云平台、西部多语种文化资源智慧出版重点实验室推出的“新华AI阅读APP”等多项成果运用了人工智能技术。
虽然按照勒鲁瓦-古汉((Andre Leroi-Gourhan)等人的观点,技术倾向(technical tendency)是必然,技术事实(technical fact)是偶然,但从顶层设计到行业规制的导向,大大促进了“技术倾向与环境中成千上万的巧合的遭遇”,让出版领域产生了更多AIGC科技创新的可能[3]。对于电子音像出版而言,此次AIGC浪潮为出版业科技创新带来的政策性利好,成为了解决自身技术滞后难题的难得机遇。
(二)技术创新与电子音像出版的多元耦合
电子音像出版与传统出版之间存在着出版载体的区别。传统出版物以纸张作为主要载体,它只能传播文字、图片,而电子音像出版物以光盘、录像带为主要载体,能够承载多媒体内容。目前来看,这些多媒体内容主要是图、像、声、文的组合,而这些正是AIGC引发变革的关键领域。
Midjourney、Stable Diffusion、Dalle是国外较为主流的图片生成应用,这三种应用仅在一年多的时间里就进行了多次更新。Midjourney的用户可以通过撰写提示词的方式,达到文生图、图生图的目的。它在2023年12月公布了第六代大模型,这个模型能够适应更长、更准确的提示词,而且在图片质量上极大降低了之前V5模型的僵硬感。相比于它,Stable Diffusion让用户可以通过定制选项和参数设置,对图片进行更加精细的调整。Dalle则与ChatGPT一样,同是人工智能领军企业OpenAI旗下的产品。Dalle的用户甚至不需要学习提示词,仅需输入自然语言,就能生成画面。类似的应用显然可以极大程度节约电子音像出版中制图的时间和资金成本,提高行业效能。
2024年2月,OpenAI发布的文生视频大模型Sora,引发了全球性的轰动。Sora出现之前,视频制作市场中就已经存在着多款文生视频工具,比如视频制作公司Runway就推出了文生视频、图生视频功能,而且它的多重运动笔刷还可以实现生成视频的多向运动。但是Sora带来的震撼之处在于,它可以理解真实物理世界的运动方式,而且还可以在单个生成的视频中创建多个角色和风格一致的镜头。Sora虽然还没开放大众使用,但从官方发布的视频来看,它已经能够完成60秒时长的作品。这意味着现有AIGC技术已经能够支持制作宣传短片、纪录片、教育讲解视频等,能够满足多种场景的电子音像出版物制作需求。
有声小说是有声出版的一个重要方向,但现在国内的网文小说动辄就是成百上千万字的体量,出版社将其制作成有声小说的周期较长,资金和人力成本较高。AIGC的出现为类似的问题提供了智能解决方案。以国内有声制作平台“呱呱有声”为例,这个平台已经训练了适合不同场景、不同发声特点的AI模型,这些模型能够高效、稳定地进行有声小说制作。不仅如此,智能语音合成技术还可以生成特定人物的声音,创作多元化的声音内容。在短视频平台中火爆的“郭德纲说英语”“还珠格格讲数学”等,都应用了这种技术。
相比于图、像、声的生成,AIGC的文生文可以更加广泛运用于整个出版领域。从全球来看,ChatGPT等大语言模型已经在编辑工作中的选题策划、编辑撰写、内容概括等多方面发挥作用。国内多家出版企业对大语言模型进行了探索,如中国知网和华为合作推出的华知大模型,已经可以实现数字出版全流程的智能化。
综上可见,在AIGC技术的加持下,电子音像出版中图、像、声、文内容的生产效率极大提升,而且还增加了应用场景和内容创作的多种可能。除此之外,国内如人教人工智能技术应用实验室等,在智能编审方面已经做出了深入探索。目前技术已经实现基于图像、文本、音视频的检测,能够自动识别涉黄、敏感、涉暴、广告导流等内容,进一步加速出版流程。
(三)创作实践与审美趋向的同向共进
“数字美学”(Digital Aesthetics)是20世纪后期兴起的概念,有研究认为肖恩·库比特(Sean Cubitt)所着的《数字美学》一书是其命名来源。虽然学界对其概念还没有达成共识,但相关研究已经大致向“数”美学、“数字技术”美学、“数字媒介”美学、“数字艺术”美学四个方向延展[4]。本文将数字美学理解为一种与包括人工智能在内的数字技术紧密相关,主要由数字媒介进行传播、展示和塑造的一种审美观[5]。通过梳理AIGC技术应用之前和之后的电子音像作品,我们会发现虽然AIGC会带来新的视听感受,但从数字美学角度来看,在技术变革前后电子音像出版物的审美趋向是同向共进的。
一方面,技术的发展让电子音像出版物带来的沉浸感不断增强。AIGC出现之前,电子音像出版行业已经注重增加用户沉浸于数字拟态环境的体验。获得中国出版政府奖的《绿色印刷与平版胶印机结构原理》《重器铸梦——探秘中国大科学装置》等出版物,已经应用三维虚拟引擎、VR等技术,加强用户身体与虚拟环境的互渗。而AIGC的到来,让出版物有了更高质量实现这种审美趋向的能力。以Sora为例,它的突出优势是可以实现物理世界的真实模拟。在电子音像出版物中应用此类技术,显然可以建立用户与出版物内容的“强连接”,让用户可以更加身心投入地参与到审美活动中来。
另一方面,现在AIGC令人惊艳的风格迁移等功能,其实是在原有技术基础上的进一步深化。AIGC浪潮来临之后,艺术家将风格迁移作为AIGC艺术创作的重要功能,创作出了颇具AIGC风格的作品。但事实上,风格迁移是计算机视觉的一项经典任务,只是早期非参数方法的风格迁移在图像抽取、视觉呈现等操作上步骤繁复,而当下在卷积神经网络技术的加持下,风格迁移的操作更加便捷,艺术效果也得到了极大增强[6]。
目前来看,AIGC所带来的艺术表现基本延续了计算机时代发展开来的数字化审美趋向,不会让用户在审美的过程中产生强烈的跳出感。这意味着将AIGC应用于电子音像出版不存在艺术审美上的藩篱。如何应用AIGC技术创作具有创新性、艺术性的电子音像作品成为值得探讨的议题。
二、思患预防:“AIGC+电子音像出版”的潜在风险
乌尔里希·贝克(Ulrich Beck)曾提到科学具有自反性阶段,“科学需要面对自己的产物、缺陷和次生问题”[7]。特别是当科技发展速度越快,科学成果越多的时候,由此带来的风险可能增长得更快。当AIGC浪潮席卷而来,并已经拥有了在电子音像出版领域充裕生长的土壤之时,其带来的挑战与风险尤为值得反思。
(一)着作权归属的法律风险
2023年,中国首例“AI文生图”着作权案引发国内外关注。这起案件的关键在于作品着作权的认定,多国着作权法将作品创作者限定为自然人、法人或非法人组织[8]。而Stable Diffusion等AIGC应用不属于自然人、法人或非法人组织的限定,人工智能是否能够判断为作者成为了国内外学者思想交锋之处。这起案件最终认定虽然AI大模型本身无法成为作者,但涉案图片是由原告智力投入而产生的。法院判定原告是涉案图片的作者,享有该图片的着作权,被告的行为造成侵权。这是一起相当具体的侵权诉讼,内容生成过程明确,然而很多AIGC生成内容的过程、程度、细节都是模糊的。以纽约时报社起诉微软和OpenAI未经授权使用其文章训练AI大模型一案为例,有声音表示该案中大模型训练不是公开商用,大模型在训练阶段对于数据的使用是否属于版权侵权还存在争议。
这些案件都向出版领域警示了AIGC可能带来的法律风险。如果由出版社自建大模型,这些模型的训练采取互联网中已公开的语料是否涉及侵权?在AIGC应用后,该如何准确地界定剽窃?如果内容不是原样照搬,而是经过了大模型的增添、拆分、重组、转换,该如何举证?当人工智能的主体性进一步上升,它是否应该拥有署名的权利?随着我国关于人工智能技术的法律框架和规范性文件的探索和完善,这些问题会逐步得到妥善解决。
(二)虚假信息的安全风险
有学者将AI生成貌似合理连贯,但不符合提问意图、世界知识、现实数据内容的现象称为“AI幻觉”。美国Arthur AI公司研究发现,OpenAI、Meta、Anthropic、Cohere公司开发的多个大语言模型都会出现这样的“幻觉” [9]。AI幻觉从目前的技术水平来看难以避免,预训练数据受污染、AI没有正确评估真实世界的信息、AI对未掌握信息的自动补全等,都可能导致AI幻觉的产生。虽然OpenAI的首席执行官山姆·奥特曼(Sam Altman)、北京大学计算机学院教授黄铁军等人,均表示AI幻觉是人工智能创造性的体现,但在当下的产业应用中,AI幻觉却带来了直接的难题——输出虚假信息。
电子音像出版产业的重要组成部分是教育出版,教育出版要面向广大青少年传播知识,对信息真实性的要求极高。这意味着电子音像出版企业要应用AIGC技术,先要解决它可能输出虚假信息的问题。这个问题有两个解决思路:一是自建大语言模型,用自己的语料库对模型进行训练会大大降低AI输出虚假信息的可能。但是建设大语言模型需要语料、算法、算力的支持,需要庞大的资金投入,具有这样实力的出版企业数量有限。另一个思路就是购买商用大语言模型的使用权,再人工检验信息的真实性。这样一来,如果企业在检验环节要投入大量人工、时间成本,那就与使用AIGC助力生产的初衷本末倒置。不仅如此,这种思路还存在着重要语料信息外泄的安全风险。
2024年2月,全国网络安全标准化技术委员会发布了《生成式人工智能服务安全基本要求》,提出了AIGC在语料安全、模型安全、安全措施等方面的规制。出版行业是意识形态的前沿阵地,虚假信息不仅会对教育出版等内容做出错误导向,更严重的是可能威胁国家安全。在出版企业纷纷应用AIGC技术的形势下,解决虚假信息威胁成为相关工作推进的重中之重。
(三)人作为技术附庸的异化风险
不可否认,人工智能的发展在逐渐模糊人和机器的边界。有学者认为,这带来最大的风险不是机器变得多像人,“而在于人在多大意义上已经变得像机器”[10]。当人工智能已经能够应用于出版全流程,那么出版从业者是否会逐渐变为机器的附庸?这个问题道出了AIGC时代编辑出版工作者的身份危机。
如上文所述,AIGC实现了以文生文参与选题策划,以文生图、文生视频生成出版内容,还能进行智能化审校。原有的出版规则被打破,传统的一些岗位被代替,人的劳动形式也势必发生改变。AIGC简化了编辑出版人的工作内容,降低工作的难度,也在无形中解构了其专业性、权威性和自主性,冲击了在编辑出版全过程中人的主体性。
出版工作的泛化和职业壁垒的崩解,内容生产、审核权力的让渡,为编辑出版工作者带来的危机不仅仅是失业问题,还有劳动“软意义”的缺失。正如赵汀阳所言,经验复杂性和特殊性是生活意义的构成成分,人工智能带来更严重的实质问题是失去劳动会让人产生失去价值的感知,从而导致人的非人化[11]。
联合国劳工组织关于AIGC的最新报告指出,以往的研究认为AIGC影响的是低技能、重复性和常规工作,但随着机器深度学习能力的提升,新一轮自动化将聚焦与“知识工作”相关的岗位[12]。面对这样的浪潮,行业对于编辑出版岗位的职业定位显得尤为重要,机器只是人工作的辅助,编辑出版工作者依旧是价值的引领者、规范的守望者、法规的推动者和伦理的吹哨人[13]。
三、路在何方:AIGC赋能电子音像出版的未来图景
从哲学的角度来看,许多AIGC带来的风险来自于人类对其认知的缺陷,但认知主体对其所处世界存在认知缺陷是必然的,主体间的沟通协作会不断对坎陷进行完善。人类的设计和自由意志的指导是引领人工智能时代走向美好未来的关键[14]。电子音像出版亦是如此,面对AIGC浪潮的大势,行业应积极创新内容生产,联合产业生态,明晰权责归属,以勾画AIGC赋能电子音像出版的美好未来图景。
(一)内容生产的变与不变
有学者借鉴出版理论中的“摇篮本”概念,将当下这个从印刷媒介向数字媒介转型的不成熟阶段称为“数字摇篮本时代”[15]。在印刷时代,印刷技术的进步促使摇篮本变革,而在“数字摇篮本”时代,AIGC技术的应用也会推动出版物的内容不断完善和成熟。
AIGC对电子音像出版内容生产的一大助力是可以跨模态生成多元内容,实现出版内容的活化。Midjourney、Stable Diffusion、Dalle、Sora、Runway等图片生成、视频生成应用极大地降低了AR、VR、XR、三维虚拟引擎等多媒体内容创作的难度,大语言模型增加了出版内容交互的智能性,为电子音像出版内容创新打下基础。以高等教育出版社推出的虚拟仿真实验系统为例,现在该系统已经能够模拟分子动力学计算,让学生在线上体验仿真的科学实验。在加入了AIGC技术之后,它的环境模拟会更加逼真,互动会更加智能。除此之外,AIGC提供的照片复原、风格迁移、语音合成等功能,也为用户的视听体验带来了新感受。
AIGC赋能内容生产的多模态跃升是电子音像出版契合融合趋势所做出的“变”,但无论AIGC如何带来改变和冲击,电子音像出版都应明确有何“不变”。确定何为不变的底层逻辑在于明晰电子音像出版企业在时代、行业之维的立足根本与发展优势。出版是国家文化建设的重要力量,出版企业是出品优质文化PGC内容的主力军。系统性、权威性、高质量是出版企业生产内容与UGC内容竞争的核心优势,也是行业内容生产应坚持的“不变”。深抓“变”与“不变”,在保证生产系统性、权威性高质量内容的同时,运用AIGC技术促进新产品的研发,才是电子音像出版内容生产的未来进路。
(二)产业生态的联合与流动
如前文所述,如果企业购买、使用市场上通用的AIGC商业应用,会面临虚假信息威胁和意识形态安全风险,但电子音像出版企业具备建立大语言模型实力者数量有限。从行业需求和产业生态的角度来看,电子音像出版行业打破合作壁垒,形成一体化合作机制势在必行。
具体而言,基于大语言模型的开发和使用,企业之间、企业和个人之间的合作主要分为三种:一是大型出版公司与头部技术公司合作建立大语言模型。大型出版公司拥有海量高质量的语料资源,头部技术公司具备算法、算力支撑,二者合作有利于出版领域大模型的开发。典型案例是知网与华为合作的华知大模型,技术上基于华为盘古CV大模型,实现了从芯片到应用全链路全栈可控,语料上基于中国知网海量高质量数据资源,保证了知识内容的真实、可信。
二是大型出版公司与中小出版企业的合作。中小出版企业从大型出版公司购买大语言模型的使用权,以减少安全风险;大型出版公司可以从中小出版企业获得新的语料资源和资金收益,其大语言模型也可以得到更广泛的训练。腾讯数字出版平台就以华知大模型和其他大模型作为底座,为出版社和杂志社提供覆盖出版全流程的AI产品和服务。
三是出版公司与独立创作者的合作。AIGC技术降低了多媒体内容的制作门槛,泛化了电子音像出版内容的制作能力,让独立的生产者也可以加入到内容生产链条之中。以有声出版为例,独立配音工作者在AIGC技术的辅助下可以高效地生产出有声作品,只是这些零散的创作需要更大的平台进行统筹和整合。现在“呱呱有声”就创立了开放的制作者社区,通过AI为主导的统一化平台,提高独立创作者的投入产出比和管理协同性。
整个合作体系实现了资源的共享和数据的流动。对于AIGC而言,海量、高质量、大规模、确权的数据是出版生产的前提。出版的模式已经从初步的内容数字化阶段,升级为以数据作为生产要素的阶段。出版企业的语料资源、独立制作人的具体实践都是出版数据的组成部分。面对AIGC的影响,电子音像出版行业内部有必要建立资源共享的数据库,以平台化的管理机制,形成一体化的数据流动模式。
(三)权责归属的规范与明晰
2024年5月21日,欧盟理事会正式批准了世界上首部对人工智能监管的法案——《人工智能法案》。欧洲出版商联合会一直在积极推动该法案获批,他们认为规范人工智能技术在社会中的应用可以更好地保护版权所有者。我国同样高度重视人工智能的规范和治理,《生成式人工智能服务管理暂行办法》于2023年8月15日起施行。该办法明确指出为中华人民共和国境内提供生成式人工智能服务需要坚持社会主义核心价值观,防止歧视,尊重知识产权,尊重他人合法权益,提高生成内容的准确性和可靠性。对生成式人工智能服务的提供者,该办法也提出了要对图片、视频等生成内容进行标识的要求。
AIGC的法律规制将从国家层面到出版领域进一步细化。目前来看,出版领域AIGC生成内容的着作权归属和传播主体责任亟需明确。2024年2月,广州互联网法院做出全球首例AIGC平台侵犯着作权的生效判决,某AI生成平台因提供用奥特曼图片生成相似图片的服务被判侵权。这起案件对电子音像出版的AIGC内容生产而言,颇具警示价值。电子音像出版物涉及大量的图片、视频,在生成这些内容的过程中,该如何避免侵犯他人的着作权?这还需要法律法规与行业细则进一步明确侵权的界定标准。
再者,该如何明确AIGC生成作品传播的主体责任?目前国内外对此问题提出的一个解决方案是进行标识,如国外的BookBud.ai书店就会声明他们在售卖AI生成图书,我国的《生成式人工智能服务管理暂行办法》也要求AIGC作品进行标识。但这些要求还需进一步细化,比如:是否需要明确注明作品中所含图像的生成来源?该如何界定编辑在AIGC作品中的主体责任?该如何对AIGC生成中应用的语料溯源?未来,随着AIGC环境下的编辑制度、伦理规范和行业细则逐步健全,相信这些问题会得到有据可依的答案。
结语
根据国家新闻出版署发布的数据,2021年我国共有音像制品出版单位377家,电子出版物出版单位315家,年出版音像制品和电子出版物共4.9亿盒(张)。其中电子出版物数量较2020年相比,增长速度超25%[16]。作为中国出版业的重要组成部分,中国电子音像出版应该积极抓住新一轮科技革命和产业变革带来的机遇,制定明确的权责归属细则,打造更优产业合作生态,输出兼具权威性与艺术性的高质量创新型内容。电子音像出版企业应以新技术作为摆脱路径依赖的契机,以精神内容为美,以数字技术为界,以管理创新为要,为出版强国、文化强国建设贡献出更大的力量。
参考文献:
[1][德]哈特穆特·罗萨.新异化的诞生[M]. 周作彧,译.上海:上海人民出版社,2018:13-20.
[2][德]尼采.快乐的科学[M].孙周兴,译.北京:商务印书馆,2024:63-64.
[3]许煜.论中国的技术问题:宇宙技术初论[M].卢睿洋、苏子滢,译.杭州:中国美术学院出版社,2021:6.
[4]孙金燕.技术中介与审美:数字美学探讨[J].符号与传媒,2023(1):33-43.
[5]殷乐,申哲.算法社会的数字美学与青年的自我抵抗[J].青年记者,2024(4):102-107.
[6]杨俊蕾.风格迁移、指令设计与“世界模拟器”:兼论Sora模型产出艺术杰作的可能[J].上海师范大学学报(哲学社会科学版),2024(2):56-64.
[7][德]乌尔里希·贝克.风险社会[M].张文杰、何傅闻,译.南京:译林出版社,2018:192-193.
[8]庄诗岳,辛谏.生成式智能出版:可版权性与着作权归属[J].编辑之友,2024(3):96-104.
[9]罗云鹏.AI为何会“一本正经地胡说八道”[N].科技日报,2023-11-24(06).
[10]张笑宇.技术与文明:我们的时代和未来[M].广西:广西师范大学出版社,2021:354.
[11]赵汀阳.人工智能的神话或悲歌[M].北京:商务印书馆,2022:27-28.
[12]International Labour Organization. Generative"AI and Jobs: A global analysis of potential effects"on job quantity and quality[EB/OL].(2023-8-21)[2024-5-23].https://www.ilo.org/publications/generative-ai-and-jobs-global-analysis-potential-effects-job-quantity-and.
[13]周国清,唐永亮.人工智能语境下出版研究综论[J].中国编辑,2024(3):10-26.
[14]蔡恒进.成己而圣:在此岸建构理念世界[C].宋冰.智能与智慧:人工智能遇见中国哲学家.北京:中信出版集团,2020:357-375.
[15]王晓光.《数字组织论》:数字摇篮本时代的积极探索[J].博览全书,2024(2):70-72.
[16]国家新闻出版署.2021年新闻出版基本情况[EB/OL].(2023-2-22)[2024-5-23].https://www.nppa.gov.cn/xxgk/fdzdgknr/tjxx/202305/P020230530666964143612.pdf.