AIGC重塑出版业生态

known 发布于 2025-09-09 阅读(299)

人工智能生成内容(AIGC)技术在出版领域的应用已经带来了深远的影响。现探讨AIGC技术对出版行业的影响,如提高生产效率、降低成本、个性化内容推荐等。然而,AIGC技术也面临一些挑战,如信息真实性、版权问题和创意保护等。针对这些挑战,提出构建生态、信息流程重塑、先研究后实践、决策前充分讨论商业模式得失等对策建议,以确保AIGC技术在出版领域的健康发展,并促进人类与AI共同创造更具创意和价值的内容。

关于人工智能,进化论相关研究中侧枝盲端的理念比较符合ChatGPT,它像不断成长的魔法箱,也像人类真正的大脑,能够对外界的输入(提示词)产生输出(猜测)。了解AIGC与大模型的基本原理和发展过程,是应用大模型技术和AIGC工具的前提条件。智能时代的背景下,以算力、算法和应用构筑的大模型生态已见雏形,未来的路线清晰可见。

在出版业,利用AIGC工具增强信息采集能力,能帮助编辑快速获取特定主题数据,高效归纳总结,支持选题策划,正逐渐成为行业的应用趋势。出版社运用AIGC与大模型的基本原理(如下图),能对出版技术、内容创作、内容审核和数字化产生积极的推动作用。

AIGC的概念及发展历程

AIGC(Artificial Intelligence Generated Content)是指生成式人工智能。从计算智能、感知智能到认知智能的进阶发展来看,AIGC已经为人类社会打开了认知智能的大门。通过单个大规模数据的学习训练,AI具备了多个不同领域的知识,只需要对模型进行适当的调整修正,就能完成真实场景的任务。AIGC把数据要素提到时代核心资源的位置,在一定程度上加快了整个社会的数字化转型进程。

AIGC的发展总结和预测可分为4个阶段。第一阶段是1970—1990年,基于规则的推理,并未具备学习和归纳能力,是有效的老式人工智能,即启发式的专家系统。第二阶段是2000—2017年,基于统计学习,擅长学习和感知,但推理和创造能力不佳,仅对文字语言声音和视觉进行处理,即神经网络、CNN和RNN系统。第三阶段是2020—2030年,即预测生成阶段,在感知、学习、推理、归纳上表现出色,开始具备创造能力,即能更好地适应、解释和决策,能用自然语言进行交谈,在监督下自我学习和进行小样本的数据训练。第四阶段是2030年之后,即类人智能阶段,能完成人类所有智能工作,甚至超越人类大脑,具有超智慧。

AIGC浪潮与产业结合的特征和影响

AIGC与出版产业结合的特征

AIGC与出版产业结合的特征主要表现在三方面。第一,浅入浅出,开发难、投资大,但产品应用非常容易,产业使用不难。第二,落地生根,科技周期大幅缩短,投资周期与应用周期重叠。第三,相向而行,与以往产业所关联的技术不同,赋能与颠覆效应并存。

文本类AIGC工具使用情况

大模型类工具使用对比。即使在中文领域,国内大模型工具的使用效果仍与ChatGPT有较大差距。国内的大模型工具更偏向于某一领域的专精(如下表)。例如,“文心一言”擅长内容创作、智能办公,“讯飞星火”擅长中文语境处理、逻辑推演,“通义千问”更擅长效率类、生活类和娱乐类,“豆包”则更擅长撰写软文。

当前,ChatGPT版本已经可以免注册使用,其能满足大多数使用场景。更强大的4.0、4.5版本(4.5turbo)已经完全可以作为生产工具,不仅能根据文本提示创造图像,还能对现有图像进行编辑和改进,甚至可以仅凭一张网页截图就能生成完整的网页代码,可以为编辑的日常工作节省大量时间成本。

AIGC对出版产业的影响

第一,流程重塑,即对现有信息技术的重写。主要体现在对生产流程和运营流程的重塑。生产和运营是传统出版的两个核心环节。在数字化领域,内容生产表现在智能校对、图文和富媒体内容生成方面;内容运营表现在宣传文案一键生成、虚拟人生成、数据库多轮对话、阅读App、知识社区(检索)等方面。

第二,价值重塑,即出版内容的增值,是知识价值的体现,也是企业的重要资产之一。主要体现在内容通过Token语义存储资产化、通过训练与收入分成价值化、通过数据标引促进纸质书籍销售。

第三,负面影响,即AIGC内容对著作权的影响。目前,部分观点认为,其侵犯了著作权,也有观点认为AIGC生产的产品著作权弱化。主要表现在对专业出版社、科技社的零售市场造成巨大冲击,加速了数字资源的“被动使用”和传统出版、数字出版的内容服务形成“竞争”关系的同时,也给稿件来源的甄别带来很大压力。

出版机构搭建垂直模型的方法

出版企业应用大模型主要有两种方式,其一是进行API调用,基于现有通用大模型的接口进行应用的二次开发,从而对外提供服务;其二是自建垂直领域大模型,利用大模型的技术力量对自有数据进行二次学习,通过训练与微调后形成具有自身特色的大模型基座,对外提供服务。目前,出版社普遍采用自建垂直领域大模型的方式。垂直大模型有三种自建方式。

利用开源模型,购买GPU与工作站开展自我训练

目前,国内大部分的大模型公司均以开源模型为基础进行二次开发和调优。此方法虽然理论上可行,但对于不以技术擅长的出版企业而言,此方法基本行不通。难度不在于硬件的购买(硬件购买的成本并不太高,以马斯克的Grok-1为例,8个A100加一些辅助设备即可以跑通,以目前GPU的成本测算大约在250万—300万),而在于跑通后的数据调优和应用开发需要专业技术人员,且其后续的成长性严重不足(受限于初始开源模型的参数)。归根结底,出版企业并不是技术性企业,此方法的选择需慎之又慎。

利用现有通用大模型的API接口,开发相应的工具与应用

从以上步骤可以看出,如果出版企业要进行通用大模型的API调用,必须请专业公司按照需求进行开发。这种调用基本不涉及自身数据的二次训练,是在通用大模型的基础上进行有针对性地应用开发。其优势是随着通用大模型能力的提升,所开发应用的智能化程度也会相应增加,劣势是在完全依托于API调用的逻辑下出版企业的自身数据特色不明显,且调用成本不低。

与大模型公司合作,开发出版垂直大模型

与大模型公司合作开发垂直模型,一般是利用大模型公司的通用模型能力以及云算力,对出版企业的自有数据进行二次学习,所开发出来的垂直模型具备一定的通用性能,也具备和自身出版数据高度契合的特色。另外,随着基座能力的提升,也可以持续迭代进化。在此过程中,出版社除了提出垂直模型的应用需求外,还需要提供自身的内容数据,并尽量按照大模型的要求做好数据标记以便学习所用。而大模型公司则主要提供模型基座(通用大模型基座)和算力支持(一般是云算力,类似于云服务,也可以购买与大模型匹配的算力硬件。目前,算力硬件一类以英伟达为代表,另一类以国产化的华为鲲鹏、晟腾为代表)。

AIGC应用的技术逻辑与风险

技术应用逻辑

第一,循序渐进。绝大部分先进技术的应用始于偏娱乐领域,先进技术的应用会先出现在游戏和电影等领域,纵向观察技术在其他领域的应用程度,再判断切入的时间点,也是一种选择。第二,万事俱备。任何数字产品均由技术链而非单一技术构成,如果技术链基本成熟,则需要开始做介入准备;如果技术链还有大量短板,即便产品能勉强开发出来,也不是好的切入节点。第三,成本壁垒。任何新技术在产业中的应用在初期均存在较高的成本壁垒,初期的商业变现基本在B端。因此,在具体的应用过程中,出版社要结合自身的实际情况综合考量,如B端的渗透能力。

五种风险

1.数据安全风险

除了简单的文生图和多模态内容生成外,出版社在与大模型公司开展内容的深度合作时,通常需要将自身的数据通过接口方式提供给对方,即便对方承诺只是私域部署,也存在数据泄露的可能。出版社在开展AIGC技术研究时可以充分研究如GPT、Midjourney等工具。但如果要有针对性地对全社内容开展大规模训练,则应尽量选择与国产大模型合作。

2.数据应用风险

出版社拥有出版物特定年限内的专有出版权和专有信息网络传播权。目前,信息网络传播权中主要的出版形态为电子书和有声书,这些出版物本身与原著作内容高度一致。理论上出版社可以向第三方授权许可使用(包括翻译、出版、展览、广播、放映、摄制、改编、汇编、制作光盘等)的有关事宜,但相关合同需另行签订。目前,大模型公司开展语料库训练或者出版社利用大模型开展语料训练,对内容的使用和改编、汇编虽然有相似之处,但从实际使用上看,是完全不同的概念。即便从法律上将改编、汇编和语料库的训练进行概念合并,出版社也需要征得作者的同意,重新签订协议方可,这一过程的工作量较大。

3.内容甄别与AI伦理

模型技术日趋成熟,会带来内容的极大丰富,也会造成内容的AI化比率攀升。学术出版是内容出版领域的“明珠”,对所出版内容的合规性审校(关注AI内容生成甄别工具)应慎之又慎,尽量降低来稿内容的AI化程度。

4.技术风险

通用大模型的成长迅速,其囊括的数据量可能已经包含出版社自身的大部分数据。发展到通用大模型的高阶阶段,垂直大模型的应用效果极可能出现跟不上通用大模型发展的情况。如果出版社过早投入,会出现前期的投入效率低下的情形。当前,国内通用大模型的整体水平落后于国外,出于数据安全性考虑,出版社不能够进行大规模的国外大模型API调用。而国内模型的“明日之星”,当前阶段尚未显现。过早选择合作商开展垂直领域大模型训练,存在未来技术全面落后的风险。

5.商业风险

到目前为止,大模型公司的商业变现方式主要有四种。第一,会员收入,如GPT4和MJ等。第二,API调用,按Token计费,如国内的文心一言和讯飞星火。第三,垂直领域的商业合作。第四,大模型能力下沉到产品层,通过产品的差异化竞争优势而变现。

出版社应用大模型,要有相对清晰的商业考量,并摆正自身的位置,即出版社是AIGC的应用商而非技术开发商。从商业变现来看,在降本增效层面短期可以考虑购买相应的服务,如智能校对、智能翻译、虚拟人等。在产品服务层面,应该着重将大模型下沉到现有的出版物,如纸质出版物和数据库、社区等产品。

AIGC应用在出版领域的应对策略

持续研究,准确时变,构建生态

从发展趋势来看,在做好当下出版业务的同时,出版单位还应持续密切关注大语言模型的发展动态,及时开展AIGC相关专题研讨部署,进一步分析AIGC产品给出版行业带来的短期影响、长期影响以及有利影响、不利影响,做好预判预测,便于提前应对。

从内容数据训练与内容输出角度看,出版社和大模型公司之间的关系较为微妙。一方面,大模型公司需要出版社的高质量语料持续供给;另一方面,通用大模型在未来的内容输出会在一定程度上抢占出版社的内容服务市场。在AIGC浪潮中,出版内容的数字资产化能否落地,绝大程度取决于行业和大模型公司之间的磨合和博弈,目前双方的诉求不在同一维度,这时更需要行业主管单位发声,推动机构“抱团取暖”。

积极利用AI工具,信息流程重塑

在应用信息技术提质增效的过程中,绝大部分出版社采用“打补丁”和分领域采购相应工具的方式,之后再集成并贯通。在AIGC时代,除极个别实力雄厚的出版社外,绝大部分出版机构可能需要延续此方式,根本原因在于出版社自身的定位为大模型应用的使用方,对于生产和流程中的一些辅助性应用开发的专业性不足,且过早全面涉入,存在成本过高、投入产出较低的问题。

充分研究后开展实践,不急于一时

于出版机构而言,有些风险是不可控的,如数据应用的政策风险、通用大模型高速成长带来的技术风险等。规避这些风险的最好方式是充分研究,如成本研究、技术研究、交互设计研究等,并耐心等待。另外,AIGC浪潮的特征之一是开发难、投入大,但其应用相对简单,不用太担心因为实践较晚而出现较高的准入门槛。

决策之前应充分讨论商业模式的得失

模型高速发展,已进入应用阶段。在此阶段,开展任何产品设计与开发的过程中,都应充分考虑产品商业模式的可行性,并综合考虑开发成本和应用成本。

从数字内容的消费与服务到内容的跨界融合,再到内容元宇宙,这是数字出版的发展阶段。期待数字产业能在新模式与新生态中寻求更高的定位,让内容服务更好地融入社会的方方面面,真正推动全球范围内的文化大交融,推动世界文明的发展。

标签:  模型 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。

iidomino cuppor