弥合版权“二象性”:作为“非版权敏感信息”的媒体预测性数据

known 发布于 2025-08-11 阅读(457)

【摘要】生成式人工智能使内容生成范式由推导向预测跃迁,媒体产生的预测性数据带来新的版权归属问题。媒体预测性数据既非传统的版权数据,也不是非版权数据,这类数据处于版权数据和非版权数据的模糊地带,面临版权数据去版权化和非版权数据版权化的“二象性”实践困境。一方面,预测生成的内容不具有可识别的版权使用痕迹,版权可见性被预测过程遮蔽,导致版权数据的去版权化。另一方面,非版权数据经预测后,能够精准模仿媒体的风格和模式,导致非版权数据的版权化。弥合版权“二象性”实践困境,需要将媒体预测性数据作为一种“非版权敏感信息”理解,并在法律和伦理层面给予特殊对待。

【关键词】生成式人工智能;媒体预测性数据;非版权敏感信息;媒体版权

基于深度学习技术(DeepLearning)的生成式人工智能实现文本、图像、音频、视频等全媒体数据的自主生成。生成式人工智能(ArtificialIntelligenceGeneratedContent,缩写为AIGC)的核心在于对人类行为和思维的模仿和预测,根据用户行为和内容数据预测分析(PredictiveAnalysis)并生成符合目标群体或个人兴趣的内容和产品。不同于前人工智能时代机器学习(MachineLearning)和人类内容创作中的模仿或复用,AIGC中的深度学习技术使机器内容模仿能力从推导跃向预测。在AIGC训练数据集中,用于训练模型的媒体内容数据并非是从有限内容案例简单仿制原创的推导性数据,而是在包含大量语言和内容案例中进行横向和纵向比较,以精准生成指定作品的预测性数据。

媒体预测性数据面临版权实践的“二象性”困境:一方面,通过预测性数据生成的数字内容不具有可识别的版权使用痕迹,版权可见性被预测过程遮蔽,导致“版权数据的去版权化”;另一方面,不属于传统版权保护范畴的非版权数据(如风格数据和行为数据),在经由AIGC模型预测后,精准模仿媒体的风格和模式,导致“非版权数据的版权化”。关于媒体预测性数据的实践困境被学界忽略,如何使媒体预测性数据的版权实践既保护媒体行业竞争力又尊重生成式人工智能开发主体利益,已成为构建AIGC媒体版权框架的关键问题。媒体内容作为AIGC训练数据集的低成本来源有助于推动技术迭代和普惠,但对媒体预测性数据的版权讨论应尽快跟进。

一、预测性数据:技术演进与问题缘起

预测性数据是一种包含庞大分布式数据、用于集中识别数据关系和模式并用于预测的数据集合,是一种新的、基于实践的AIGC数据版权视角。关注这一视角,需要理解人工智能发展过程中数据训练技术的演进路径。

预测性数据由训练数据发展而来。记录并利用训练数据进行机器学习始于计算机系统诞生初期,早期经典训练数据案例之一是1950年克劳德·香农(ClaudeShannon)制造的Theseus迷宫解决机器人[1]。该机器人通过电话继电器开关记录的电流信号来记忆迷路路径,电流信号事实上是Theseus的初始训练数据。然而,Theseus使用的电流数据只是单次路径的记忆,当迷宫发生改动,原有记忆路径会失效,须重新探索并记忆新路径的电流信号。因此,Theseus机器人实质是路径数据的“指令式重复”,而非对潜在路径解决方案的预测。以Theseus迷宫解决机器人为代表的早期机器学习案例激发计算和信息学家对机器训练技术的强烈热情,促使计算和信息科学开始关注人工智能技术。

随后,人工智能技术的迅速发展导致训练数据的大规模部署和使用,符合现代定义的训练数据集开始被用于机器训练和算法处理。1958年,心理学家弗兰克·罗森布拉特(FrankRosenblatt)设计出基于生物神经元的人工神经网络架构技术——感知器(ThePerceptron)[2]。该技术展示出机器学习算法模仿人类智能的潜力,表明机器能够从人类经验中学习;并随着时间推移提高其模仿和预测性能,成功将人工智能实在化并促使数据成为人工智能机器学习的发展基础。此后,训练数据不再只是Theseus中简单的指令数据,规则和结构化数据引入机器数据系统,训练数据的输出结果被赋予模仿属性。

然而,以感知器为代表的早期人工智能工具大多局限于研究层面[3],各类技术瓶颈使这些工具难以投入现实生活应用,训练数据采集和使用也仅限于实验室。训练数据远离现实生活的情况在20世纪60—80年代期间,随着基于人工智能技术的计算机程序——专家系统(ExpertSystem)的大规模应用而得以转变。1965年,系统学家爱德华·费根鲍姆(EdwardFeigenbaum)和遗传学家约书亚·莱德伯格(JoshuaLederberg)成功开发出人类历史上第一套人工智能专家系统Dendral[4],该系统能够帮助化学家确定有机分子的结构,第一次展示出人工智能技术的实用价值。专家系统证明人工智能系统能够在现实生活中大规模部署和应用,为企业和个人带来重大利益和价值,将训练数据来源扩展到现实生产生活。

现实生产生活数据成为专家系统知识来源后,数据归属权和隐私权的争议随之而来。由于这一时期自然语言处理技术(NLP)的滞后,机器不能理解和训练非结构化和无规则逻辑数据,如自然语言文本和图像等。因此,机器学习的训练数据尚未触及人类智力成果的版权和著作权,这一局面在20世纪90年代被打破。

伴随机器学习算法和计算能力的指数式增长,20世纪90年代,更复杂的自然语言处理技术取得长足进步,使用算法处理模糊且需理解上下文的非结构化数据成为可能。研究人员开始使用统计方法直接从自然语言数据中学习模式和特征,而不是依赖于预先定义的规则。从这一时期起,训练数据不再限于结构化和逻辑化的数据,算法可以处理现实世界人类活动产生的一手数据,如聊天记录、网络图片、视频音频等。围绕提高算法拟合和模仿能力,训练数据在数量、质量和学习方法等方面被不断改进,数据采集边界和数量被几何式扩展和放大,一切人类活动生成数据都可以作为算法数据源,极大地挑战了隐私和版权保护。

20世纪90年代,人工智能技术的跨越式进步所产生的法律和道德问题并未被解决。当时训练数据只能通过人工编码的方式提高算法和系统性能[5],训练数据成本高昂,致使开发人员只能在相对少量的数据集上测试算法,限制数据的扩大和算法的改进。同时,数据存储技术尚未成熟,处理器的算力受到限制,制约着大规模数据采集运算。这个时期,即便机器能够直接学习并模仿人类创作成果,也难以对隐私和版权构成实质威胁。

进入21世纪,大数据和深度学习技术的出现彻底解除了机器采集和处理大规模数据的限制。大数据技术突破自然语言处理、计算机视觉乃至深度学习可用数据量的限制,提供对各种来源(包括但不限于社交媒体、传感器、扫描仪等)大规模数据的访问。算法能够在大规模的数据集上进行训练,学习更复杂的模式并做出更准确的预测。大数据技术使得训练数据的规模和质量也大幅提高,分布式、多层次的数据集合包含更多、更复杂的经验和知识模式,训练数据成为具有强大预测能力的数据本体。

然而,数据的预测性并非仅源于大型数据集,加工数据并输出精准化的预测结果需要更先进的算法训练工具——深度学习。深度学习是一种使用人工神经网络的机器学习,模仿人脑的结构和功能。深度学习技术包括深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)等先进神经网络方法[6]。深度学习网络由互连节点层组成,每个节点对输入数据执行特定的数学函数,一层的输出作为下一层的输入,允许网络从数据中提取越来越复杂的特征。深度学习中的训练数据实现数据的层级表示,网络自动识别不同抽象级别的模式和特征,直接的、具有标识性的具体数据被层级抽离为间接的、去标识化的抽象数据。

深度学习技术的成熟标志着生成式人工智能时代正式到来,基于预测性数据的AIGC可以轻易确定何种数据特征与指定结果相关,何种输出结果更具预测精准性。训练数据集的数量和复杂性几何式增加,模型对内容数据处理、学习和预测的能力被放大,训练数据与生成内容之间的经验模式从推导演变为预测,人类实践活动的数据和经验被彻底地、不可避免地“去特征化”使用。在技术维度,预测性数据是数据数量、质量和学习方法均大幅提升的训练数据。在版权层面,预测性数据消解人机协作的版权及伦理界限,与技术层面的数据本体存在显著区别。

二、媒体预测性数据:技术实践视角下AIGC与媒体的版权冲突

在人工智能技术应用层面,所有训练数据都是用于分析数据关系和模式以产生模拟和预测结果的数据,将训练数据额外界定为预测性数据缺乏必要性。而版权和伦理层面的训练数据则迫切需要“预测性数据”角度的洞察和理解。

预测性数据代表生成式人工智能时代的“新兴的新经验主义”[7],其核心是预测模型根据预测性数据中包含的大量数据案例、模式和关系进行多层次神经网络学习来“预测”单个结果,而非从单个属性“推导”出单个结果。推导和预测存在区隔,推导从证据和经验中得出结论[8],推导的结果拒绝遮蔽经验和知识本身。预测建立在推导之上,将推导转化为概率分布来预测结果[9],经验和知识在输入和输出中被隐匿。

具体而言,AIGC的深度学习神经网络能将大数据中低维的实际经验和知识逐层抽象并概括为高维的统计经验和知识,最后投射至具体创作目的以生产特定结果。预测性数据本身庞大复杂的经验和知识经由深度学习算法高度抽象和预测,导致输入数据和输出内容之间的因果关系被遮盖,造成知识和经验归属的伦理及认识论障碍,导致对版权属性的判定障碍,使预测性数据处于版权数据和非版权数据的模糊叠加状态,消解以往版权法律框架下版权数据和非版权数据的区隔性。然而,在大多数知识产权和版权诉讼案例中,第一步往往是确定权利争议内容是否属于版权内容(数据)。就预测性数据而言,它既可以视作版权数据,也可以视作非版权数据,这就为版权实践带来极大的不确定性。因此,将作为版权和伦理视角的预测性数据从作为技术实践视角的训练数据予以区别并抽离,具有理论上的必要性。

建构版权和伦理视角下的预测性数据概念的紧迫性,源于AIGC对媒体内容数据版权保护的冲击。2023年11月,美国新闻/媒体联盟(TheNews/MediaAlliance)《白皮书》指出:

“新闻和数字媒体在GoogleC4训练集中的所有类别来源中排名第三,该训练集用于开发博德(Bard)等Google生成式人工智能产品,数据集来源排名前十的网站中有一半是新闻媒体网站。”[10]

AIGC与媒体的版权冲突根植于媒体自身的特殊地位,它青睐媒体预测性数据主要有两大原因。第一,媒体预测性数据具有公共性。采集和使用付费或受版权保护的数据将增加AIGC训练模型的数据成本和侵权风险。区别于其他数字内容,媒体数字内容具有公共属性[11]。媒体数据与个人数据的核心区别在于媒体数据处于公共领域和私人领域的交汇点。具体而言,作为信息传播基础设施的大众媒体,内容采集、制作和发布均面向公共空间,内容数据具有天然开放性,这使得媒体内容数据成为AIGC模型的主要数据来源。

第二,媒体预测性数据的公开具有宰制性。媒体天然属于公共领域,这与媒体所有制无关,而与其实践密切相关[12]。数字时代带来传媒业向深度数字化转变,要求媒体内容的开放使用。这种开放区别于被采取强制性手段的公开,而是迫于数字技术的优势地位和影响。媒体机构如果拒绝在数字空间发布内容,将直接损害媒体的盈利能力和影响力。受数字技术宰制的媒体数据开放,媒体数据成为数字空间的基本图景,这意味着AIGC时代媒体版权的隐忧并不局限于某一媒体的数字内容可能被用于预测和模仿,而是全行业的内容数据成为训练数据集的组成部分。对媒体行业内容数据无限制模仿、训练和生产最终会消解媒体行业的创造力和盈利能力,造成媒体版权实践的普遍困境和争议。

三、弥合版权“二象性”:作为“非版权敏感信息”的媒体预测性数据

媒体内容数据成为训练数据的主要来源,能为AIGC开发者建立低成本、低风险、高质量的数据优势,但媒体预测性数据在训练模型中大规模使用模糊了媒体版权数据和非版权数据的界限,造成版权实践的“二象性”困境,危及媒体行业的内容生态和版权利益。

(一)是版权数据?非版权数据的版权化

媒体预测性数据是版权数据吗?

在传统媒体版权框架下,版权保护的对象相对明确,媒体数据通常属于版权保护范畴,例如,媒体的文字稿件、报道图片、视频音频等。在媒体预测性数据版权实践中,对版权造成损害的数据却未必是版权数据。有的数据不在版权保护范畴,但能被生成式人工智能模型用于预测内容风格和生产模式,从而对媒体版权造成损害,导致“非版权数据的版权化”,最典型的案例是媒体的风格数据和行为数据。

传统的媒体版权保护,受制于人类或机器的学习和创作能力,媒体内容的风格数据和行为数据不具备分析、预测和模仿的可能性,因而不在版权保护范围内。AIGC技术突破这一限制,从非版权数据中获取目标媒体关键内容信息、属性和创作规律成为可能。被AIGC模型用于学习的非版权数据,既包括文字风格、画面色调、语速语调等风格数据,也包括发布时间规律、空间规律等行为数据。借助这些数据,AIGC模型将媒体的内容模式和创作经验批量转化为具体的效用参数,并用于模仿和生产类似于目标媒体风格和模式的内容产品,它们反过来被用于与其媒体机构进行竞争。

即使媒体的非版权数据不包含版权内容,对其模仿和预测能够获取关键信息,同样破坏着媒体内容生态,损害媒体机构的版权利益。媒体预测性数据的“非版权数据版权化”主要有两条路径:一是媒体自行发布的非版权数据经模型加工预测后版权化,即自披露非版权数据的版权化。AIGC在媒体不知情的情况下,自动抓取媒体发布的内容,预测并生成与其高度类似的内容。二是同类型媒体的非版权数据经模型加工预测后版权化,即可披露非版权数据的版权化。AIGC绕过目标媒体抓取数据,给媒体版权保护带来严峻挑战。无论是特定媒体自行披露还是其他相似媒体披露的非版权数据,AIGC都能通过预测将其制作成对版权构成潜在威胁的数据信息和内容,甚至媒体无法证明是何种内容或数据导致自身权利损害,这给媒体版权保护造成了更严重的权利救济困境。

(二)不是版权数据?版权数据的去版权化

那么,媒体预测性数据不是版权数据吗?

“非版权数据的版权化”并非是媒体预测性数据版权实践困境的全部,AIGC造成最为严重和广泛存在的媒体预测性数据,其侵权路径是“版权数据的去版权化”。传统的媒体版权保护,媒体版权的侵权行为通常清晰可见,主要是对媒体内容的复制或挪用。即便是“洗稿”,侵权方的侵权事实依然有迹可循。在侵权发生后,媒体机构能够通过事实和证据来主张权利和维护利益。

在AIGC媒体预测性数据实践中,数据采集、模型训练和内容生成使用的媒体数据均被预测模型和算法“去版权化”。在数据采集端,由于缺乏技术手段,媒体机构能否通过AIGC模型获得侵权证据,这取决于算法透明度和开发者意愿。在模型训练端和内容生成端,凭借AIGC模型强大的预测和模仿能力,源数据(版权数据)被层级式分解为子单元(版权元素),不同的子单元又被关联为特征(版权元素的重新排列组合)并最终聚合为生成内容。媒体数据的版权要素在数据加工和模型训练中被遮蔽,输出内容难以观察到直接的版权使用痕迹。在媒体预测性数据的“版权数据去版权化”实践中,媒体机构无法获悉所拥有的版权内容是否被采集并用于训练模型和生成内容,进而难以对侵权行为举证并主张权利,导致媒体机构在与AIGC的预测性数据版权博弈中必然地滑向“弱势地位”[13]。

在这种情况下,尽管媒体数据包含着版权信息,但经AIGC模型“预测”后,版权要素被重组和遮蔽,不具备版权可见性,成为去标识版权数据:AIGC将媒体版权数据纳入训练模型,以模拟和预测媒体的内容、风格和模式,再借助模型强大的学习和训练能力,使媒体数据的版权使用被藏匿在输入端和处理端,由此输出和生成的内容不具有版权要素和使用痕迹,最终损害了媒体机构的版权利益和盈利能力。相较于非版权内容的版权化,版权数据的去版权化的核心在于使得版权数据失去了可识别的版权熟悉和标识,侵权行为更为隐蔽、智能且自主化,从而增加了媒体版权的救济成本和难度。

(三)弥合版权“二象性”:媒体预测性数据何以成为“非版权敏感信息”?

如果媒体预测性数据不能简单归为版权数据或非版权数据,应当如何理解媒体预测性数据的版权性质?

需要说明的是,当前的版权法并未对这一情况做出任何回应,但媒体预测性数据的现实案例已经出现。2023年12月27日,《纽约时报》以侵犯版权为由起诉OpenAI和微软擅用报道训练大模型,成为第一家起诉这两家公司侵犯其文字作品版权的美国大型媒体[14]。AIGC的不断发展和媒体预测性数据的现实案例,决定对这一问题的讨论处于进行时而非完成时。对这一问题的回答,需要基于AIGC时代媒体的信息“敏感性”和媒体预测性数据的实践学视角,将媒体预测性数据作为一种“非版权敏感信息”,而不是简单归为版权数据或非版权数据。

首先,媒体预测性数据为何是敏感信息?在以往的数据伦理中,信息的“敏感性”似乎只限于个人信息,非个人信息(如组织和政府)通常不具有敏感性。特别是作为大众传播主要渠道的媒体,其数据天然与信息“敏感性”相抵触。然而,信息“敏感性”的关键并非在于主体确属,而是使信息“敏感”的客体是否存在,特别是客体获取信息后是否具有危害性。AIGC的开发者能够根据自己的需要,借助爬虫工具自动抓取个人数据和媒体数据,并能在模型学习和训练后进行模仿、预测和生成,从而侵犯个人隐私和媒体版权。因此,基于AIGC技术,无论是个人数据还是媒体数据都具有被视为“敏感信息”的正当性。

其次,媒体预测性数据应当被归为版权保护范畴吗?如前文所述,从传统版权视角来看,AIGC对媒体预测性数据的采集和训练,无论是非版权数据的版权化还是版权数据的去版权化,都构成版权法中的“合理使用”,难以定性为侵权行为。要理解作为“非版权敏感信息”的媒体预测性数据,应基于实践学角度关注“预测”对媒体版权的潜在危害和后果。

对于非版权数据的版权化,AIGC开发者采集不属于版权保护范畴的风格数据(文字风格、音调语气、画面色调)和行为数据(内容发布规律)作为模型训练内容,借助模型强大的预测和生成能力,大批量、高精度模仿和生成媒体内容。就行为而言,这种对非版权数据的使用并未侵权,结果却严重损害了媒体行业的内容生态和版权利益。对于版权数据的去版权化,AIGC开发者对媒体版权数据的使用仅限于输入端和模型训练过程,并未在输出端和生产作品中直接挪用和复制,这似乎依然遵循版权法的“合理使用”原则。但就结果而言,版权数据的去版权化使用,导致AIGC模型对媒体版权内容的隐匿性系统挪用。

因此,即使“非版权数据的版权化”和“版权数据的去版权化”均得到版权法“合理使用”原则的支持,但媒体预测性数据迫切需要被纳入版权保护考量,将媒体预测性数据作为一种“非版权敏感信息”,并在法律和伦理层面给予特殊对待。因为在实践和结果层面,AIGC对媒体预测性数据的版权使用已经造成媒体行业的版权困境和利益受损。

四、结论

AIGC模型从推导到预测的范式转变,使得输入数据与内容生成物之间的经验和知识关系被遮蔽。生成式人工智能技术,正在改变媒体业对于版权的理解并带来实践困境。当人工智能造成麻烦的时候,我们不会安慰人工智能,我们会安慰人。正如维特根斯坦所说:“一个人手疼……人们并不对手说安慰的话,而是安慰受疼的人。”[15]对媒体而言,媒体预测性数据是公共产品,更是媒体的智力劳动成果,AIGC对媒体预测性数据的合理使用,包括但不限于向媒体支付内容使用费用、免费开放模型使用权限等,有助于增强媒体业的盈利能力和创新动力。对AIGC开发者而言,任何机器和模型都难以替代和模仿人的创作灵性,完善媒体预测性数据伦理框架,有助于探索模型开发和媒体内容生产的良性循环模式,共同推动AIGC技术向善。对公众而言,媒体预测性数据与AIGC的相互促进能够丰富公共文化产品,确保包括媒体、个人在内的内容创造得到公平回报,从而激发社会整体的创造力。

[本文为中央高校基本科研人文社科专项(编号:2022CDJSKPY27)的阶段性成果]

参考文献:

[1]Soni J,Goodman R.A mind at play:how Claude Shannon invented the information age[M].Simon and Schuster,2017.

[2]Rosenblatt F.The perceptron:a probabilistic model for information storage and organization in the brain[J].Psychological review,1958,65(6):386.

[3]Shum H Y,He X,Li D.From Eliza to XiaoIce:challenges and opportunities with social chatbots[J].Frontiers of Information Technology amp; Electronic Engineering,2018,19:10-26.

[4]Buchanan B G,Smith R G.Fundamentals of expert systems[J]. Annual review of computer science,1988,3(1):23-58.

[5]Kononenko I.Machine learning for medical diagnosis:history,state of the art and perspective[J]. Artificial Intelligence in medicine,2001,23(1):89-109.

[6]Shewalkar A,Nyavanandi D,Ludwig S A.Performance evaluation of deep neural networks applied to speech recognition:RNN,LSTM and GRU[J]. Journal of Artificial Intelligence and Soft Computing Research,2019,9(4): 235-245.

[7]Rieder G,Simon J.Big data:A new empiricism and its epistemic and socio-political consequences[J].Berechenbarkeit der Welt?Philosophie und Wissenschaft im Zeitalter von Big Data,2017:85-105.

[8]Anthony L J.The Cambridge dictionary of statistics[J].Reference Reviews,2003,17(1):29-30.

[9]Mühlhoff R.Automatisierte Ungleichheit:Ethik der Künstlichen Intelligenz in der biopolitischen Wende des Digitalen Kapitalismus[J].Deutsche Zeitschrift für Philosophie,2020,68(6):867-890.

[10]The News/Media Alliance (N/MA).White Paper:How the Pervasive Copying of Expressive Works to Train and Fuel Generative Artificial Intelligence Systems Is Copyright Infringement And Not a Fair Use[EB/OL].(2023-10-31)[2024-04-07].https://www.newsmediaalliance.org/generative-ai-white-paper/.

[11]Sehl A. Public service media in a digital media environment:Performance from an audience perspective[J].Media and Communication,2020,8(3):359-372.

[12]李良荣,张华.参与社会治理:传媒公共性的实践逻辑[J].现代传播(中国传媒大学学报),2014,36(04):31-34.

[13]Colangelo G. Enforcing copyright through antitrust?The strange case of news publishers against digital platforms[J]. Journal of Antitrust Enforcement,2022,10(1):133-161.

[14]Grynbaum M.,Mac R.The Times Sues OpenAI and Microsoft Over A.I.Use of Copyrighted Work[N/OL].(2023-12-27)[2024-04-08].https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html.

[15]路德维希·维特根斯坦.哲学研究[J].陈嘉映,译.上海:上海人民出版社,2005:115.

作者简介:刘海明,重庆大学新闻学院教授,博士生导师(重庆 401331);陶鹏辉,重庆大学新闻学院硕士生(重庆 401331)。

编校:郑 艳

标签:  数据 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。

iidomino cuppor