ChatGPT生成文字内容的可版权性研究

known 发布于 2025-08-11 阅读(206)

【摘要】在我国,人工智能写作领域引起的著作权纠纷层出不穷,司法机关做出的不同判决也体现出了当下法律界对其生成文字内容性质的差异化认识。ChatGPT的文字性表达是否具备被认定为作品的基础要件?若赋予其作品的定义,由其产生的著作权又应当赋予哪个主体?抑或是被拟制了法律人格的ChatGPT本身?在当前制度环境下,如何定义、保护ChatGPT生成文字内容所涉及的各方权利,这种处理方式又如何才能满足科技伦理、社会道德的保守性表达,都是需要解决的问题。

【关键词】ChatGPT;人工智能;著作权;可版权性

21世纪,信息网络科技飞速发展,并在神经网络算法、人工智能领域取得巨大突破,生成式人工智能逐渐在研究领域中成为热点并不断渗入普通网络用户的日常生活中,其中ChatGPT自推出以来,备受关注。ChatGPT,全称为“生成性预训练变换器”(Generative Pre-trained Transformer),是由OpenAI于2022年11月推出的一款基于对话形式实现人机交互的生成式人工智能模型。[1]短短两年多的时间,ChatGPT已经迭代至GPT4.5,整体性能相较之上一代的GPT4.0有了显著的提升。截至2025年2月,ChatGPT的周活跃用户数量已达4亿,其用户数量和营收在激烈的竞争中仍在快速增长。同时,依据AIPRM对ChatGPT的统计,利用ChatGPT执行文章撰写、创意性写作、课程作业及考试的用户分别达到了6.1%、4.1%以及0.9%,此类型的文字性生成在用户的使用率中达到了10%以上,几乎是其他特定任务的使用率总和。

依照其设计者——OpenAI为ChatGPT所设置的基础伦理限制,ChatGPT确实守住了常规理性人类认知当中的道德基准,但随着ChatGPT在文字生成领域的近乎全方位应用,其中立的技术立场却在庞大的用户使用量下出现了不可避免的动摇。自ChatGPT发布以来,多所高校陆续对ChatGPT在课程教学中的使用进行限制,以应对学生利用ChatGPT生成内容交付课程作业甚至是用于考试的问题。仅从这个领域进行评价,ChatGPT本身已经对学术道德领域造成了严重的冲击,甚至对教育本身及其实效产生了不良影响。除此之外,本文主要聚焦ChatGPT文字生成本身带来的法律问题,即ChatGPT所生成的文字是否可以被认定为作品?倘若是作品,其著作权本身应当赋予哪个主体?基于这两个基本问题,本文将对ChatGPT生成文字内容的可版权性进行研究。

在当下中国的制度环境下,若要对ChatGPT所生产的文字内容进行可版权性探讨,则必须符合著作权相关法律法规的基础性规定。在作品的定义上,要求满足《中华人民共和国著作权法》(以下简称《著作权法》)第三条以及《中华人民共和国著作权法实施条例》(以下简称《实施条例》)第二条所规定的独创性、可复制性以及在文学、艺术和科学领域内的智力成果等要件,并且能够将其文字生成内容纳入《著作权法》及《实施条例》所规定的作品类别当中。在作品判别条件当中,可复制性以及文字所涉领域基本不会形成阻碍,其争议点应当聚焦在ChatGPT所生成的文字内容本身是否具有“独创性”以及是否属于“智力成果”之上。而对其进行判别,前提在于对ChatGPT的文字生成原理进行了解并定性。

一、ChatGPT生成内容之独创性

(一)ChatGPT之基本原理

ChatGPT之所以能够满足多元化的文字生成需求,其底层支撑在于大型语言模型,LLM(Large Language Model)作为其整个通用人工智能的搭建基础。LLM为ChatGPT构建了一个囊括内容极广、开发及部署成本极高的庞大底层数据库,通过基础设施及服务的模式为ChatGPT提供多用途应用的支持。在LLM的支撑下,辅以OpenAI为ChatGPT开发的具有相当程度仿真性且舒适的人机交互模式,ChatGPT得以将LLM的数据优势尽情发挥。[2]

除此之外,ChatGPT的关键技术在于其算法对于模型自身的不断优化,“利用人类反馈强化学习”(RLHF)的训练方式是其生成内容优化的核心。我们可以将RLHF极为概括地描述为:首先调用LLM内容生成一个基础的未经反馈和润色的语言模型,再通过内置的打分模型评估该输出内容及方式是否符合人类的满意标准,并借由该反馈模型提出的微调任务对原先的语言模型进行对策性优化。即这一核心学习方法的大数量级重复才使得ChatGPT迭代到当下更为“智能”且符合用户需求的状态。

由此,ChatGPT才得以展示出其强大的三个文字基本功能。第一,语言生成能力。该能力使得ChatGPT能借由用户提供的提示词,遵循数据所提供的推演习惯补完用户所需内容,这也是ChatGPT最为常用的一种交互方式。第二,上下文学习能力。其可以通过用户给定的数个文字范例作为其新生成内容的引导基准,进而为其他的新测试提供解决方法。第三,构建世界知识的能力。包括对事实性知识和常识的学习。在三个基本功能当中,上下文学习才是ChatGPT的主要功能,其目的还是在于通过这一学习方法对自身的模型进行优化。[3]

(二)作品要件之独创性判别问题

保护表达而非其思想,这是著作权法的基础原则,同时这一点也在《著作权法》和《实施细则》的具体保护范围上得到了确认。ChatGPT在文字领域所生成的内容确在其形式上完成了相对独立的表达,即满足了判别作品的最基础要件——具有具体的表达形式。但随之而来的重要问题便是,该表达是否具有独创性?

根据上文对ChatGPT的底层架构和内容生成机制的基本研究,我们可以先通过假设其“不具备独创性”的关键性理由入手,由此进行独创性内容的判断。笔者认为,能对其独创性进行抗辩的核心理由是:ChatGPT生成文字内容时所调用的数据,必然包括了作为其底层数据源的LLM模型所囊括的其他主体所创造的被赋予著作权的作品,因而其生成的文字不过是对他主体创作内容的一种“复制”和“传播”,ChatGPT本身不过是承担了对内容进行整理和针对性的反馈工作,更像是“档案管理员”的工作。也正如王迁教授所认为的,人工智能的“创作行为”本质上是以数据为“源头活水”,算法为“机械手臂”的计算行为。[4]如果这一理由得到技术上的证实,则ChatGPT生成内容的“独创性”将受到严重质疑。

想要回答这一问题,必须对LLM模型本身以及ChatGPT的训练语料进行溯源。对于LLM而言,进行数据的溯源几乎是一个不可能完成的工作,GPT-3.5模型诞生时的LLM,是一个拥有3000亿单词的语料基础,并在其基础上预训练了约1750亿参数的庞大模型。其囊括了CommonCrawl语料库、WebText语料库、书籍与报纸杂志、维基百科,仅仅是CommonCrawl这一数据来源,就包含了这一机构自2007年以来储存的网络爬虫数据库。[5]必须承认,对如此庞大的数据量进行版权相关的溯源,在客观上几乎是完全无法实现的,对ChatGPT所拥有的LLM模型,笔者更愿意用一个抽象的表达进行形容:“GPT-4时代的LLM将更像是个不可具象的图书馆,囊括了网络这一人类历史上最大互联网平台上能为人所探寻到的所有知识。”由此,对LLM溯源的意义便没有那么大了。

那么退而求其次,从其训练语料上如何界定其独创性?ChatGPT的一个主要功能,便是由关联文段进行逻辑推演,进行上下文的学习。这一由使用者以及开发者角度提供的具备特定表达、思想的文段,笔者认为是具备一定“学习价值”的文字,也即为了满足ChatGPT当前的深度学习需要,其学习文段的思想表达应当是具备一定独创性的。而模仿这一系列具备独创性的文字所产生的文字,在“模仿”其独创性的过程当中,在理性上也应当被认定是产生了相应的独创性的——即便这样的表达是通过对所学习文档之外,以及该文档之外的若干模型的训练所达成,也不得不承认这一种表达在形式上的独特。

由此进行延伸,若将其生成内容认定为作品,在法律上又该如何界定范围?笔者认为,若仅仅从特定文段的上下文学习当中达成的文字,已经脱离了原本文字的思想表达范围,更像是一种“续写”行为。若生成文字与学习文段结合,其文字生成程序本身可能涉及对所学文档的“改编”,但很难界定为“复制”,笔者更倾向于把ChatGPT所生成的文字内容归纳到“演绎作品”的范畴,只是这种“演绎行为”本身所改编的对象庞大到难以计数,在只言片语之中精准追寻其最初的模仿对象在客观上已经是无法实现的了。

(三)作品要件之智力成果定性

ChatGPT本身可以定义为OpenAI这一研究机构的智力成果,与传统的专利、著作权等知识产权相比,其作为一种相对独立的“生成型工具”,具有少有的内容生成能力。其生成功能与其制作者,也即OpenAI有直接的因果链条联系,但其生成内容同制作者本身的关联并没有那么明晰,相对而言,作为直接交互端的用户对生成内容反而具备更直观的影响力。[6]基于这一使用现状,本文根据ChatGPT所生产文字内容源自对LLM模型巨量数据的学习和演算的事实,认为ChatGPT所生成内容的决定性因素还是包含了百万亿级数据的LLM模型本身,而非进行内容引导的交互端使用者。由此,对ChatGPT的文字生成内容进行定性,则只需讨论LLM模型数据以及产生内容便可以得出结论了。

LLM模型中的数据是否属于人的智力成果?本文认为,答案是肯定的。如前文所述,其数据当中囊括的庞大语料的一部分近乎当然的具备智力成果的属性,且由于通用人工智能生成的内容天然的具备严谨的逻辑性——这是基于编写人工智能的程序所具备的逻辑性决定的,无逻辑、随机生成、无意义的文段对ChatGPT的学习几乎毫无意义,这一点可以通过ChatGPT并不能对失语症患者(语言功能遭到损伤)的话语进行有效理解、学习和模拟得到证实。因此,调用自LLM,借由ChatGPT的内置模型生成的文字内容应当具备基础的智力成果属性。

但值得注意的是,由于ChatGPT本身的运行机制限制,其生成文字内容的思想和表达并不来源于ChatGPT本身,同时也不来源于其创作者OpenAI,而是一个抽象的、近乎整个信息网络时代的可供模型摄取的知识,在只做基础道德伦理限制的情况下,几乎可以认定ChatGPT根据用户指令生成的文字内容代表了一个“客观理智人”依照用户需求做出的最符合公众认知的回答。即暂且不论这一内容是否属于“客观事实”等不为著作权保护的公有领域的表达,其基础的文字生成内容在不做刻意引导的前提下(诸如,用户要求以极端保守政党支持者的身份或遵循安那其主义者的主张所生成的具备特定倾向性的内容),应当将其看作是抽象的人类整体智力成果(或者细致地说,是信息网络时代的人类整体智力成果),这一智力成果具备相当的代表性,且与制作者、交互端用户没有决定性关联。

在得到此结论的同时,结合前文对于独创性的论述,笔者认为ChatGPT所生产的文字内容,一般具备了被承认为作品的要件。

二、ChatGPT的著作权赋予问题

(一)分歧——否认与转移

在我国当前的制度环境下,对人工智能所生成文字内容的著作权赋予问题是存在空缺的,这一情况在整个世界范围内普遍存在。但实务问题并不会因此消失,早在ChatGPT问世以前,我国司法实践就已对“人工智能是否具备法律主体资格”问题做出了具有分歧性的处理。

2019年4月,北京知识产权法院在“北京菲林律师事务所诉北京百度网讯科技有限公司著作权纠纷案”中对被告方使用的人工智能及其生成内容做出了如下论述:“人工智能所生成的涉案文章在内容、形态以及表达形式上与自然人的表达已经非常相似,但不满足自然人创作的基本要素,因而不应当被赋予作品资格。同时由于《著作权法》第二条之规定,不应当将人工智能认定为可被赋予著作权的自然人、法人及非法人组织,同样不宜对民法规定的基本权利主体进行突破。由此,涉案作品无法构成《著作权法》保护的作品。”[7]同年12月,深圳市南山区法院宣判的“深圳市腾讯计算机系统有限公司与上海盈讯科技有限公司著作权权属、侵权纠纷、商业贿赂不正当竞争纠纷案”做出了完全相反的裁判内容。南山区法院认为,涉案文章虽同样来自计算机软件的自动生成,但其外在表现形式上符合文字作品的形式要求,且用户的个性化选择与安排同样对涉案文章的生成具有直接联系,可以认定为计算机软件生成的作品为《著作权法》意义上的作品。此外,通过涉案人工智能——Dreamwriter的软件著作权归属(该软件由腾讯主创团队开发)以及其生成文段末尾注明的“本文由腾讯机器人Dreamwriter自动撰写”内容,南山区法院认为以上理由可以作为权利指向的完整推演路径,由此说明了腾讯公司将对涉案作品以及其他涉案AI生成作品承担责任,并依照《著作权法》类推适用为法人作品。[8]

简短地分析两个案件中法院作出判决的主要分歧点,也即著作权法意义上的作品应当至少具有自然人参与的“高度联系”创作行为。北京知识产权法院认为人工智能调用数据的行为将这种“联系”阻断,因而不产生具有实质意义上的创作;南山区法院则认可了人工智能所调用的数据库,仍然在实际上搭建了同他人碎片化创作中体现的独创性之联系,只不过由于这一联系在技术手段中的关联度确系薄弱,则更适宜以通过赋予其开发者——腾讯公司著作权,进而认可该AI生成文字的作品属性。仅从这两个判例可以看出,在人工智能技术高速发展下的制度真空期,各地司法对于人工智能生成文字内容的作品资格认定仍然存在较大分歧。这一问题的解决仍需进一步等待生成型人工智能的技术发展趋于稳定,更需要在当下制度环境下做出相应的回应,以对调用信息中涉及的著作权人、生成型AI开发者、使用者以及其他权利人的利益进行取舍和平衡。

(二)ChatGPT主体资格赋予的探索与障碍

不止是在我国,全世界范围内对人工智能的权利资格认定都处在广泛的探索过程中。首先达成共识的是,作为技术性工具的人工智能在当前技术水平下不存在能被认知为生物学意义上的“人”,自然也无法通过这一渠道赋予其私权[9],则赋予其权利的方法仅剩余拟制法律人格一途,但是笔者认为,通过法律赋予当下的人工智能以拟制人格并不是合理的制度发展路径。且不论《著作权法》以及其上位法《民法典》对民事主体资格的原则性规定,赋予人工智能以类似法人的权利能力和行为能力并不能更好地对人工智能及其生成内容进行保护——人工智能当前仍然是一种需要人为交互才能进行动作的科学技术,并不具有法人、非法人组织所具有的能够作为法律主体采取行为的“独立性”。[10]将主体资格赋予不给予指令便无法行动的人工智能,仅仅是在形式上完备的法律,实质上却使得人工智能这一“拟制人”的权利被彻底地放在被随意侵害的角度上,法律不能指望一个没有自主意识的个体去维护自身的权利,不如将维护生成内容的权利赋予人工智能的实际拥有者,在实务上则更具操作性一些。[11]并且,在我国当前的民法体系以及著作权保护体系下,赋予自然人、法人与非法人组织以外的“计算机程序”以拟制人格的行为是具有极高立法成本的,至少在短期内,人工智能及其生成物的权利保护不会以赋予人工智能以法律人格的方式实现。

三、ChatGPT及其生成内容的权利平衡

综上所述,本文坚持如下基本立场:ChatGPT所生成的文字内容是基于对庞大人类知识进行学习、调用的成果,即使主观上不能认为ChatGPT具有创造行为,但其调用的信息本身可以推定具有相当程度的独创性,因而可以以作品认定的方式保护ChatGPT所生成的文字内容。同时,由于ChatGPT本身的工具属性,且目前的ChatGPT仍然只是消极接收信息并输出反馈的程序,不应当被赋予主体资格以保护其所生成的作品权利,转而将生成内容的著作权赋予ChatGPT之拥有者才是最为有效的方案。

本文想要解决的最终问题:ChatGPT的文字生成内容应当是“可被版权化”的,但是基于当前环境,是否“应该被版权化”?对此,虽然笔者认为ChatGPT生成内容可以被视为作品,同时其产生的著作权应当为ChatGPT的拥有者OpenAI所享有,但笔者同时也对著作权的赋予行为本身持反对态度。如前文所述,包含百万亿级数据的LLM模型是ChatGPT迭代、发展至今的最坚实基础,可以毫不夸张地说,LLM的存在本身就是一个违反法律伦理的庞然巨物,其内里囊括了不可计量、不可追溯的公共领域知识以及碎片化的被侵权信息。即ChatGPT充盈的知识量与为人称道的表达的LLM模型,是建立在无底线违反科技伦理基础上的产物。它运用爬虫技术等暴力信息手段强行将不可计数的应得到著作权法保护的作品强行整合,消极且无意识地将若干信息推入了如“公共领域”一般的境地——任何用户都可以利用ChatGPT将其他自然人的表达“演绎”为自己的表达,无关乎这一表达是否受到著作权法的保护,无关乎这一表达的创作者是否知晓,也无关乎其表达是否完整到能被识别,它都在事实上成为科技进步的燃料。因而,对ChatGPT此类突破了技术中立性而近乎于“不道德”的生成行为,即便其形式上满足了为著作权法保护的可能,也不应当对其赋予等同于其他著作权主体的保护水平——至少在其付出了足以补偿被侵害的权利人的相应代价之前,不应当对其进行保护。

总的来说,ChatGPT在事实上已经形成了对LLM模型内信息的“公有化”,对被隐性公开的诸多具备著作权“碎片化信息”及其表达而言,赋予其具备专有性的保护是显著不公于社会以及其他智力创作者的。因而,目前法律不应当对ChatGPT以及OpenAI进行太过严格的保护,更适宜以一种消极的态度去应对ChatGPT本身的法律风险,并对其生成内容侵害其他主体权利的行为进行积极的干预。正如《生成式人工智能服务管理暂行办法》第四条所规定的遵守法律、行政法规,尊重社会公德和伦理道德,以此为发展和应用中的底线,方为平衡当下ChatGPT与社会公共利益、他人合法利益的抽象但必须的支点。

参考文献:

[1]苏颖,汪燕妮.生成式人工智能时代的政治传播走向:基于ChatGPT的讨论[J].党政研究,2023(3):34-41.

[2]朱光辉,王喜文.ChatGPT的运行模式、关键技术及未来图景[J].新疆师范大学学报(哲学社会科学版),2023(4):113-122.

[3]朱光辉,王喜文.ChatGPT的运行模式、关键技术及未来图景[J].新疆师范大学学报(哲学社会科学版),2023(4):113-122.

[4]王迁.论人工智能生成的内容在著作权法中的定性[J].法律科学(西北政法大学学报),2017(5):8.

[5]刘嘉文.生成式AI的风险挑战与敏捷治理:以ChatGPT为分析起点[J].通信与信息技术,2025(1):113-116+131.

[6]胡翼青,胡欣阅.作为语言基础设施的ChatGPT[J].新闻记者,2023(6):21-27.

[7]梅傲,郑宇豪.人工智能作品的困境及求解:以人工智能写作领域第一案为考察中心[J].出版发行研究,2020(12):50-56.

[8]梅傲,郑宇豪.人工智能作品的困境及求解:以人工智能写作领域第一案为考察中心[J].出版发行研究,2020(12):50-56.

[9]梅傲.“人本”语境下的规则冲突与冲突规则[J].现代法学,2012(4):143-150.

[10]易玲,尹丝媛.我国著作权法中人工智能主体资格之否定[J].科技与法律(中英文),2021(4):66-72+148.

[11]朱梦云.我国著作权法视域下的人工智能法律主体资格论证[J].电子知识产权,2021(8):63-75.

作者简介:吕冬娟,澳门城市大学法学院助理教授(澳门 999078);梅彦铮,澳门城市大学法学院硕士生(澳门 999078);原平方(通讯作者),中国政法大学政法宣传与舆情研究中心特聘研究员(北京 100088)。

编校:董方晓

标签:  人工智能 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。

iidomino cuppor