矫鸿彬等:生成式AI训练模型中版权初步侵权的认定——《版权与人工智能报告》核心要点解读_贸法通

矫鸿彬等:生成式AI训练模型中版权初步侵权的认定——《版权与人工智能报告》核心要点解读

发布日期:2025-06-23
字体:
分享到:
文章二维码

微信扫一扫

引言

根据美国版权局(U.S. Copyright Office)介绍[1],其正在开展一项关于人工智能(AI)引发的版权问题的研究,这一研究旨在梳理现行法律体系的适配性,识别未决争议焦点,并为国会决策提供依据。该研究以系列报告的形式逐步展开,为我们揭开了AI与版权法交织的复杂法律图景。

2023年8月20日,美国版权局发布调查通知(Notice of Inquiry),随后分别于2023年10月30日和12月6日设定首轮书面评论和回复评论的截止期限。截至2023年12月,美国版权局共收到超1万份评论意见。在此基础上,美国版权局以三部曲形式发布《版权与人工智能报告》(Copyright and Artificial Intelligence Report)系列内容(请见下图)。

美国版权局《版权与人工智能报告》内容发布情况汇总

其中,《第三部分:生成式AI训练(预报告)》系美国版权局应国会问询及利益相关方关切提前发布的版本,最终版本预计不久后正式公布,且分析与结论部分不会有实质性调整。与前两部分报告相比,《第三部分:生成式AI训练(预报告)》首次系统性聚焦于生成式AI(Generative AI,即生成式人工智能)训练模型全流程的版权侵权判定问题,直接回应了当前司法实践中最具争议的技术场景——人工智能如何通过数据收集与整理、模型训练到生成、输出触发版权侵权。报告第三章“初步侵权认定”(PRIMA FACIE INFRINGEMENT)作为这一问题的核心章节,围绕有效版权、复制行为等核心要素,结合模型权重、检索增强生成等技术细节,搭建起版权初步侵权判定框架。本文将以此为切入点,深入解读生成式人工智能训练模型中的版权初步侵权认定规则,探寻将抽象的版权原则融入AI技术链条的路径。

一、版权初步侵权认定的构成要素

根据《美国版权法》(United States Copyright Act)及相关在先判例,版权初步侵权认定需满足两大关键要素:

1. 原告需证明对涉案作品享有有效版权(ownership of a valid copyright)。《美国版权法》赋予版权所有者复制、发行、公开表演和公开展示其作品,以及创作演绎作品等专有权利。[2]原告需证实其对文字、图像、音乐等具有独创性表达形式的作品拥有合法版权。

2. 被告需存在对作品中受保护原创性元素的复制行为(copying of constituent elements of the work that are original)[3],包括直接复制或通过算法抽象后的非字面复制。

一旦原告证明了以上两点,无需其他要件即可初步认定被告侵权成立,此时举证责任转移至被告。被告需证明存在合理使用(Fair Use)、获得许可、作品已进入公有领域等有效抗辩理由,否则将承担侵权责任。

二、生成式AI训练模型的版权初步侵权认定

生成式AI模型是一种基于深度学习的模型,能够通过学习大量数据中的模式和结构,生成与输入相关的内容。其核心原理是通过训练大规模的神经网络,利用模型中的权重(即参数)来表征数据之间的复杂关系,从而实现对新输入信息的理解与内容生成。模型权重(model weights)是模型学习到的核心参数,它们决定了输入如何被处理并输出结果。

需要注意的是,使用受版权保护的材料创建和部署生成式AI模型包含多种行为,在缺乏许可或有效抗辩理由的情况下,可能会侵害一项或多项版权权利。对此,《第三部分:生成式AI训练(预报告)》指出,AI训练的全流程——从数据收集与整理(Data Collection and Curation)、模型训练(Training)、检索增强生成(RAG)到输出应用(Outputs)——均可能存在版权侵权风险,需结合技术细节与法律标准综合判断。

(一)数据收集与整理(Data Collection and Curation)

生成式AI训练模型通常需要制作训练数据集,而数据集中往往会包含受版权保护的作品,训练过程中常常涉及下载作品、在存储介质之间传输作品、将作品转换为不同格式,以及创建修改版本等复制甚至是多次复制行为。这一过程从版权初步侵权认定要素来看,显然构成初步侵权。

需要说明的是:

第一,即便数据源自“公开网络”也不当然构成合法授权。在许多情况下,“数据收集与整理”的第一步是从公开渠道下载数据,但“公开可用”与“授权”并非同义词,它可能只是用来表示 “在互联网上可获取”。[4]

第二,即便数据在训练结束后被删除也不影响侵权分析。根据《美国法典》第17编第101条(17 U.S.C. § 101)对“固定”(fixed)的定义可知,侵权认定的关键在于“复制行为是否发生”,而非“复制件是否被保留”。数字媒体许可协会《初步意见》(DMLA Initial Comments)也指出:“人工智能开发者的数据保留做法各不相同。一些会删除用于其人工智能模型的训练集,而另一些则会存储它们。然而,保留政策实际上对版权侵权认定没有太大影响。无论作品是否被保留或存储,复制权都可能受到侵害。”[5]此外,公开报道显示,大型开发者通常会保留训练数据集以供未来项目使用。

(二)训练(Training)

生成式AI训练模型的训练过程同样涉及复制,具体体现在三个层面:

1.训练前,训练的速度和规模要求开发者下载数据集并将其复制到高性能存储设备中。

2.训练期间,作品或其核心部分分批“展示”给模型时会被临时复制,如果这些临时副本存在的时间足够长,依然可能侵害复制权。

3.训练过程——提供训练样本、根据预期输出评估模型性能,以及通过迭代更新权重来提高性能——可能导致模型权重中包含训练样本中作品的副本。如果是这样,那么后续对模型权重的复制,即使是由未参与训练过程的一方进行,也可能构成版权初步侵权。

这上述三种情形中,前两种容易理解,第三种情形最难理解也最具争议。关于第三种情形是否构成版权初步侵权的讨论同时涉及复制权及演绎作品权(derivative work right)。

1.模型权重涉嫌构成复制权初步侵权

模型权重涉嫌构成复制权初步侵权的争议核心在于模型对训练样本的记忆程度。当特定模型能生成与训练样本完全或高度相似的副本,且副本中的表达并非来自外部提示等输入时,可推断该表达存在于模型权重中。举例而言,模型接收某一个提示词并输出图像,但该图像与训练样本中某一副图片几乎相同,那么该图像中的表达显然来自模型本身而非输入的提示词。此时,还需要判断是否满足版权初步侵权要素中的“复制”要素,即需考量是否满足“固定”和“能够借助机器或设备被感知、复制或以其他方式传播”两大要件[6]。由于模型权重本质上是一系列不会改变的数字(除非进行进一步训练),因此它们是固定的,且能通过软件生成展示其记忆的作品,符合可感知或复制的要求,因此在这种情况下,复制模型权重有理由被认为侵害相关训练样本的复制权。

2.模型权重涉嫌构成演绎作品权初步侵权

除了复制权外,有观点认为模型权重还涉嫌构成演绎作品权侵权,这一观点存在更大的争议。支持者认为模型权重能生成与训练样本高度相似的内容,必然是对原始训练样本的抽象或转换,侵害了原作品的演绎作品权;反对者则主张模型权重只是通过抽象学习规律而非存储原作,模型权重不包含训练样本,未侵害原作品的演绎作品权。

法院在不同案件中的判决体现出一致性原则,即模型权重是否涉嫌侵害演绎作品权,取决于模型是否保留或记忆了作品受保护的实质性表达:

(1) Kadrey v. Meta Platforms[7]法院认为关于 Llama模型构成侵权演绎作品的指控“荒谬”,原因是原告未指控模型能够“生成受保护作品的实际副本”或生成“足够相似以至于构成侵权演绎作品的输出”。

(2)Andersen v. Stability AI[8]该案中,法院驳回了未参与训练但使用模型的第三方关于驳回起诉的动议。法院认定有充分的指控证明作品副本或受保护要素以某种格式存在于模型内。因此,法院区分了本案与Kadrey v. Meta Platforms案,理由是“关于模型训练和操作的必要指控在实质上不同”。[9]

值得一提的是,美国版权局也同意这一区分。其认为模型权重是否侵害复制权或演绎作品权,取决于模型是否保留或记忆了所涉作品受保护的实质性表达。

(三)检索增强生成(RAG)

检索增强生成(Retrieval-Augmented Generation,RAG)是一类结合检索与生成能力的人工智能技术框架,广泛应用于问答系统、文档摘要、助理工具等场景。其基本机制是:在模型生成回答前,系统会首先根据用户的输入,从一个知识库或外部信息源中检索相关文档或片段,再将这些内容与用户问题一并提供给模型,用于生成更准确和基于事实的响应。

RAG同样涉及对受版权保护作品的复制,其通常有两种操作方式:

(1)人工智能开发者将材料复制到检索数据库中,生成式AI系统随后可以访问该数据库检索材料,并将其与用户提示词一起提供给模型。

(2)系统从外部来源(例如搜索引擎或特定网站)检索材料。这两种方式在生成内容时均会复制检索到的内容以增强响应,构成初步侵权。

(四)输出(Outputs)

生成式AI模型有时会输出与受版权保护作品相同或高度相似的输出结果。在实际应用中,用户已证明生成式AI可以生成与电影静止画面几乎完全相同的复制品[10]、受版权保护的角色[11]或新闻内容[12]。此类输出结果不仅可能侵害复制权,若涉及对原作的改编,还可能侵害演绎作品权。根据内容类型和受众,甚至可能侵害公开展示权和公开表演权。例如,将生成的侵权图像上传至网站展示,涉嫌侵害公开展示权;播放生成的与原电影片段相似的视频,涉嫌侵害公开表演权。

生成式人工智能与版权法的碰撞,本质是技术革命与制度滞后之间的必然矛盾。美国版权局的这份报告为我们理解生成式AI训练模型中的版权初步侵权认定问题提供了重要参考,更是一次有益的尝试。正是因为存在构成版权初步侵权的风险,合理使用、获得许可等抗辩理由能否成立,也一并成为了判定生成式AI训练模型版权纠纷最终走向的关键,《第三部分:生成式AI训练(预报告)》也围绕这些问题展开了大量的讨论(请参考报告第四章合理使用(FAIR USE)、第五章AI训练许可(LICENSING FOR AI TRAINING))。随着 AI技术的迭代与法律实践的丰富,我们有理由期待,未来将找到一条既能激发创新活力,又能充分保护版权权益的平衡之路,让技术与法律在碰撞中共同推动社会进步。

脚注:

[1] https://www.copyright.gov/policy/artificial-intelligence/

[2] 17 U.S.C. § 106

[3] Feist Publ’ns, Inc. v. Rural Tel. Serv. Co., 499 U.S. 340, 361 (1991). See also 17 U.S.C. § 501(a). “The word ‘copying’ is shorthand for the infringing of any of the copyright owner’s five exclusive rights, described at 17 U.S.C. § 106.” S.O.S., Inc. v. Payday, Inc., 886 F.2d 1081, 1085 n.3 (9th Cir. 1989).

[4] See, e.g., Anthropic Initial Comments at 5; OpenAI Initial Comments at 5. “Publicly available” is not synonymous with “authorized.” It may simply be used to mean “available on the internet.” GenLaw Participants Initial Comments at 44–45; IBM RESEARCH, GRANITE FOUNDATION MODELS 2 (2024)

[5] “Retention practices vary among AI developers. Some will delete the training sets used in their AI models, while some will store them. However, retention policies do not actually have much bearing on copyright infringement. The right of reproduction may be violated regardless of whether a work is retained or stored.”

[6] 17 U.S.C. § 101

[7] Kadrey v. Meta Platforms, Inc., No. 23-cv-3417, 2023 WL 8039640, at *1 (N.D. Cal. Nov. 20, 2023).

[8] Andersen v. Stability AI Ltd., 744 F. Supp. 3d 956, 982–84 (N.D. Cal. 2024).

[9] “Necessary allegations regarding the products’ training and operations, [were] materially different.” Andersen, 744 F. Supp. 3d at 975 n.16.

[10] Gary Marcus & Reid Southern, Generative AI Has a Visual Plagiarism Problem, IEEE SPECTRUM (Jan. 6, 2024), https://spectrum.ieee.org/midjourneycopyright

[11] Matthew Sag, Copyright Safety for Generative AI, 61 HOUS. L. REV. 295, 327–37 (2023) (describing the “Snoopy problem”); Gary Marcus & Reid Southern, Generative AI Has a Visual Plagiarism Problem, IEEE SPECTRUM (Jan. 6, 2024), https://spectrum.ieee.org/midjourney-copyright

[12] First Am. Compl. at 29–47, New York Times Co. v. Microsoft Corp., No. 23-cv-11195 (S.D.N.Y. Aug. 12, 2024), ECF No. 170; see also Compl. at 25–27, 30, Dow Jones & Co., Inc. v. Perplexity AI, Inc., No. 24-cv-7984 (S.D.N.Y. Oct. 21, 2024), ECF No. 1 (displaying examples of verbatim and detailed summary text outputs from The Wall Street Journal and New York Post)

(原标题:生成式AI训练模型中版权初步侵权的认定——美国版权局《版权与人工智能报告》之《第三部分:生成式AI训练(预报告)》核心要点解读)

来源:金杜研究院,https://www.kwm.com/cn/zh/home.html

作者:

  • 矫鸿彬,金杜律师事务所、合伙人、知识产权部,业务领域:知识产权诉讼,联系方式: jiaohongbin@cn.kwm.com
  • 刘宇欣,金杜律师事务所、资深律师、知识产权部
  • 蔡超静,金杜律师事务所、主办律师、知识产权部

特别声明:本篇文章的所有内容仅供参考与交流,不代表金杜律师事务所的法律意见以及对法律的解读。

免责声明及版权等信息,请查看此处

电话咨询

在线咨询

留言咨询