宋海燕:欧盟AI模型训练数据透明度规定最新落地——浅析欧盟与美国立法动态_贸法通

宋海燕:欧盟AI模型训练数据透明度规定最新落地——浅析欧盟与美国立法动态

发布日期:2025-08-25
字体:
分享到:
文章二维码

微信扫一扫

2025年8月7日,在欧盟AI模型训练数据透明度新规正式生效仅5天后,OpenAI高调推出其备受瞩目的最新模型 GPT‑5。与GPT‑4一样,OpenAI再次对训练数据的来源含混其词。[1]这不禁令人好奇:OpenAI是否会在新规的最后履行期限前,被迫揭开训练数据的“面纱”?

2025年8月2日,欧盟《人工智能法案》(AI Act)中关于通用人工智能模型训练数据透明度的第53(1)(d)条条款正式生效。其配套的《通用人工智能模型训练内容公开摘要模版》(Template for the Public Summary of Training Content for General-Purpose AI models,下称“《公开摘要模版》”)也同时启用,首次要求将模型投放欧盟市场的通用人工智能模型提供者(providers of general-purpose AI models)通过填写并公开摘要模版,披露AI模型训练数据的来源、处理方式等核心信息,否则可能面临高额罚款。

长期以来,许多企业将AI模型的训练数据来源视为最高机密,外界难以窥见其全貌。而新法规正式将AI模型训练数据的透明度纳入监管范围,这为溯源训练数据中的版权作品提供了可操作的入口。众所周知,如果权利人或监管机构无法有效判断版权作品是否被用于训练AI,他们将难以对版权侵权行为进行监督和维权。此外,AI模型训练数据透明度的规定还能够提高训练数据的质量,减少AI的其他风险。鉴于此,许多国家和地区已开始探索将AI模型训练数据的透明度设定为法定义务。本团队此前在《浅析AI训练数据中著作权人的选择退出(Opt-Out)机制》一文中曾简要探讨过AI模型训练数据透明度的问题。本文将进一步深入,从此次欧盟最新公开的《公开摘要模版》出发,重点梳理欧盟通用人工智能模型训练数据透明度的相关规定,并同时简略介绍美国联邦和美国加州的最新立法动态,以供读者参考。

一、欧盟规定

欧盟《人工智能法案》及配套的《公开摘要模版》和《通用人工智能行为准则》(General-Purpose AI Code of Practice)对AI模型训练数据透明度进行了相应的规定。本部分将重点介绍上述文件中训练数据“向谁公开”、数据信息的公开方式、违规的法律责任,以及需要公开的具体事项等规定。

(一)欧盟:法律依据、公开方式与法律责任

1、欧盟AI模型训练数据透明度规定的两个层次

就训练数据信息应该“向谁公开”的问题,欧盟《人工智能法案》规定:通用AI模型(包括开源模型[2])的提供者(下称“AI模型提供者”)既需要向“特定主体”公开,也需要向“全体公众”公开。

  • 向特定主体公开:首先,欧盟《人工智能法案》第53(1)(a)条和第53(1)(b)条规定,AI模型提供者应将数据信息向欧盟AI办公室、其国家主管部门以及有意将通用AI模型集成到其AI系统的提供商公开,但上述信息无需向普通公众公开。[3]为辅助AI模型提供者履行上述条款设置的义务,欧盟《通用人工智能行为准则》提供了一份《模型记录表格》(Model Documentation Form),可作为训练数据信息的公开模版。不过,该表格的使用不具有强制性。这项向特定主体公开其训练数据的透明度义务旨在促进AI的以人为本和可信赖性,防止AI的有害影响,而并不专门针对版权保护。[4]

图1 《模型记录表格》中的训练数据信息公开模版

  • 向全体公众公开:此外,欧盟《人工智能法案》第53(1)(d)条规定,AI模型提供者应当同时依照欧盟AI办公室提供的《公开摘要模版》,编写并公开一份关于用于训练该通用人工智能模型的内容的“充分详细的摘要”(sufficiently detailed summary)(下称“摘要”)。[5]这一规定的主要目的是保护训练数据中受版权保护的作品。[6] 该模版的使用具有强制性。[7]

因为《人工智能法案》第53(1)(d)条强制要求AI模型提供者使用《公开摘要模版》向全体公众公开训练数据信息,该模版也对如何公开摘要、违规的法律责任、需要公开的内容做出了具体规定,下文将对此展开讨论并阐述相关争议。

2、向全体公众公开:摘要的公开方式和违规的法律责任

《公开摘要模版》对摘要的公开渠道、公开时间以及违规后的法律责任作出了详细规定,但这些安排的实际效果仍存争议。

在公开方式方面,摘要应同时发布于AI模型提供者的官方网站和模型的公共分发渠道(例如在线平台)。其公开时间为该模型投放欧盟市场前。对于在法规生效日期(2025年8月2日)前投放的模型,AI模型提供者享有两年宽限期[8],即应在2027年8月2日前公开其摘要。[9]

在法律责任方面,欧盟AI办公室对摘要的填写和公开义务有监督权和执法权,执法将于2026年8月2日正式启动。欧盟AI办公室可要求AI模型提供者采取改正措施,并对不合规者处以最高为上一财年全球营业额的3%或1500万欧元(以较高者为准)的罚款。[10]

然而,有观点质疑上述监督和执法措施的力度是否足以充分保护权利人利益。首先,欧盟AI办公室明确表示对AI模型提供者公布的摘要不会逐一评估(work-by-work assessment)或对照训练数据一一核对。[11]其次,欧盟AI办公室未明确表示会处理AI模型提供者和利益相关方之间关于摘要的具体纠纷,而是鼓励双方优先采用调解等替代性争议解决机制(alternative dispute resolution),或者采取欧盟和国内法所规定的其他救济措施。[12]最后,欧盟AI办公室的执法启动时间比相关透明度义务条款的正式生效时间晚整整一年。这导致在此一年的“窗口期”内,即使AI模型提供者将模型投入欧盟市场而未按规定公开摘要,也无需立即承担违规后果。[13]

(二)欧盟:摘要的具体公开事项

《公开摘要模版》详细规定了AI模型提供者需要公开的事项,并将其分为三个部分:基本信息(General information)、数据处理相关信息(Relevant data processing aspects),以及数据来源的清单(List of data sources),下面将逐一阐述。

  • 公开“基本信息” [14]:AI模型提供者须公开数据在宏观层面的总体信息,包括模型提供者及模型的身份识别信息、数据的“模态”(“modality”,可勾选文本、图像、音频、视频或其他)、数据规模和内容类型(例如小说文本、电影、有声书等),以及其他数据总体特征(如获取或收集数据的截止日期、训练数据的语言特征等)。

图2 《公开摘要模版》“基本信息”部分要求提供的数据模态、规模和内容类型

  • 公开“数据处理相关信息”[15]:同时,AI模型提供者需要公开为保护版权和移除非法信息所采取的处理措施,譬如:是否签署了《通用人工智能行为准则》,并承诺在文本与数据挖掘(TDM)例外或限制情况下尊重权利人的权利保留。是否为尊重权利人的权利保留采取了相关措施,例如设置的“选择-退出”(Opt-out)机制。是否设置了移除非法信息(illegal information)的措施。非法信息包括儿童性虐待材料、恐怖主义内容、未经授权的受知识产权保护的材料等。
  • 公开“数据来源清单”[16]:《公开摘要模版》将数据来源分为六类,具体定义如下:

(1)公共数据集(Publicly available datasets),指由第三方汇编、可免费公开获取和下载的数据集。

(2)从第三方获取的非公开私有数据集(Private non-publicly available datasets obtained from third parties),指AI模型提供者从第三方获取的、非公开的、私有的数据集。

(3)从网络爬取或抓取的数据(下称“网络爬取数据”)(Data crawled and scraped from online sources),指AI模型提供者通过网络爬取、抓取或以其他方式汇编的在线来源数据。

(4)用户数据(User data),指AI模型提供者通过服务和产品收集的用户数据,或在用户与其 AI 模型/系统互动过程中产生的数据。

(5)合成数据(Synthetic data),指AI模型提供者利用另一AI 模型生成的数据。

(6)其他来源的数据(Other sources of data),指不属于上述来源的数据,如线下收集的数据、自主数字化内容(“self-digitised media”,如扫描的纸质文本与图片)等。

针对不同的数据来源,《公开摘要模版》要求AI模型提供者公开的事项有所异同。在共性的要求方面,AI模型提供者需要公开数据的模态,并可自行选择公开规定事项外的相关信息。在差异化的要求方面,《公开摘要模版》要求AI模型提供者公开:

  • 部分数据集的可识别特征(identifier)/名称与链接;
  • 网络爬取数据的部分域名、所使用的爬虫工具的名称/可识别特征(crawler name/identifier)、对爬取过程的一般性描述(例如爬取时涉及验证码、robots.txt文件的情况);
  • 用于收集用户数据的服务或产品;
  • 用于生成合成数据的模型的名称和该模型的训练数据摘要链接,等等。

下文将重点讨论“数据集的可识别特征(identifier)/名称与链接”以及“网络爬取数据的域名”这两项公开事项,因为它们和溯源训练数据中的版权作品关系密切,且判断哪些数据集需要公开这两项事项的标准相对复杂,因而引发了一定争议和讨论。

1、数据集的可识别特征(identifier)/名称与链接

对于公共数据集和从第三方获取的非公开私有数据集(下称“第三方非公开数据集”),在符合特定条件时,AI模型提供者需要公开上述数据集的可识别特征(identifier)[17]/名称与链接,这些限定条件体现了规则设计者平衡企业商业利益的考量。

  • 对于公共数据集而言,《公开摘要模版》要求AI模型提供者公开“大型数据集”(large datasets)的可识别特征/名称与链接;若无链接,则须提供对数据集的一般性描述。具体而言,如果一个公共数据集某一模态的数据总量占所有公共数据集该模态数据总量的3%以上,就属于“大型数据集”。[18]
  • 对于第三方非公开数据集而言,如果AI模型提供者未与权利人或其代表签订交易性商业许可协议(transactional commercial licensing agreements),而是通过数据中介机构、非公开数据库以及第三方私有渠道获取其使用权,则必须公开“公众所知的数据集”(publicly known datasets)中“主要数据集” [19](main datasets)的可识别特征/名称与链接。[20]

可见针对此项公开事项,AI模型提供者针对不同类型的数据集需要披露的程度不同,体现了规则设计者保护企业商业秘密、商业机密的考量。具体而言,一般只有当数据集具有“公开属性”(public nature)时,即属于公共数据集,或者属于“为公众所知的数据集” (例如公众可以通过公开渠道了解该数据集的存在[21]),AI模型提供者才有可能需要公开该数据集的可识别特征/名称与链接。这背后的考量是,要求AI模型提供者披露已经具有公开属性的数据集信息,商业秘密泄露风险较小。[22]

值得一提的是,《公开摘要模版》试图保护企业商业秘密的规则设计得到了AI企业的支持,但遭到部分支持加强AI监管评论者的反对。AI企业认为,高质量的训练数据集的收集和整理成本高昂,是企业的宝贵资源。因此,如果企业公开尚不为人知的数据信息,可能泄露其商业秘密和商业机密信息,削弱企业竞争力。[23]支持加强AI监管的观点则认为,规则设计者试图保护企业的商业秘密会导致信息披露程度的降低,从而加大权利人溯源版权作品的难度,不利于版权保护。[24]

2、网络爬取数据的域名

除了数据集的可识别特征/名称与链接,《公开摘要模版》还要求AI模型提供者公开网络爬取数据中一定比例的、“最相关”的域名(“domain names”,如example.com),但相关规定的表述存在模糊之处。

《公开摘要模版》对所需公开的域名在数量和范围上进行了限定,并鼓励AI模型提供者根据权利人申请提供额外域名信息。具体而言,AI模型提供者必须按照网络爬取数据的规模,列出数据量前10%的“最相关”(most relevant)的域名,同时应尽量涵盖所有模态的代表性数据。而中小企业(包括初创公司)只需披露前5%的上述域名,且数量不超过1000个,这有利于减轻中小企业的合规负担。此外,欧盟AI办公室还建议,如果权利人怀疑其作品被爬取用于训练,但相关域名未列入摘要,可“基于申请”(upon-request)向AI模型提供者查询作品使用情况,而AI模型提供者应秉持自愿、善意原则予以回应。[25]

不过,上述规定因为表述上存在模糊性而受到一定批评。首先,《公开摘要模版》未能明确何为“最相关”的域名,有观点认为或许可以按照文件大小、token数量、对模型性能的影响等因素对相关性进行衡量。[26]其次,《公开摘要模版》同样未能明确的是,所谓“应尽量涵盖所有模态的代表性数据”,指的是AI模型提供者需要分别列举每类模态的网络爬取数据中规模前10%/5%的域名,还是不区分模态,只列举所有网络爬取数据中规模前10%/5%的域名。[27]

值得一提的是,AI模型提供者需要公开的是域名而非具体网址(URL),同样体现了规则设计者对企业商业秘密的保护,因为具体网址相较域名的披露详细程度更高。[28]OpenAI就曾表示,若监管机构要求AI企业披露所使用数据的具体网址,会对商业机密保护构成重大风险。[29]

二、美国和欧盟对比

(一)美国联邦和加州规定

除了欧盟外,美国在训练数据透明度上亦进行了较多立法探索。考虑到近期美国已出现一些关于AI模型训练数据版权侵权的司法裁判(包括Bartz诉Anthropic案[30]和Kadrey诉Meta案[31]的判决),且还有众多待裁定的案件,这些立法尝试对权利人的维权(例如在法庭上的举证)具有现实意义。

在联邦层面,美国已有两部相关立法草案,分别为AI Foundation Model Transparency Act of 2023[32](下称“Act of 2023”)和Generative AI Copyright Disclosure Act of 2024[33](下称“Act of 2024”)。

此外,在州级层面,加州已经通过了关于AI模型训练数据透明度的法案California Assembly Bill No. 2013[34](下称“AB 2013”),将于2026年1月1日生效。同时,加州还有立法草案California Assembly Bill No. 412[35](下称“AB 412”),该草案重点关注训练数据中版权内容的透明度问题,且已通过加州众议院审议,待加州参议院审议。

(二)美国联邦和加州规定VS欧盟规定

为了梳理欧盟、美国联邦、美国加州AI训练数据透明度规定的异同,下面将重点从公开方式、公开内容和法律责任这三个方面进行比较。

1、公开方式和公开内容

在公开方式和公开内容方面,欧盟和美国规定的公开方式一般有义务主体(AI模型开发者、提供者等)自行公开和通过官方渠道公开两种,要求公开的内容则各有不同。

欧盟《人工智能法案》第53(1)(d)条要求AI模型提供者将摘要向全体公众公开,并有《公开摘要模版》详细列举应公开的事项。

与之相比,美国联邦的立法提案强调由官方渠道公开数据信息。Act of 2023提出 “AI基础模型[36]提供者”(covered entity that provides foundation model)除了将数据信息公开于自己的网站,还需同时提交给联邦贸易委员会(FTC),并公开于FTC建立的网站。[37]AI基础模型提供者需要公开的具体内容可能包括训练数据的来源(如版权人或数据许可持有人维权所需的信息)、数据处理方式等。[38]而Act of 2024则更加聚焦于对版权作品信息的公开,提出“创造或修改生成式AI模型训练数据集的人”(person who creates a training dataset, or alters a training dataset)需向美国版权局局长(Register of Copyrights)提交所使用版权作品“充分详细的摘要”(sufficiently detailed summary)以及链接(如有)。摘要和链接会发布于版权局局长建立和维护的公开在线数据库。[39] 

加州的规定则要求义务主体自行公开数据信息。AB 2013要求“生成式AI系统或服务的开发者”(developer of generative artificial intelligence system or service)每次向加州居民提供生成式AI系统或服务前,在自己的网站上向加州公众(Californian)公开训练数据相关信息,需公开信息中和版权保护最直接相关的包括数据集来源或所有者、数据集是否包含受知识产权保护的内容,以及数据集是否由开发者购买或已获得授权。[40]与之相比,AB 412草案对版权保护的针对性更强。根据该草案,“生成式AI模型开发者”(developer of a generative artificial intelligence model)必须建立可公开访问的系统,供版权人提交身份证明等材料,以申请查询数据。开发者验证通过后,需在一定期限内核查相应版权作品是否被用于训练,并向版权人提供所使用版权作品的清单。[41]

2、法律责任

在法律责任方面,欧盟和美国联邦的规定主要依赖官方执法机构来保障规则落实,加州的规定则更依赖个人救济。

在欧盟,欧盟AI办公室负责监督《公开摘要模版》的填写与公开,对于违规者可以处以罚款。在美国联邦的立法提案中,Act of 2023与欧盟规定一样以官方机构作为监督和执法机关,提出FTC针对违规行为可调查、起诉并发出禁令。[42]Act of 2024未明确监督和执法机关,但提出对违规行为应处以不少于5000美元的民事罚款(Civil Penalty)。[43]

美国加州的规定则依赖于个人主张救济。AB 2013未明确规定执法机制,但理论上权利人可以通过提起民事诉讼主张法律救济。该法案也可能会依赖加州反不正当竞争法进行执行。[44]AB 412草案则提出,权利人如果已按规定提交访问数据的申请,而未获得相应信息,可以通过民事诉讼主张损害赔偿等救济。[45]

三、结语

除了欧盟和美国,我国在训练数据透明度的相关规定上亦有一定探索。

全国网络安全标准化技术委员会发布的《生成式人工智能服务安全基本要求》(TC260-003)提出,生成式人工智能服务提供者宜公开语料中涉及知识产权部分的摘要信息,并在投诉举报渠道中支持第三方就语料使用情况以及相关知识产权情况进行查询。[46]

《生成式人工智能服务管理暂行办法》亦指出,有关主管部门开展监督检查时,生成式人工智能服务提供者应当按要求对训练数据来源、规模、类型、标注规则、算法机制机理等予以说明,并提供必要的技术、数据等支持和协助。[47]

即将于2025年11月实施的国家标准《网络安全技术 生成式人工智能预训练和优化训练数据安全规范》(GB/T 45652-2025)要求,生成式人工智能服务提供者对多轮迭代的优化训练数据,应记录并公开历史版本的优化时间、优化内容等信息[48];而对于从外部数据源收集的预训练数据,应记录数据收集所涉及的数据来源,但并未要求将此信息公开。[49]

训练数据透明度义务对企业合规提出新的要求,可能包括实施新的数据治理框架、持续记录训练数据信息、建立数据信息的公开机制等。同时,在加强人工智能治理的背景下,可以想见未来各国可能继续出台其他数据透明度规定,需要企业持续关注。

脚注:

[1] GPT-5 System Card,https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf,2025年8月13日最后访问。

[2] Explanatory Notice and Template for the Public Summary of Training Content for general-purpose AI models (PDF)第(3)条,参见:https://digital-strategy.ec.europa.eu/en/library/explanatory-notice-and-template-public-summary-training-content-general-purpose-ai-models,2025年8月18日最后访问。

[3] 欧盟AI Act第53条,参见:https://artificialintelligenceact.eu/the-act/

[4] The General-Purpose AI Code of Practice,参见:https://digital-strategy.ec.europa.eu/en/policies/contents-code-gpai,2025年8月13日最后访问。

[5] 欧盟AI Act第53(1)(d)条,参见:https://artificialintelligenceact.eu/the-act/

[6] Explanatory Notice and Template for the Public Summary of Training Content for general-purpose AI models (PDF)第(7)条,参见:https://digital-strategy.ec.europa.eu/en/library/explanatory-notice-and-template-public-summary-training-content-general-purpose-ai-models,2025年8月13日最后访问。

[7] Questions & Answers - Template for general-purpose AI model providers to summarise their training content,参见:https://digital-strategy.ec.europa.eu/en/policies/contents-code-gpai,2025年8月18日最后访问。

[8] 欧洲非盈利组织Open Future评论《公开摘要模版》的文章“A Step Forward, But Not Far Enough: the EU’s AI Transparency Template”指出,这两年的宽限期不利于保护权利人,因为目前在市场中占据主导地位的GPT-4、Claude、Gemini等通用AI均是在法规生效前投入欧盟市场的。参见:https://openfuture.eu/blog/a-step-forward-but-not-far-enough-the-eus-ai-transparency-template/,2025年8月20日最后访问。

[9] Explanatory Notice and Template for the Public Summary of Training Content for general-purpose AI models (PDF)第(23)条,参见:https://digital-strategy.ec.europa.eu/en/library/explanatory-notice-and-template-public-summary-training-content-general-purpose-ai-models,2025年8月13日最后访问。

[10] Explanatory Notice and Template for the Public Summary of Training Content for general-purpose AI models (PDF)第(26)条,参见:https://digital-strategy.ec.europa.eu/en/library/explanatory-notice-and-template-public-summary-training-content-general-purpose-ai-models,2025年8月13日最后访问。

[11] 参见前注[10]。

[12] Explanatory Notice and Template for the Public Summary of Training Content for general-purpose AI models (PDF)第(27)条,参见:https://digital-strategy.ec.europa.eu/en/library/explanatory-notice-and-template-public-summary-training-content-general-purpose-ai-models,2025年8月13日最后访问。

[13] A Step Forward, But Not Far Enough: the EU’s AI Transparency Template,参见:https://openfuture.eu/blog/a-step-forward-but-not-far-enough-the-eus-ai-transparency-template/,2025年8月20日最后访问。

[14] 本部分内容英文原文参见Template for the Public Summary of Training Content for General-Purpose AI models (DOC) “1. General information”,参见:https://digital-strategy.ec.europa.eu/en/library/explanatory-notice-and-template-public-summary-training-content-general-purpose-ai-models,2025年8月13日最后访问。

[15] 本部分内容英文原文参见Template for the Public Summary of Training Content for General-Purpose AI models (DOC) “3.Data processing aspects”,参见:https://digital-strategy.ec.europa.eu/en/library/explanatory-notice-and-template-public-summary-training-content-general-purpose-ai-models,2025年8月13日最后访问。

[16] 本部分内容英文原文参见Template for the Public Summary of Training Content for General-Purpose AI models (DOC) “2. List of data sources”,参见:https://digital-strategy.ec.europa.eu/en/library/explanatory-notice-and-template-public-summary-training-content-general-purpose-ai-models,2025年8月13日最后访问。

[17] 《公开摘要模版》和《人工智能法案》对于可识别特征(identifier)并没有给出明确的定义或者示例,不过可识别特征可能包括数据集的名称/链接、该数据集所属数据集合的名称及其网址。见欧洲非盈利组织Open Future发布的《对<人工智能法案>关于通用AI训练数据透明度要求的实施方案提案》 (“A proposal for implementing the AI Act’s training data transparency requirement for GPAI”)第2.7条,参见:https://openfuture.eu/wp-content/uploads/2024/06/240618AIAtransparency_template_requirements-2.pdf,2025年8月20日最后访问。

[18] 本部分内容英文原文参见Template for the Public Summary of Training Content for General-Purpose AI models (DOC) “2.1 Publicly available datasets”,参见:https://digital-strategy.ec.europa.eu/en/library/explanatory-notice-and-template-public-summary-training-content-general-purpose-ai-models,2025年8月13日最后访问。

[19] 《公开摘要模版》对于“公众所知的数据集”和“主要数据集”没有明确界定,因此该规定因表述的模糊性受到批评。上述观点见Matt Hervey(人工智能与知识产权专家,世界知识产权组织高级顾问)2025年8月在社交媒体的公开表态,参见:https://www.linkedin.com/posts/matt-hervey_the-eus-summary-of-training-content-for-activity-7355620736423649281-Q3QS?utm_medium=ios_app&rcm=ACoAAAkHXocBAZgb2lz1955S67wA8Fj0Ip4b4Yw&utm_source=social_share_send&utm_campaign=share_via, 2025年8月18日最后访问。

[20] 本部分内容英文原文参见Template for the Public Summary of Training Content for General-Purpose AI models (DOC) “2.2.2 Private datasets obtained from other third parties”,参见:https://digital-strategy.ec.europa.eu/en/library/explanatory-notice-and-template-public-summary-training-content-general-purpose-ai-models,2025年8月13日最后访问。

[21] 所谓“为公众所知”的第三方非公开数据集,指的可能是公众虽然可以通过网页、论文等公开渠道了解该数据集的存在,但并不能免费或无条件使用的数据集。上述观点见Matt Hervey(人工智能与知识产权专家,世界知识产权组织高级顾问)2025年8月在社交媒体的公开表态,参见:https://www.linkedin.com/posts/matt-hervey_the-eus-summary-of-training-content-for-activity-7355620736423649281-Q3QS?utm_medium=ios_app&rcm=ACoAAAkHXocBAZgb2lz1955S67wA8Fj0Ip4b4Yw&utm_source=social_share_send&utm_campaign=share_via,2025年8月13日最后访问。

[22] Explanatory Notice and Template for the Public Summary of Training Content for general-purpose AI models (PDF)第(19)条,参见:https://digital-strategy.ec.europa.eu/en/library/explanatory-notice-and-template-public-summary-training-content-general-purpose-ai-models,2025年8月13日最后访问。

[23] 见OpenAI 对英国政府AI与版权意见问询的回复,参见:https://cdn.openai.com/global-affairs/b89a7434-7cb9-47a7-b4a7-b50b1a1a0afc/openai-uk-ai-and-copyright-consultation.pdf,2025年8月13日最后访问。

[24] 见欧洲议会报告“Generative AI and Copyright”第85页,参见:https://www.europarl.europa.eu/thinktank/en/document/IUST_STU(2025)774095

[25] Explanatory Notice and Template for the Public Summary of Training Content for general-purpose AI models (PDF)第(16)条,参见:https://digital-strategy.ec.europa.eu/en/library/explanatory-notice-and-template-public-summary-training-content-general-purpose-ai-models,2025年8月13日最后访问。

[26] 参见前注[13]。

[27] 参见前注[13]。

[28] Addressing GDPR’s Shortcomings in AI Training Data Transparency with the AI Act,参见:https://www.techpolicy.press/addressing-gdprs-shortcomings-in-ai-training-data-transparency-with-the-ai-act/?utm_ ,2025年8月13日最后访问。另外,该文作者律师和法律研究者Ameneh Dehshiri在文章中指出,虽然要求公开域名在一定程度上信息披露程度更低,但仍有助于权利人推断相关内容的被使用情况。例如,如果摘要将x.com(原Twitter)列为2021到2023年期间的主要数据来源,那么在此期间活跃的Twitter用户就可以合理怀疑其帖子曾被用于训练。

[29] 参见前注[23]。

[30] Bartz v. Anthropic PBC, 3:24-cv-05417, (N.D. Cal.), 参见:https://www.courtlistener.com/docket/69058235/bartz-v-anthropic-pbc/,2025年8月18日最后访问。

[31] Kadrey v. Meta Platforms, Inc.,3:23-cv-03417,(N.D. Cal.),参见:https://www.courtlistener.com/docket/67569326/kadrey-v-meta-platforms-inc/,2025年8月18日最后访问。

[32] AI Foundation Model Transparency Act of 2023,参见:https://www.congress.gov/bill/118th-congress/house-bill/6881/text,2025年8月13日最后访问。

[33] Generative AI Copyright Disclosure Act of 2024,参见:https://www.congress.gov/bill/118th-congress/house-bill/7913/text,2025年8月13日最后访问。

[34] California Assembly Bill No. 2013,参见:https://legiscan.com/CA/text/AB2013/id/3023192,2025年8月13日最后访问。

[35] California Assembly Bill No. 412,参见:https://legiscan.com/CA/text/AB412/2025 ,2025年8月13日最后访问。

[36] AI基础模型指基于广泛数据进行训练、通常采用自监督学习、包含至少10亿参数、可适用于广泛情境,并在可能对安全、国家经济安全或公共健康构成严重风险的任务中表现出高性能或可通过轻微修改达到高性能的人工智能模型,见AI Foundation Model Transparency Act第(m)(4) (A)条,参见:https://www.congress.gov/bill/118th-congress/house-bill/6881/text,2025年8月13日最后访问。

[37] AI Foundation Model Transparency Act of 2023 SEC.3. (d)和SEC.3. (f),参见:https://www.congress.gov/bill/118th-congress/house-bill/6881/text,2025年8月13日最后访问。

[38] AI Foundation Model Transparency Act SEC.3 (f) ,参见:https://www.congress.gov/bill/118th-congress/house-bill/6881/text,2025年8月18日最后访问。

[39] Generative AI Copyright Disclosure Act article SEC. 2. (a)和 SEC. 2. (c),参见:https://www.congress.gov/bill/118th-congress/house-bill/7913/text,2025年8月13日最后访问。

[40] California Assembly Bill No. 2013第3111条,参见:https://legiscan.com/CA/text/AB2013/id/3023192,2025年8月13日最后访问。

[41] California Assembly Bill No. 412第3116(c) (1)条和第3117(a)(2)条,参见:https://legiscan.com/CA/text/AB412/2025,2025年8月13日最后访问。

[42] AI Foundation Model Transparency Act SEC.3. (j)(1) ,参见:https://www.congress.gov/bill/118th-congress/house-bill/6881/text,2025年8月13日最后访问;15 U.S. Code § 45 - Unfair methods of competition unlawful; prevention by Commission,参见https://www.law.cornell.edu/uscode/text/15/45?utm_,2025年8月13日最后访问。

[43] Generative AI Copyright Disclosure Act SEC.3. (b) ,参见:https://www.congress.gov/bill/118th-congress/house-bill/7913/text,2025年8月13日最后访问。

[44] Assembly Bill Policy Committee Analysis “Opposition claim #4”,参见:https://apcp.assembly.ca.gov/system/files/2024-04/ab-2013-irwin-apcp-analysis.pdf,2025年8月13日最后访问。

[45] California Assembly Bill No. 412第3119条,参见:https://legiscan.com/CA/text/AB412/2025 ,2025年8月13日最后访问。

[46] 《生成式人工智能服务安全基本要求》(TC260-003)第5.2 (6)条,参见:https://www.tc260.org.cn/front/postDetail.html?id=20240301164054,2025年8月13日最后访问。

[47] 《生成式人工智能服务管理暂行办法》第19条,参见:https://fgw.sh.gov.cn/cmsres/17/178abb4ba3ea47418032d3dda62792c1/1af920f35823ecd5df559a7ced014751.pdf,2025年8月13日最后访问。

[48] 《网络安全技术 生成式人工智能预训练和优化训练数据安全规范》(GB/T 45652-2025)第6.1(c)(3)条,参见:https://openstd.samr.gov.cn/bzgk/std/newGbInfo?hcno=82710B59110419C285BDC48AB4D7D1F3,2025年8月19日最后访问。

[49] 《网络安全技术 生成式人工智能预训练和优化训练数据安全规范》(GB/T 45652-2025)第5.1(d)条,参见:https://openstd.samr.gov.cn/bzgk/std/newGbInfo?hcno=82710B59110419C285BDC48AB4D7D1F3,2025年8月19日最后访问。

来源:金杜研究院,https://www.kwm.com/cn/zh/home.html

作者:宋海燕,金杜律师事务所国际合伙人,知识产权部;业务领域:人工智能,跨国知识产权法及娱乐法,主要聚焦于传媒、娱乐、体育与高科技行业;联系方式:seagull.song@cn.kwm.com

感谢王默、黄娇娜和实习生唐畅对本文作出的贡献。

特别声明:本篇文章的所有内容仅供参考与交流,不代表金杜律师事务所的法律意见以及对法律的解读。

免责声明及版权等信息,请查看此处

电话咨询

在线咨询

留言咨询