检索增强生成(RAG)的版权新关注
一、AIGC 迎来2.0阶段:检索增强生成
2025年5月与7月,亚马逊先后与《纽约时报》以及赫斯特、康泰纳仕等传媒集团达成合作,使得旗下AI产品可以实时展示《纽约时报》的摘要和片段等。 1 亚马逊与《纽约时报》的合作令业界颇感意外。因为《纽约时报》此前对于AI版权问题一直持强硬态 度,2023年12月便以侵犯版权为由将OpenAI诉至美国纽约南区法院,也成为了全美第一家公开起诉大模型厂商的主流媒体。2
值得关注,OpenAI也在2025年4月宣布与《华盛顿邮报》的合作。ChatGPT的输出内容由此能够嵌入《华盛顿邮报》的文章摘要和原始报道链接。OpenAI表示,这只是其与20多家出版商合作中的一个缩影——因为他们有着共同的承诺,即让用户获得更加可靠、真实的信息,特别是在高复杂性和时效性的话题上。3
OpenAI官网显示的合作版权方
域外大模型厂商与新闻出版机构的合作,折射出生成式人工智能领域的一个显著演进趋势:即从此前“AIGC1.0阶段”单纯依靠“模型训练”(预训练、微调等)获得的参数能力,随机生成用户问题答案;转向当下“AIGC2.0阶段”通过整合嵌入第三方权威来源信息,来提升最终生成内容的准确性、时效性和专业性。
技术层面,这被称为“检索增强生成”(Retrieval-Augmented Generation,简称RAG),本质上是“语言生成模型” 与“信息检索技术”的整合。 2025年以来,国内大模型厂商纷纷增加了检索增强生成功能——即目前用户在使用过程中所感知到的,在获得大模型反馈结果前,都会先经历“参考资料检索”的过程,并且收到的最终内容整合结果都会附带“信息出处来源”。
二、“检索增强生成”为何会崛起?
“检索增强生成”最早由Facebook AI Research团队在2020年发表的《用于知识密集型自然语言处理任务的检索增强生成》一文中提出。检索增强生成强调,将预训练模型的内部知识存储(参数记忆)与外部知识库检索(非参数记忆)相结合,来解决传统大模型内容生成的固有缺陷——“模型幻觉”和“时效断层”。
一个基本共识是,大模型常面临“幻觉”问题,输出不可靠的信息,专注于“编好故事”而非“验证事实”。这也使得人们在很多严谨重要场景下,基于不信任,而放弃对大模型的使用。同时,人们也经常会在大模型用户协议中看到类似表述,“模型输出不一定总是准确的,……使用我们的服务可能会导致输出结果无法准确反映真实的人、地点或事实”。
早在2023年6月,ChatGPT便因为自身“幻觉”,编造了针对佐治亚州电台主持人Frederick Riehl“诈骗和挪用基金会资金”的虚假信息,也使得OpenAI第一次因诽谤被诉至法院。 4 2025年3月,针对OpenAI的幻觉问题,欧洲数字权利中心Noyb向挪威数据监管机构发起了投诉——认为ChatGPT生成不准确内容的行为,违反了GDPR第5(1)(d)中关于“个人数据准确性”的规则要求。 5
大模型反馈的答案内容仅限于训练时所依据的数据信息,所以存在“时效断层”的问题。人们常提到的“预训练”这个词,实际上也揭示了大模型是“预先训练好的”。一旦训练结束,大模型的整体参数便被固定下来,无法实现自动更新。这意味着,模型知识仅限于当时训练数据所涵盖的范围,如果训练数据没有包含最新的信息,大模型就无法生成相关的答案。例如,ChatGPT虽然是2022年11月发布的,但训练语料是截止到2021年9月;Gemini 2.0的发布时间是2024年12月,但训练语料是截止到2024年6月。
检索增强生成赋予了 大模型利用实时外部数据提供准确答案的能力,无需模型参数的重新训练,只需做好知识源的匹配更新即可。Facebook AI Research团队将检索增强生成形容为,“就像开卷考试一样,学生带着整理好的最全面的参考资料入场,结合自己已背诵的知识,回答试卷问题”。综上所述,实际也解释了开篇提到的大模型厂商与新闻机构积极建立内容合作的底层原因。
检索增强生成的整个过程可分为“数据检索收集”和“内容整合展示”两个阶段。第一阶段,大模型收到用户指令后,会将问题先进行语义处理,并在外部知识库中进行检索,知识库可能是事前建立的,也可能是实时全网搜索的结果。第二阶段,检索到的相关信息会被作为“增强上下文”一起发送给大模型。大模型则会利用这些强时效性的“增强提示”来生成最终回答。检索增强生成的运行过程,会涉及海量版权作品的收集和利用,目前国内外也已经出现了相关的版权争议纠纷。
三、“检索增强生成”的现实版权纠纷
早在2024年10月21日,美国便出现了首例针对“检索增强生成”的版权侵权诉讼——“道琼斯公司和纽约邮报控股公司诉Perplexity AI”案。被告Perplexity AI是一家2022年成立的AI初创公司,用户提问后,其将联网检索外部信息并回复摘要和网页链接。原告主张,被告通过检索工具爬取《华尔街日报》和《纽约邮报》数十万篇受版权保护的文章,并存入“检索增强生成”数据库中;然后根据用户的提问进行总结和改写,有时甚至逐字复制,使得用户不必点击原始新闻网站, 即可获取高质量的付费内容 ,这显然构成版权侵权。 6
2025年2月13日,《大西洋月刊》《卫报》等十四家全球头部新闻出版商于纽约南区联邦法院起诉加拿大AI公司Cohere,指控其依赖“检索增强生成”技术,通过“网络搜索连接器” (Web Search Connector) 实时搜索、筛选并抓取原告内容,在生成答案中直接输出原告版权作品的完整原文及替代性摘要,构成版权侵权。 7
同样,2025年4月3日,欧盟法院(CJEU)受理的第一起生成式人工智能版权案件,也是发生在检索增强生成领域。该案源于匈牙利布达佩斯法院在审的新闻商Like与谷歌Gemini大模型之间的版权争议。鉴于案件的复杂性,被提请至欧盟法院处理。从公开报道的事实来看,本案可以排除原告文章被Gemini加以语料训练的可能。实际上,Gemini通过检索增强生成获取到了与用户提问 (您能否用匈牙利语提供出现在balatonkornyeke.hu网站中关于“Kozsó计划将海豚引入巴拉顿湖中?”的报道内容) 高度相关的原告新闻,并实时生成摘要反馈给用户。原告指控谷歌侵犯了其享有的新闻出版商邻接权等。 8
国内在检索增强生成领域的行业纠纷也初见端倪。根据相关报道,2024年8月,知网向国内某AI检索平台发送了一封长达28页的侵权告知函,指控其在生成内容中未经许可使用了知网平台的内容数据。AI检索平台则主张其仅收录公开可见的学术文献题录与摘要,并未收录学术文献正文;用户阅读正文还是需要通过来源链接跳转至知网,因此并未造成损害。最终,AI检索平台表示经过多方考量平衡,决定尊重知网的意愿,不再引用。 9
四、“检索增强生成”涉及作品收集问题
在“数据检索收集”阶段,无论是事前建立离线数据库,还是实时在线爬取数据,均涉及将作品的部分或全部以特定方式存储在介质中。这便引发了版权法下关于复制权侵权判定的关注。数字环境下“复制权”的讨论,包括“长期复制”和“临时复制”两个问题。目前的共识是,未经授权的长期复制构成版权侵权;但对于临时复制的侵权认定在实践中仍存在争议。
数字环境下的“长期复制”,大致包括“将作品通过各种技术手段固定在硬盘、光盘等有形载体上”“将作品上传至网络服务器中”“将网络服务器中的作品下载至本地端”等情形。数字环境下的临时复制,是指在使用作品的过程中自动出现了作品的复制件,但该复制件不会长期存续,“用完即逝”。举例来讲,就是我们在线欣赏数字音乐时,服务器会首先读取歌曲信息并进行存储,才可以转化成数据加以传输播放;但播放结束、用户退出后,复制件又会随即消失。 10
在检索增强生成中,数据库的构建通常包括将外部作品转换为向量表示,进而加以本地化存储。进而根据用户提问,将相关信息有选择性地提供给大模型。与自动存储或浏览缓存不同,检索增强数据库的建立一般会对作品进行相对稳定的存储处理,存在构成长期复制的现实可能。在前述“道琼斯公司和纽约邮报控股公司诉Perplexity AI”案中,原告认为:“Perplexity AI在构建检索增强数据库时,未经授权复制其大量文章,这种在‘输入阶段’的大规模复制行为本身已构成版权侵犯,无论最终输出内容如何。” 11
在实时检索场景下,有观点认为,如果搜索引擎对信息的处理建立在“临时复制”的基础上,仅仅发挥“中心化信息管理员”或“互联网信息传播中介”的作用,用户点击搜索结果仍跳转至原始网站,则不构成侵权。欧盟知识产权局 (EUIPO) 2025年5月发布的《从版权视角看生成式人工智能的发展》指出,RAG在动态检索场景下通常仅临时保存内容,这更接近于文本与数据挖掘例外或临时复制的例外。 12 但这依然取决于大模型厂商的具体技术实现路径。若在实时检索后,选择将获取的内容同时进行本地化存储,则依旧存在被认定为“长期复制”的可能。
五、“检索增强生成”涉及技术保护问题
在检索增强生成中,若存在以绕过IP限制、破解动态加载限制等方式抓取版权作品的行为,则可能构成对《著作权法》“不得故意避开或破坏技术措施规定”的违反。我国现行《著作权法》对“技术措施”的定义是,“用于防止、限制未经权利人许可浏览、欣赏作品、表演、录音录像制品或者通过信息网络向公众提供作品、表演、录音录像制品的有效技术、装置或者部件”。
值得注意的是,“技术措施”并不是类似于复制权、信息网络传播权一样的版权具体权利类型,而是法律从“不法行为规制角度”赋予版权人保护自身权益的一种手段。实操中,技术措施又可以分为“接触控制措施”和“利用控制措施”。前者是为了防止他人未经授权获取、接触作品;后者则是为了预防他人未经授权对作品进行复制、传播等利用。
在前述知网与AI检索平台的案件中,尽管知网部分内容可公开浏览,但其也通过登录验证等技术手段对文献数据库设置了系统访问权限。因此,若实践中第三方模型厂商在构建自身检索数据库时,存在通过技术手段避开知网设置的访问限制技术,来获取相关学术文献内容的行为,则涉及“技术措施”领域的违法性判断。
在“道琼斯公司和纽约邮报控股公司诉Perplexity AI”中,《华尔街日报》和《纽约邮报》长期设置的“付费墙”,构成了较为典型的“接触控制措施”。若Perplexity AI故意规避该技术措施,抓取原告付费新闻,则同样可能违反“技术措施”的要求。在美国,《数字千年版权法》第1201条赋予版权人“技术措施双重保护体系”:一方面,禁止他人直接从事规避版权人设置的“接触控制措施”,另一方面,也禁止他人提供规避版权人“技术措施”的工具手段。
六、“检索增强生成”涉及作品利用问题
在“内容整合展示”阶段,需要评估检索增强生成对作品的利用,是否落入版权法规制的“直接侵权”和“间接侵权”的范畴。 所谓版权直接侵权,是指行为人直接从事版权法专有权利规制的行为,例如直接将侵权作品上传至网站服务器并向他人传播;所谓版权间接侵权,指行为人虽然没有从事版权直接侵权,但为之提供了一定的助成条件或帮助行为,例如平台故意通过算法推荐技术等帮助用户扩大侵权内容的传播等。
在直接侵权层面,大模型输出的内容可能侵犯复制权、改编权及信息网络传播权等。例如,《纽约时报》诉OpenAI案中,原告不仅指控OpenAI未经授权利用自身新闻内容训练GPT系列模型,还主张其与微软合作的“Browse with Bing”插件通过实时搜索,在合成结果中直接引用了《纽约时报》旗下Wirecutter评测网站的大量内容,构成版权侵权。 13
对于复制权和改编权的侵权认定区分, 我们可以《北京高级人民法院侵害著作权案件审理指南》为参考,“未经许可在被诉侵权作品中使用原作品表达但未形成新作品的,属于复制行为;若形成新作品,则属改编。” 14 在此基础上,如果检索增强生成整合输出的内容,在重构原作品表达的基础上,也具备了独创性的新表达, 构成版权侵权。
在间接侵权层面,则需根据不同情况具体分析。 一方面,若输出内容标注的来源指向侵权盗版网站,而模型厂商的标注行为客观上扩大了原盗版内容的传播,则存在构成间接侵权的可能。另一方面,当用户利用模型输出内容,后续在其他平台从事侵权传播行为时,模型厂商若存在过错,也可能构成间接侵权。上述两种间接侵权情形下,模型厂商责任的认定需要结合其版权保护注意义务的具体情况加以判定,包括其盈利模式的设计,有无履行必要的版权保护提示义务,以及得知侵权后有无采取必要措施等等。
七、“检索增强生成”涉及“合理使用”之争
首先,在“数据检索收集”阶段,是否构成版权法上“合理使用”的责任豁免,因数据来源不同而存在差异。一方面,使用盗版内容构建RAG知识库原则上难以构成合理使用。2025年6月,美国加州北区法院在“三位作家起诉AI公司Anthropic版权侵权案”中认定,Anthropic从盗版网站下载数百万本书籍并将其永久存储在其中央数据库中的行为,不属于合理使用,构成了对作者版权的侵犯。
另一方面,在合法获取作品数据的情况下,“市场替代性”是判定模型厂商“合理使用”抗辩能否成立的关键。在前述Anthropic案中,法官明确裁定,将合法购买的纸质书扫描成数字副本用于内部研究,可以被认定为合理使用。 15 但欧洲议会2025年7月发布的《生成式人工智能与版权:训练、创作及监管》 报告则表示 ,即使未发生长期存储,但如果摘要内容实质替代了对受保护作品的访问,RAG系统仍可能引 发侵权问题 。 16
日本文化厅在2024年3月发布的《关于AI与著作权相关问题的意见》指出,RAG等技术开发中涉及对作品数据的复制与向量化处理,需分情形判定是否侵权:若生成内容并非原作品的独创性表达,则此类复制有可能适用著作权法第30条之4规定的“非欣赏性利用”;若在输出内容中呈现作品的全部或部分独创性表达,则不构成合理使用。 17
其次,对于“数据检索收集”阶段,版权“技术措施”与“合理使用”认定的关系。国内司法侧有观点指出,规避、破坏技术措施行为的违法性判断,不影响后续作品利用行为是否构成合理使用的判断。也即,满足合理使用要求的情况下使用作品,但存在规避技术措施的行为,则可以在认定合理使用的基础上,同时认定构成著作权法上的违法行为。 18
但值得注意的是,在大模型版权相关规则领域,无论是欧盟《单一数字市场版权指令》下的“文本与数据挖掘”还是日本2018年修改后《著作权法》下的“非欣赏性利用”,都明确把“遵守版权人设置的技术措施”作为认定“合理使用”成立与否的前提条件。
新加坡在《2021年版权法》中规定了“计算数据分析 (computational data analysis) ”的合理使用豁免,允许出于数据分析目的复制或存储版权内容,但使用者必须确保合法获取原始数据,不得规避付费墙或违反数据库条款。
再次,在“内容整合展示”阶段,是否构成“合理使用”的核心在于判断,输出内容对原文的复制比例、是否注明来源等。 对于该问题,目前各国立法政策尚未有统一结论和标准,高度依赖于个案实操认定。在我国,《著作权法》第24条规定了“适当引用”作为合理使用的法定情形,“为介绍、评论某一作品或者说明某一问题,在作品中适当引用他人已经发表的作品。”欧盟在《数字单一市场版权指令》第15条中同样明确了“对新闻出版物中个别字词或极短摘录的引用”,不会侵犯新闻出版商对于数字新闻出版物的邻接权。 19
日本文化厅也曾表示,除《著作权法》第30条之4规定的“非欣赏性利用”外,运用“检索增强生成”还可以构成《著作权法》第47条之5规定的“轻微利用”。 20 “轻微利用”是否成立应基于利用部分占比、利用量、呈现精度等因素进行综合判断。如果检索增强生成的回答超出了合理限度,依旧可能构成侵权。
但美国版权局2025年5月发布的《版权与人工智能第三部分:生成式人工智能训练(预发布版本)》报告表示,若检索增强生成的输出旨在总结或提供所检索版权作品(如新闻文章)的节略版本,而非仅提供超链接,则该使用行为不太可能构成合理使用。 21
欧盟《从版权视角看生成式人工智能的发展》报告指出,实践中AI输出内容中对版权作品的摘录长度与原始作品点击率呈负相关。在出版商与模型厂商签订的授权协议中,较长摘录片段虽可支撑更高许可费用,但会降低用户访问原始 来源的意愿 。
当前,某些具备AI检索与摘要功能的搜索引擎服务商已推出调控摘录长度的措施。例如微软允许内容来源网站在网页中添加robots元标签 (robots-meta-tags) ,以控制搜索结果中文本摘录的最大长度。 22
参考文献来源:
1. The New York Times Company and Amazon Announce Licensing Agreement,
https://investors.nytco.com/news-and-events/press-releases/#data-item=The-New-York-Times-Company-and-Amazon-Announce-Licensing-Agreement--2025-cYgtzu69ot;
Condé Nast and Hearst strike Amazon AI licensing deals for Rufus,
https://digiday.com/media/conde-nast-and-hearst-strike-amazon-ai-licensing-deals-for-rufus/.
2. The New York Times Company v. Microsoft Corporation et al., No. 1:23-cv-11195,
https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec2023.pdf.
3. The Washington Post partners with OpenAI on search content,
https://www.washingtonpost.com/pr/2025/04/22/washington-post-partners-with-openai-search-content/.
4. OpenAI wins AI hallucination defamation lawsuit,
https://www.globallegalinsights.com/news/openai-wins-ai-hallucination-defamation-lawsuit/.
5. Complaint against OpenAI,
https://noyb.eu/sites/default/files/2025-03/OpenAI_complaint_redacted.pdf
6. Dow Jones & Co. v. Perplexity AI, Inc., No. 1:24-cv-07984,
https://www.lawinc.com/wp-content/uploads/2024/10/Perplexity-Lawsuit.pdf.
7. Advance Local Media LLC et al, v. Cohere Inc., No. 25-cv-01305 (S.D.N.Y. Feb. 13, 2025),
https://storage.courtlistener.com/recap/gov.uscourts.nysd.636920/gov.uscourts.nysd.636920.1.0.pdf.
8. Summary of the request for a preliminary ruling pursuant to Article 98(1) of the Rules of Procedure of the Court of Justice,
https://curia.europa.eu/juris/showPdf.jsf?text=&docid=300681&pageIndex=0&doclang=EN&mode=req&dir=&occ=first&part=1&cid=5661670.
9. 参见《一AI搜索公司声明:收到知网28页侵权告知函》,载微信公众号“法治网”,
https://mp.weixin.qq.com/s/jwoPHxcztpf1XHBZ4BhDi.
10. 参见王迁著:《知识产权法教程》,中国人民大学出版社2016年版,第132页。
11. 原告指出:“在输入阶段,Perplexity AI未经许可大量复制原告的受版权保护作品,将其纳入其检索增强生成(RAG)索引,这构成了版权大规模侵权,甚至不构成任何可辩称的合理使用。其次,这种大规模侵权的非法性并不取决于Perplexity AI所谓的“答案引擎”输出是否在每次都与原告受版权保护作品足够相似,从而构成对这些作品的逐字复制。只要Perplexity AI大规模上复制原告作品,以创建旨在替代原告作品的复制品和/或衍生内容,就足以构成侵权。”
12. EUIPO,The Development of Generative Artificial Intelligence from a Copyright Perspective,p275.
13. The New York Times Company v. Microsoft Corporation et al, No. 1:2023cv11195 - Document 514 (S.D.N.Y.2025) ,
https://www.nysd.uscourts.gov/sites/default/files/2025-04/yf%2023cv11195%20OpenAI%20MTD%20opinion%20april%204%202025.pdf.
14. 参见《北京市高级人民法院侵害著作权案件审理指南》第5.12条。
15. Bartz v. Anthropic PBC, No. C 24-05417 WHA,
https://regmedia.co.uk/2025/06/24/anthropic.pdf.
16. European Parliament,Generative AI and Copyright:Training,Creation,Regulation,p48.
17. 参见文化審議会著作権分科会法制度小委員会,《AIと著作権に関する考え方について》,第21页。
18. 参见“知产北京”公众号,https://mp.weixin.qq.com/s/bsOtnaN4DTl_wSD1KxUm4g.
19. 参见《数字单一市场版权指令》第15条第1款:成员国应当规定,在一个成员国成立的新闻出版物的出版者,对于信息社会服务提供者在线使用其新闻出版物,享有2001/29/EC指令第2条和第3条第2款规定的权利。本款规定的权利不适用于个人使用者对于新闻出版物的私人或非商业使用。本款提供的保护不适用于超链接行为。本款规定的权利不适用于对新闻出版物的个别字词(individual words)或极短摘录(very short extracts)的使用。
20. 文化審議会著作権分科会法制度小委員会,《AIと著作権に関する考え方について》,第22页,“轻微利用”是指计算机在处理信息并将信息处理结果提供给公众时,可以不经著作权人许可,附随性地对作品进行少量使用。
21. U.S. Copyright Office,Copyright and Artificial Intelligence,Part 3:Generative AI Training,Pre-publication Version,p47.
22. EUIPO,The Development of Generative Artificial Intelligence from a Copyright Perspective,p113.
朱开鑫 腾讯研究院法律研究中心主任
金佳玥 腾讯研究院助理研究员
本文来自微信公众号 “腾讯研究院”(ID:cyberlawrc),作者:朱开鑫 金佳玥,36氪经授权发布。