数据围城:Anthropic 宣布重大转向:用户对话成版权诉讼下的新“训练粮”
2025年8月29日,Anthropic宣布对其用户数据处理方式进行一项重大调整,即要求所有Claude用户在9月28日之前决定是否希望他们的对话用于训练 AI 模型,因为该更改将默认启用:新用户将看到一个“帮助改进 Claude”选项,该选项可在注册流程中开启或关闭;现有用户将开始看到解释此更改的通知。
对Anthropic来说,这是一次重大更新。此前,该公司告知Claude用户,他们的提示和对话输出将在 30 天内自动从 Anthropic 的后端删除。而现在,该公司希望利用用户对话和编程会话来训练其 AI 系统,并表示将把未选择退出的用户数据保留期限延长至五年。
对于更新的用意,Anthropic 宣称将“帮助我们提高模型安全性,使我们检测有害内容的系统更加准确”,这是典型的“请帮助我们帮助你”的表述,然而也很容易让人联想到最近Anthropic遭到的集体诉讼,以及针对其使用盗版图书训练模型、可能高达几百亿美元的罚款。如果Anthropic此后只能依赖使用被授予版权的图书训练模型,用户授权的免费数据,无疑是更加近水楼台、便宜且不容易引发争议的选项。
然而,对于整个人工智能行业几乎是“秘而不宣”的用户数据使用政策,真的没有任何风险和法律争议吗?Anthropic以及许多领先的人工智能公司,对于决定其模型先进性的最基础的数据的获取,还需要考虑更多的法律和政策因素。
一、盗版诉讼触发多米诺骨牌效应
2025年6月,美国联邦法官威廉•阿尔苏普(William Alsup)裁定,人工智能公司Anthropic 使用数百万本受版权保护的书籍来训练其聊天机器人 Claude“本质上具有变革性”,因此属于“合理使用”,并不违法。这一裁定,对于几乎所有AI公司来说,或许都是个值得欢呼和纪念的重大事件。
然而,该法官还同时宣称,该公司仍然面临盗版的法律责任,因为它通过从网上“影子图书馆”下载盗版书籍来获取这些训练数据。这项认定赋予美国许多版权所有者一项确定的法律维权路径和必胜的把握。7月,阿尔苏普法官批准了美国作家提起的集体诉讼,原告指控Anthropic“下载数百万部作品”,违反了版权法。按照其下载盗版书的数量和每本书的罚金计算,Anthropic可能面临数十亿美元甚至高达 1 万亿美元的罚款。
Anthropic预判了诉讼的结果,于是在8月25日与美国作家达成了和解,目前具体的和解条款尚不明确。不过,其和解金额很可能低于预期,例如数亿美元,而不是数十亿、数百亿美元的最高额度的法定赔偿金。
值得注意的是,阿尔苏普法官对于版权者的“盗版提醒”以及美国作家针对 Anthropic 的策略,形成了“多米诺骨牌效应”,其他原告也开始效仿并迅速改变其诉讼策略。一群起诉Anthropic的音乐出版商试图在诉状中增加盗版指控,称他们最近才发现 Anthropic 下载的书籍中包含来自盗版数据集的歌词。在针对 OpenAI 的合并诉讼中,拟议的集体原告也试图基于该公司使用盗版网站提出索赔,而这家人工智能巨头一直试图驳回这一诉讼,但其集体诉讼尚未获得认证。
彭博行业研究分析师塔姆林•巴森(Tamlin Bason)表示,盗版指控“目前非常令人担忧”,并且“给人工智能公司带来了相当大的风险”。
为什么呢?毕竟像微软公司和Meta 这类老牌大型科技公司来说,他们几乎可以承受任何损失赔偿,即使对于OpenAI和Anthropic来说,如果花几亿美元就能摆脱这种困境,他们可能会非常乐意。
因为在法律上,“合理使用”的认定争议很大,但“盗版指控”比“合理使用”的认定却容易且确定得多,对于版权所有者来说是一个绝佳的诉讼策略,在诉讼或和解中获得赔偿/补偿的概率大得多,在与AI谈判中,版权所有者也将借盗版高额的法定赔偿金获得更具优势的地位。对于AI公司来说,这是一个巨大的、不确定的风险,如果所有版权所有者要求其盗版赔偿,这相当于AI公司今后必须为其获取的任何版权内容支付一笔高额的授权费。
另外,美国国会近期传递了一个对AI公司十分不利的信号。2025年7月16日,美国参议院司法委员会犯罪与反恐小组委员会举行了一场题为“规模太大,无法起诉?:审查人工智能行业大规模盗版作品用于人工智能训练”的听证会(可在今日二条中查看)。小组委员会主席、密苏里州共和党参议员霍利在开场和总结中,都以强硬的姿态表示,AI公司的盗版行径,“不仅仅是激进的商业策略,而是犯罪行为”,“如果这不算侵权,国会就得有所行动”。
二、用户数据的法律两难:OpenAI的困境样本
与其他所有大型语言模型公司一样,Anthropic训练 AI 模型需要大量高质量的对话数据,而访问数百万次Claude 的互动应该能够提供现实世界的内容,从而提升 Anthropic竞争优势。
其实使用用户数据用于模型训练,对于整个人工智能行业来说并不鲜见。Anthropic最大的竞争对手OpenAI在推出之后,就几乎是一直默认使用客户数据来训练其模型。
在遭到诸多客户的批评和投诉之后,OpenAI曾经于2023年3月暂时改变过这一政策的具体实施策略,它宣称:除非客户或组织选择加入,否则它不会使用通过其API提交的任何数据来“改进服务”,包括 AI 模型训练。
但对于个人客户,OpenAI似乎一直保留了其用于训练的“特权”。2025年4月28日,OpenAI发布了一个解释其隐私政策的声明:对于个人用户,OpenAI的产品会默认使用其用户的内容来训练模型,除非客户选择退出。并向用户保证,当用户分享对话内容时,有助于OpenAI更准确、更能解决客户的特定问题,提高整体能力和安全性。
2023年10月,《纽约时报》和其他出版商向OpenAI提起诉讼,指控其未经许可使用《纽约时报》文章来训练GPT大型语言模型。由于这些机构声称,ChatGPT已删除的聊天记录可能包含用户促使其生成受版权保护的新闻文章的证据,因此,2025 年 1 月,《纽约时报》请求法院下令保留 OpenAI 模型的所有用户生成的输出,认为这些记录是证明 OpenAI 的工具复制了纽约时报内容的关键证据。
地方法官奥娜•王(Ona Wang)在《纽约时报》提出请求后的一天内批准了该命令。她同意新闻原告的观点,由于OpenAI没有共享已删除的聊天记录,新闻原告无法证明这一点。
OpenAI计划挑战该命令,目前正在推动口头辩论,希望用户证词能够促使法院撤销该命令。但目前,该公司声称,根据 ChatGPT 的服务条款,它被迫放弃“长期存在的隐私规范”,并削弱了用户所期望的隐私保护。OpenAI甚至希望能够以欧盟严格的隐私监管来对抗美国法院的“越界”要求,在其声明中表示为了符合欧盟《通用数据保护条例》(GDPR)赋予用户“被遗忘权”,OpenAI须向欧盟用户履行这一权益的保障。
OpenAI有足够的理由对这项命令感到恐慌,因为它面临着一个多重的困境:它为了能够使用用户的数据来训练AI,OpenAI确实实施了保留用户数据的政策,并且希望用户一直能够允许这一操作,因此它无法证明它并不掌握这些数据,也没办法完全合理地以“被遗忘权”去对抗法院的命令;但这些记录一旦被用于履行法律义务,他们将会证明该公司对版权内容的侵权使用;而一旦法院执行了该命令,OepnAI的用户将会更切实地感到对其隐私数据的担忧,并可能导致大量用户选择关闭“用于模型训练”的选项。
因此,Anthropic使用用户数据训练模型,并非万无一失的解决方案。用户数据被保留,也会被版权所有者用于证明AI公司侵权的证据,而诉讼一旦大规模发生,用户将被提醒他们的“删除”从技术上并不能删除任何内容。
三、悄然变化的政策与未觉的用户
Anthropic使用用户记录来训练模型的新政,似乎是行业内的常规操作。但真正令人担忧的,其实时许多用户对这些不断变化的使用政策“浑然不觉”。许多用户并没有意识到,他们即使什么都不做,就已经同意了其隐私准则被科技公司所改变。
而对于这些AI公司来说,获得用户授权、保留并使用这些数据,仍面临着许多伦理上的警告,以及法律方面的风险。像 Anthropic 和 OpenAI 这样的公司正面临越来越严格的数据保留审查,而他们所有的防御策略和应对措施,似乎都充满了自相矛盾。
本文来自微信公众号“Internet Law Review”,作者:互联网法律评论,36氪经授权发布。