Anthropic花15亿美元和解版权案背后:书籍为何成AI训练核心

36氪的朋友们·2025年09月08日 18:32
Anthropic因盗版书训练AI赔15亿美元,融资130亿。
Anthropic
C+轮海外2019-02
人工智能安全和研究公司
我要联系

Anthropic创始人、首席执行官达里奥·阿莫迪(Dario Amodei)

当地时间9月5日,人工智能初创公司Anthropic提交的法庭文件显示,该公司将支付至少15亿美元来解决一起在美国的集体诉讼,该诉讼指控Anthropic涉嫌使用盗版书籍来训练聊天机器人Claude。

这一和解若获得法官批准,将成为AI公司与创作者之间版权争议的里程碑,也可能对整个出版业、创作者群体及AI行业的商业策略产生深远影响。根据和解协议,Anthropic将向约50万部纳入和解范围的书籍的作者或出版商支付每部约3000美元的赔偿。原告方律师贾斯汀·尼尔森(Justin Nelson)表示:“据我们所知,这是有史以来金额最高的版权赔偿,也是人工智能时代的首例此类案例。”

尼尔森还表示,Anthropic同意分四次支付和解金,首笔付款为3亿美元,需在法院批准和解条款后的5个工作日内支付。

旧金山地区法院法官威廉・奥尔苏普(William Alsup)已安排于周一举行听证会,审查该和解协议的条款。

据专家分析,倘若Anthropic未能与原告达成和解,且在原定于今年12月的审判中失利,该公司或将承担更为高昂的损失。威科集团(Wolters Kluwer)法律分析师威廉・朗(William Long)称:“我们判断,Anthropic面临数十亿美元赔偿的可能性极大。天价赔偿不仅会对公司造成严重冲击,甚至可能使其走向破产。”

该事件标志着一个转折点:创作者在长期控诉AI公司侵犯知识产权的背景下,首次获得可量化的经济回报。然而,这一“胜利”背后,却隐藏着对行业格局和出版生态可能产生的长期冲击。在Anthropic与原告达成和解协议后不久,就立即宣布完成了130亿美元的巨额融资。

01.集体诉讼案起源与案件细节

书籍作者在该网站提交信息获得赔偿

2023年,一份名为Books3的数据集悄然流传于技术圈。它的创建者并非大型科技公司,而是一群希望推动学术研究的独立AI研究者。他们试图搭建一个足以匹配OpenAI所使用训练语料规模的数据集,以便学界在语言模型研发上不至于落后太远。Books3汇集了约19万册书籍的数字版本,其中包括大量仍处在版权保护期内的文学与学术作品。研究者们最初的出发点,是推动“研究公平”,但他们很快意识到,数据集一旦公开,便难以控制使用范围。

正是在这一语料库的基础上,Anthropic踏出了敏感的一步。根据美国加州北区地方法院法官威廉·阿尔萨普(William Alsup)的裁定,Anthropic在训练旗下Claude模型时,下载了超过700万册数字书籍,其中包括Books3中的作品。法官在裁决书中直言不讳地指出,Anthropic“明知这些书籍已被盗版”,仍选择使用

更具冲击性的是,裁决文件显示,Anthropic并未止步于Books3。随着模型训练规模的不断扩大,该公司从盗版网站Library Genesis(LibGen)获取了至少500万册书籍,又从Pirate Library Mirror 获取了约200万册。这两个网站长期以来都是全球最知名的盗版书库,几乎囊括了从畅销小说到学术专著的各类资源。它们被不少科研人员视作“知识的地下水源”,却也被出版业痛斥为“文化领域的最大盗版黑洞”。

在被曝光的数据中,包括了作家安德烈亚·巴茨(Andrea Bartz)的处女作《失落之夜》(The Lost Night)。这本畅销悬疑小说的出现,使得案件不仅停留在抽象的版权层面,更直击创作者的切身权益。在这一背景下,巴茨和另外两名作者——查尔斯・格雷伯(Charles Graeber)、柯克・华莱士・约翰逊(Kirk Wallace Johnson)——在2024年向加州北区联邦法院提起,指控Anthropic存在“大规模版权侵权行为”,通过从涉嫌盗版数据集下载图书并用于商业开发。对于她和其他数千名作家而言,这不仅仅是一场法律诉讼,更是一场捍卫尊严与劳动成果的斗争。

美国作家协会(Authors Guild)随即介入,组织大规模的维权行动。该协会在2024年6月致信数千名会员,直言若法院最终认定Anthropic存在故意侵权,每部作品的赔偿金额将“至少为750美元,甚至可能更高”。这在出版界引起了轩然大波。协会同时强调,大模型训练并非“合理使用”的范畴,因为其直接复制了完整的作品,而非引用片段。

案件的转折出现在和解阶段。经过数月谈判,双方最终达成一致:赔偿金额约为每部作品3000美元。这一数字虽然低于部分作家期望的上限,但远高于美国版权法的最低赔偿线。法律界人士普遍认为,这反映了和解过程中对“有效作品池”的缩减,即剔除了重复数据以及部分不在版权保护范围内的书籍。

美国作家协会首席执行官玛丽·拉森伯格(Mary Rasenberger)在宣布结果时用了“完美的结果”(Excellent Result)这一罕见的积极表述。她强调,这一和解是“对作者、出版商以及所有版权持有人的重大胜利”,同时也是“对AI行业的强烈警告”。她的话点燃了许多作家的情绪:“当他们盗用作家的作品来训练模型时,就必须为此承担严重后果。这种行为实际上是在掠夺那些最无力承担损失的群体。”

在案件细节曝光的同时,公众也重新认识到书籍在人工智能训练中的特殊地位。不同于互联网零散的网页片段,书籍以其完整的结构、连贯的逻辑和精致的语言,提供了大模型最稀缺的“深度语料”。小说中的情节递进,帮助模型理解复杂的叙事方式;学术著作的推理框架,训练其掌握因果逻辑;哲学与历史书籍则为模型提供了价值观念和多元视角。这些内容并非轻易可以由网络论坛帖子或新闻报道替代。

从技术角度来看,现代大模型的训练依赖于大量结构化、逻辑性强、语义丰富的文本数据。互联网上的短篇文章、论坛帖子、新闻稿等内容虽然丰富,但片段化、零散化的特性使其难以满足模型对长篇语境和复杂因果关系的学习需求。书籍,尤其是小说、历史、哲学及学术著作,提供了完整、连贯、逻辑严密的叙事,这正是模型学习深度推理、人物关系处理、情节递进以及复杂语义理解所不可或缺的素材。

以Anthropic的Claude为例,训练模型不仅仅是统计词频或生成概率,而是让模型“理解”文本的结构和内在逻辑。小说中人物的心理描写、情节冲突、对话节奏,都为模型提供了理解人类思维和社会行为模式的机会。哲学与历史书籍则教会模型因果推理、价值判断和伦理权衡。缺乏这样的长篇内容,模型即便能生成短句或新闻摘要,也难以完成复杂的创造性写作、逻辑推理或策略性问题解决。

02.版权侵权引发连锁反应:作家愤怒维权

本案原告之一、《失落之夜》作者安德烈亚·巴茨

当Anthropic大规模使用盗版书籍的消息被披露后,美国作家群体的反应迅速而强烈。对许多作家来说,这不仅是一场版权诉讼,更是一种被冒犯的体验——他们的作品、他们的语言、他们的心血,竟然在未经允许的情况下被作为“原料”输入进一台冰冷的机器,而这台机器随后被打造成可以替代他们的工具。

巴茨的小说《失落之夜》2019年出版后便成为畅销书,开创了她的职业生涯。但在2024年,她却意外发现这本书被包含在Books3数据集中,并被Anthropic用于Claude模型的训练。巴茨在接受媒体采访时表示,这种感觉“就像有人闯进了我的家,把我书架上的作品拿走,然后告诉我这是为了科学研究或商业创新”。她强调,自己并不是反对AI,而是反对“这种赤裸裸的未经授权的剽窃”。

巴茨并非孤例。随着案件细节曝光,越来越多的作家开始检索Books3以及LibGen数据集,发现自己的作品赫然在列。从畅销小说家到学术作者,从诗人到儿童读物创作者,不少人第一次意识到,他们的知识产权早已被悄然卷入AI的训练体系之中。有作家愤怒地在社交媒体上写道:“Claude在回答问题时可能正在使用我书中的句子,但我却从未同意过,更没有得到一分钱报酬。”

美国作家协会(Authors Guild)迅速将分散的愤怒汇聚为集体行动。协会不仅向法院递交诉状,还在内部通信中号召会员关注案件进展。协会在给会员的信中明确指出,AI公司不应把“合理使用”作为幌子。协会法律顾问解释道:合理使用通常适用于评论、批评或教育目的,而大模型训练则不同,它涉及的是对整部作品的复制和解析,远远超出了合理使用的边界。这种说法赢得了大多数作家的共鸣。在协会组织的一次闭门会议上,不少作家表示担忧:如果任由AI公司在没有许可的情况下使用他们的作品,那么未来写作可能变成一项“无偿劳动”。

出版商也被卷入这场漩涡。长期以来,出版业已经因为电子书和网络盗版的冲击而步履维艰,如今AI的崛起让他们看到了更大的潜在威胁。纽约一家中型出版社的负责人在接受采访时直言:“如果AI模型能熟练地模仿作家的写作风格,甚至生成高质量的长篇小说,那出版业的商业模式将面临根本性挑战。我们不仅要保护书籍的版权,还要保护整个行业的生存空间。”

这种担忧并非空穴来风。随着Claude和ChatGPT等大模型的能力提升,读者可以在几分钟内生成一篇模仿某位作家风格的短篇故事,甚至在提示中输入“写一篇类似《失落之夜》的小说片段”。结果往往相似到让人不安。这让许多作家产生了危机感:他们花费数年才能完成的作品,如今似乎被轻易“复制”。

AI公司则试图进行辩护。Anthropic在回应媒体时强调,其使用的数据主要是为了“技术研究与模型优化”,并不意味着直接复制或再分发书籍内容。该公司发言人表示,Claude生成的文本是“统计意义上的推断”,而不是对原文的逐字照搬。换言之,AI不是盗版复印机,而是一种基于概率的生成工具。然而,这种解释并未打消作者和出版商的担忧。法律界人士指出,即便输出不是逐字复刻,输入的行为依然涉及未经许可的复制,这是版权侵权的关键所在。

与此同时,投资者也开始关注这一案件的走向。Anthropic作为硅谷最受关注的AI初创公司之一,曾获得亚马逊和谷歌的数十亿美元投资。案件曝光后,部分风险投资机构私下表示担心:如果大规模版权侵权成为行业常态,那么未来AI公司的估值可能需要重新评估。正如一位投资人所说:“这不是一个纯粹的技术问题,而是一个法律和商业风险。版权诉讼可能成为AI行业的‘阿喀琉斯之踵’(致命的弱点)。”

03. 和解模式可能引发行业跟风,版权保护受考验

Anthropic与书籍作者的和解,不仅是一个公司内部的法律事件,更成为AI行业和整个创意产业的重要信号。这一案例揭示了大型AI公司如何在法律、商业与技术之间寻求平衡,也对行业生态、投资逻辑以及版权规范产生深远影响。

这次和解为其他AI企业提供了“参考模型”。Meta、OpenAI、Google、Stability AI等公司,长期依赖大量文本训练其语言模型和生成式AI系统。Anthropic的案例清楚地表明,使用盗版或未经授权的数据训练AI并非零风险,但和解金额相对于公司估值和潜在收入而言,可控且有限。这意味着,法律风险可以通过有限赔偿与快速和解策略来管理,从而不会显著影响公司估值或融资能力。

行业观察人士指出,Anthropic的和解金额——每部作品约3000美元、总额15亿美元,虽然对作者群体而言具有历史性意义,但对Anthropic这种估值达到1830亿美元的AI公司而言,却只是“运营成本的一部分”。这一事实让行业内的风险评估发生了变化:未来即便面临类似诉讼,AI公司也可能计算出“合理和解成本”,将版权侵权风险纳入整体商业策略。

对Meta而言,这一案例尤为关键。Meta旗下的AI产品,包括生成式AI工具及其合作伙伴项目,一直被指控使用未经授权的书籍、图像及其他创作作品训练模型。法律专家指出,Anthropic的和解为Meta提供了一种可行方案:通过有限和解或许可协议,Meta可以快速解决版权争议,同时向投资者和公众展示其风险管理能力。相比漫长且成本高昂的诉讼,这种策略能够降低不确定性,维持产品开发和市场竞争节奏。

然而,这种动态对创作者和出版行业却是负面信号。长期以来,出版商依靠版权获得稳定收入,但Anthropic案例显示,即便存在明显侵权行为,AI公司仍可通过快速和解和投资市场的支持,维持高额估值与融资能力。这种“法律成本可管理”的信号,可能导致出版商在谈判版权授权时处于弱势。投资者可能更关注AI公司的增长潜力而非版权合规,从而削弱创作者在授权谈判中的话语权。

更广泛地看,这一事件凸显了资本市场对AI行业的态度:高风险法律行为,在市场看来可以用“可控赔偿”换取更高回报。这改变了创作者与AI企业之间的经济平衡。即使未来有更多版权诉讼,若赔偿金额相对公司估值较低,AI企业可能倾向于“将侵权成本视为业务开支”,而非改变数据获取模式。这意味着,创作者群体面临长期收入受侵蚀的风险,而行业监管与法律保护仍需进一步强化。

此外,Anthropic案例可能引发行业内的“和解浪潮”。其他AI公司可能会参考这一模式,通过快速和解解决版权争议,并在短期内确保业务持续和融资顺利。这种做法虽然有助于企业降低法律不确定性,但可能抑制法律先例形成,使创作者难以获得更高赔偿或建立长期版权保障机制。简而言之,和解模式短期利好企业,长期对版权保护构成挑战。

从监管角度看,Anthropic案也为立法者和法院提供了参考。现有版权法律在AI训练场景下的适用仍存在灰色地带。奥尔苏普法官此前裁定,使用受版权保护的书籍训练AI模型属于“合理使用”,但盗版获取行为仍违法。这种裁决表明,法律在鼓励创新与保护创作者权益之间寻找平衡。Anthropic和解显示,企业可以在不违反核心合理使用原则的前提下,通过赔偿方式解决侵权争议。这为行业提供了可复制的法律策略,同时也提示监管机构,需要进一步明确许可与合理使用边界,以保护中小创作者利益。

04. 边打官司边拿融资:完成130亿美元F轮融资

Anthropic的版权和解事件之所以引发行业广泛关注,不仅在于和解金额创纪录,更在于这一进展与其新一轮巨额融资的时间节点高度重合。短时间内完成和解与融资,显示出企业在法律、金融与战略规划上的精密协调,也折射出AI行业独特的商业逻辑。

根据法庭文件和公开报道,Anthropic与书籍作者的和解协议在2025年8月底达成,原定于9月初提交法院审查。同一时期,公司完成了F轮融资,筹资金额高达130亿美元,投资后估值达到1830亿美元。换言之,和解协议几乎与融资同步完成。这种时间上的“巧合”,实际上是经过精心规划的战略安排。

法律专家分析,这种安排的核心在于降低投资者风险感知。版权诉讼若持续未解,尤其在案件涉及盗版书籍的事实清晰的情况下,会显著增加潜在投资者的法律与财务不确定性。投资者在评估高额风险投资时,尤其关心企业潜在的法律负债可能对估值和回报产生何种冲击。Anthropic通过快速和解,不仅锁定了赔偿金额上限,也消除了未来不利裁决可能带来的巨大不确定性,从而向投资者传递出“企业法律风险可控”的信号。

这一策略背后的逻辑是典型的风险管理与资本运作结合案例。Anthropic的管理层深知,若案件继续推进至2025年12月原定审判日期,公司将面临三大风险:第一,管理层精力分散,可能影响产品迭代与市场拓展;第二,负面舆论与声誉损失,对客户、合作伙伴及潜在投资者构成负面影响;第三,不确定的裁决风险,可能导致数十亿美元赔偿甚至影响企业生存。快速和解能够同时降低这三类风险,使公司在短时间内“清理战场”,以稳定投资者信心并保证业务运作连续性。

Anthropic先通过和解消除法律不确定性,再迅速完成巨额融资,这不仅体现了企业对法律与资本市场节奏的精准把控,也暗示出AI企业在商业战略中将法律视为可管理变量。对于出版商、创作者及监管机构而言,这意味着单靠诉讼难以威慑资本充足的科技公司,如果赔偿金额远低于企业估值,法律风险被视作“可承受成本”,行业规范可能被削弱。

本文来自“腾讯科技”,作者:无忌,36氪经授权发布。

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

报道的项目

Anthropic
我要联系
人工智能安全和研究公司

下一篇

“我一直收到这个错误,Windsurf 无法使用 Sonnet 4 完成任务。

3小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业