液压机切书200万本：Anthropic的“巴拿马计划”如何撕裂AI行业遮羞布

当一家顶级AI公司为了训练模型，不惜用液压切割机“破坏性扫描”200万本受版权保护的书籍时，这个行业的数据伦理底线已经荡然无存。根据《华盛顿邮报》曝光的法庭文件，Anthropic在2024年初秘密启动了代号“巴拿马计划”的项目，由一位前谷歌高管领导，其核心手段粗暴得令人咋舌。

这远不止是一桩丑闻，它是一枚精准投向生成式AI行业心脏的合规炸弹。它用一种近乎行为艺术的方式，将行业长期奉行的“先获取、后解释”（甚至不解释）的数据掠夺模式，赤裸裸地呈现在司法与公众面前。

“破坏性扫描”彻底堵死了“合理使用”的退路。 过去，OpenAI、Google等公司面对版权诉讼时，最常举起的盾牌是版权法中的“合理使用”原则——辩称其对文本的复制、分析是为了“转化性”目的。但Anthropic的液压切割机，亲手砸碎了这块盾牌。当扫描行为以物理销毁书籍为代价时，它很难再被包装成“非侵权性使用”。这为司法系统提供了一个极其清晰的负面典型：这不是技术中立的分析，这是为了商业利益对实体财产权的系统性破坏。 此案一旦形成不利判例，将从根本上动摇所有依赖类似“影子数据”训练的大模型公司的法律基础。

合规成本重构行业竞争格局，赢家与输家已然分明。 “巴拿马计划”的曝光，意味着AI训练数据的“蛮荒西部”时代即将终结。随之而来的，是数据供应链的全面合规审查与天价授权成本。这直接导致两个结果：第一，拥有高质量版权库的媒体集团（如新闻机构、大型出版社）议价能力暴增，它们将从“数据奶牛”变为“数据军火商”。第二，市场壁垒急剧升高，资金雄厚、能负担合法数据源的巨头（如已与出版商达成合作的微软、苹果）优势扩大，而依赖“爬取”和灰色地带的初创公司可能被直接扼杀。意外受益者将是合成数据、合规数据清洗服务商，以及知识产权律师——他们的生意从未如此“前景光明”。

全球监管裂痕加剧，AI发展路径走向分化。 美国司法系统对此案的处理，将成为全球AI监管的风向标。欧盟势必会以此为例，强化其《人工智能法案》中本就严格的数据透明度要求，证明其“监管先行”路线的正确性。最终，我们可能看到截然不同的AI发展路径：在“合理使用”边界内艰难探索的美国路线，与强调授权、可控数据源的欧盟路线。这不仅是法律分歧，更将直接影响未来AI模型的性能特质、创新速度和地缘竞争力。

Anthropic用液压机切开的不仅是书页，更是整个行业讳莫如深的脓疮。从此，每一行用于训练模型的代码，都必须准备好接受版权与伦理的拷问。野蛮生长的代价，账单正在寄出。

原文链接：US court filings detail Anthropic’s Project Panama, an effort to “destructively scan” up to 2M books with a hydraulic “cutting machine” led by an ex-Google exec (Washington Post)

本文由 AI 辅助生成，仅供参考。