Adobe因涉嫌在AI培训中滥用作者作品，正面临集体诉讼

2026-02-28 12:28:09来源：网络作者：admin

和绝大多数科技公司类似，Adobe在过去几年中也在人工智能领域投入了大量资源。从2023年开始，这家软件企业陆续推出了多款不同类型的人工智能服务，其中就包含Firefly——它旗下基于AI技术的媒体生成工具套件。不过，如今公司对该技术的全面应用或许带来了问题，原因是一起新的诉讼指出，Adobe在训练其人工智能模型时使用了盗版书籍。

俄勒冈州作家伊丽莎白·莱昂发起了一项集体诉讼，指控Adobe在培训其SlimLM项目时，使用了包含她本人作品在内的多本盗版书籍。

Adobe把SlimLM称作是一个小型语言模型系列，它能够“针对移动设备上的文档辅助类任务进行优化”。相关声明指出，SlimLM是在SlimPajama-627B上完成预训练的，而这个数据集是Cerebras于2023年6月推出的“经过去重处理、包含多种语料库的开源数据集”。莱昂曾编写过好几本非虚构写作方面的指南，她表示自己的部分作品被收录到了Adobe所使用的预训练数据集中。

莱昂的诉讼最先由路透社披露，指出其文字被纳入一个经过处理的受控数据集子集，而该子集正是Adobe相关项目的基础。诉讼中提到：“SlimPajama数据集是通过复制并修改RedPajama数据集（其中包含对Books3的复制）生成的，因此，作为RedPajama数据集的衍生复制品，SlimPajama包含了Books3数据集，其中也涵盖了原告及集体成员的版权作品。”

“Books3”——这个收录了19.1万册书籍、被用于训练生成式人工智能系统的大型资源库——始终是科技圈里不断引发法律纠纷的导火索。RedPajama也多次在相关诉讼案件中被提及。今年9月，一起针对苹果公司的诉讼指出，苹果在训练其智能模型时使用了受版权保护的资料。该诉讼不仅提到了这个数据集，还控诉这家科技巨头“未征得同意、未给予署名也未支付报酬”就复制了受保护的作品。而在去年10月，一起针对Salesforce的类似诉讼同样声称，该公司将RedPajama用于了模型训练。

不幸的是，这类诉讼如今已变得相当普遍。人工智能算法依托庞大的数据集进行训练，而部分数据集据称含有盗版内容。今年九月，Anthropic同意向多名作者支付15亿美元赔偿金，这些作者此前曾对其提起诉讼，指控Anthropic在训练聊天机器人Claude时使用了盗版作品。该案件被视作围绕AI训练数据中版权材料的持续法律争议的典型案例之一。

免责声明：文章图片应用自网络，如有侵权请联系删除