法院文件揭露Meta涉嫌使用盗版内容训练AI模型

狂人币记2025-02-22
摘要
法院文件显示,元工作人员已经使用受版权保护的内容来培训其人工智能模型 。
币币情报道:

最新披露的法院文件显示,Meta员工涉嫌使用受版权保护的内容来训练其人工智能模型。这些文件揭示了Meta在获取数据方面的争议性手段,包括可能依赖盗版书籍和其他未经授权的数据来源。

在Kadrey诉Meta案中,原告提交的文件进一步揭露了Meta如何利用从可疑渠道获取的内容进行AI模型训练。这一案件是美国法院审理的众多涉及AI版权问题的案件之一。Meta辩称,根据“合理使用”政策,其有权使用受版权保护的作品(尤其是书籍)来训练模型。然而,以莎拉·西尔弗曼(Sarah Silverman)和塔尼西(Ta-Nehisi Coates)为代表的原告对此表示强烈反对,认为Meta的行为侵犯了版权。

据此前提交的文件显示,Meta首席执行官马克·扎克伯格(Mark Zuckerberg)曾批准公司AI团队使用受版权保护的内容进行模型训练。此外,Meta还削减了与书籍出版商的数据许可谈判。

Meta被指控使用版权内容训练AI模型

根据新近提交的法庭文件,Meta员工之间的内部聊天记录揭示了该公司如何使用受版权保护的数据训练其AI模型,包括Llama系列中的多个模型。

其中一段聊天涉及Meta高级主管Melanie Kambadur,她是Llama研究团队的高级经理。她提到,部分用于训练AI模型的内容并没有合法依据。

Meta研究工程师Xavier Martinet在2023年2月的一次聊天中表示:“我的建议是(遵循‘先斩后奏’的原则):我们尝试获取书籍并将其交给高管,以便他们做出决定。”他还补充道:“这就是为什么他们成立了Gen Gen组织:为了降低风险。”

Martinet提到,公司可以以零售价购买电子书来构建数据集,而不是与出版商达成许可协议。尽管另一名员工警告使用此类内容可能带来的法律后果,但Martinet指出,其他公司也可能正在使用盗版书籍进行训练。

在同一聊天中,Kambadur提到公司正在与某些平台进行许可谈判,但她指出,尽管使用公开可用的数据需要审批,但公司的律师比过去更加宽松。Kambadur表示:“现在的不同之处在于,我们有更多的资金、更多的律师以及更多的商业开发支持,能够快速推进项目,而律师对审批的态度也不再那么保守。”

员工讨论使用Libgen

根据文件,另一段工作聊天显示,Kambadur提到了使用Libgen聚合网站的可能性。该网站提供了指向出版商受版权保护内容的链接,作为Meta可以使用的数据源。Libgen因多次被起诉侵犯版权,已被命令关闭服务。

聊天中的一位同事发布了一张截图,并附文:“不,Libgen是非法的。”然而,似乎一些高管认为,如果Meta不使用Libgen,可能会在AI竞赛中失去竞争力。在Meta产品管理总监Sony Theakanath发给Meta AI副总裁Joelle Pineau的一封电子邮件中,他提到Libgen对于实现最先进的(SOTA)数据表现至关重要。

Theakanath还谈到了公司可以减少法律风险的几种方法,包括删除被盗或盗版数据,而不公开引用其用途。他表示:“我们不会透露使用Libgen数据集进行训练的情况。”此举意味着公司将首先通过Libgen文件检查“被盗或盗版”作品。

法院文件揭示其他侵权行为

在一次工作聊天中,Kambadur还建议Meta AI团队应调整模型以“避免风险的IP提示”,这将配置模型拒绝为试图查询电子书内容的用户提供答案。

这些文件还揭示了其他细节,表明Meta可能使用了Reddit数据来训练其模型,以模仿名为PushShift的第三方应用程序的行为。Reddit在2023年4月的一份声明中提到,将开始向AI公司收取访问数据以训练模型的费用。

自2023年诉讼启动以来,本案原告已多次修改其投诉。该案目前正在加利福尼亚北区旧金山联邦法院审理。在最新的修正案中,原告声称Meta参考了盗版书籍和受版权保护的书籍,以确定理想的许可交易。Meta将此案视为一个高风险的法律问题,并已聘请最高法院诉讼人加入其辩护团队。

加密大都会学院:如何撰写Web3简历以吸引面试 - 免费备忘单

免责声明:

1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险

2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场