王星元

提问
王星元律师文集

AI 训练数据的侵权边界与司法平衡 —— 从《斗破苍穹》美杜莎侵权案谈起

大律师网     2025-12-10

导读: 作为上海首例人工智能大模型著作权侵权案,《斗破苍穹》美杜莎角色形象侵权案的一审判决,不仅明确了 AI 生成内容领域的著作权保护规则,更对 AI 训练数据的合法使用、平台责任界定等核心问题给出了司法指引。从律师视角切入,结合案件细节对 AI 训练中的侵权认定、合理使用边界及司法宽容度等问题展开分析,对规范 AI 行业发展具有重要现实意义。

作为上海首例人工智能大模型著作权侵权案,《斗破苍穹》美杜莎角色形象侵权案的一审判决,不仅明确了 AI 生成内容领域的著作权保护规则,更对 AI 训练数据的合法使用、平台责任界定等核心问题给出了司法指引。从律师视角切入,结合案件细节对 AI 训练中的侵权认定、合理使用边界及司法宽容度等问题展开分析,对规范 AI 行业发展具有重要现实意义。


一、AI产品用户视角】李某侵权行为的核心界定与合理使用边界划分

(一)侵权行为的直接认定:训练素材滥用与模型公开发布的双重违法

本案中,李某的侵权行为并非单一环节构成,而是“素材截取—模型训练—公开发布”的全链条行为,共同指向侵权成立:

直接侵权行为包括两方面:一是擅自截取《斗破苍穹》美杜莎动漫图片制作图包,该行为已构成对原告复制权的侵犯;二是将图包作为训练素材生成 LoRA 模型并发布于平台,使其他用户可通过该模型生成实质性相似图片,此行为侵犯原告信息网络传播权。

关键定性逻辑:法院未将 AI 生成近似图片的行为单独认定为侵权核心,而是将素材使用与模型发布作为侵权关键环节。原因在于,模型发布行为使侵权素材的“复制与传播”形成规模化扩散,突破了个人使用范畴,直接损害原告著作权权益。


(二)合理使用与个人学习的边界:非商业性与使用范围的双重限制

案清晰划分了 AI 训练中“合理使用”与“侵权使用”的界限:

1. 个人学习的合法边界

人学习的合法边界在于依据《著作权法》第二十四条,个人学习使用他人作品需满足“非商业目的”、“少量使用”、“不损害著作权人合法权益”三大要件。若李某仅为个人研究,截取少量图片私下训练且不对外传播,可能构成合理使用。

2. 公开传播和商业用途均突破了个人使用的合法边界

人民法院认为,被告李某以商业使用为目的,在素材截取阶段及LoRA模型训练、发布及使用阶段再现在先作品的独创性表达(复制)、将‘美杜莎‘图集和短视频等素材通过网络提供给公众,侵害了原告对"美杜莎"作品享有的复制权和信息网络传播权。”

通过法院的这一观点可以总结司法认定规则:即使是 AI 训练场景,也不能以“技术创新”为由突破著作权保护底线;个人学习需限定在“非公开、非商业、小范围”内,一旦涉及公开传播或商业利用,即构成侵权。


二、AI企业视角】AI企业数据训练的侵权认定:从训练行为到生成发布的全流程分析

前述“美杜莎”案最终判决李某对《斗破苍穹》美杜莎动漫图片的复制和传播构成侵权,但同时也认定AI企业仅提供中立技术,且尽到了"采取必要措施"和"转通知"义务故不构成侵权。可见法院对于个人和企业的认定角度有所不同。那么AI企业在抓取数据训练大模型时,能否借用“个人学习”的逻辑获得司法宽容甚至免责?下面将从企业自身抓取素材进行训练的角度展开分析:


(一)仅训练不发布——仍可能构成复制权侵权,但权利人举证存在困难

AI企业通过非正版途径获取作品用于训练但不发布近似内容,仍有可能构成侵权

侵权认定核心在于《著作权法》第十条。其中,复制权包括“数字化方式将作品制作一份或者多份的权利企业将非正版图片、视频进行数字化处理并用于模型训练,本质上是对作品的复制行为若未获得著作权人许可,即使不对外发布,也可能构成复制权侵权。

外,生成式人工智能服务管理暂行办法》第七条明确要求AI服务提供者“使用具有合法来源的数据和基础模型;涉及知识产权的,不得侵害他人依法享有的知识产权”。意味着若企业使用爬虫获取的素材未取得合法授权,即使仅用于训练,也违该规定。

尽管法律法规的条文已经作出了严格的规定,但实践中,作为权利人仍然难以举证起特定作品、声音或肖像被用于训练。可能的原因有三:一是追踪、识别技术代价高昂。目前已有的数字水印技术、异常访问识别等技术的代相对高部分技术也依赖于网络平台的支持,而非权利人单独采取行动即可完成。二是对原作品的实质影响甚微。在仅仅用于训练而不对外发布的情况下,AI训练不产生同权利人竞争的内容,也就不会损害或替代原有作品,那么权利人也就不愿意花费巨大代价用于维权。三是所抓取的训练数据与AI企业提供的产品之间无直接关联。最典型的情况是具身AI企业,他们可能需要抓取公开平台的视频、图片用于智能体的训练,训练成果以智能机器人的形式体现,而并不生成任何作品。这种情况下对于作者而言主张侵权赔偿的性价比将进一步降低。


(二训练后发布——构成信息网络传播权侵权的双重判定

 AI 产品生成近似内容并发布时,侵权认定需分两步判断:

第一步,抓取和训练阶段的侵犯复制权行为。若抓取训练素材时未经作者授权,那么即使生成内容经过一定修改其训练行为已构成复制权侵权,后续发布行为属于侵权结果的延伸。

第二部,成内容和发布阶段侵犯信息网络传播权的行为。若生成内容与原作品构成实质性相似”,且通过网络向公众提供,毫无疑问,将单独构成信息网络传播权侵权。

司法核心逻辑:侵权认定不依赖是否直接发布原作品在于是否未经授权利用原作品独创性表达,并通过 AI 技术实现传播与利用,只要满足这一条件,即可认定侵权成立


(三)司法宽容的必要性与边界——创新与保护的平衡之道

AI 技术发展离不开海量数据训练,适当给予一些司法上的宽容能够推动AI技术的发展。但司法宽容需建立在合法合规基础上,而非无底线豁免。

首先,从比较法的视角,其他国家对此是如何规定的。欧盟《AI法案》第53条(c)款和第105条均明确AI训练的素材涉及版权保护的,需要取得权利人的同意或适用相关的版权例外。而《单一数字市场版权指令》(《CDSM》指令)第4条就规定了本与数据挖掘(TDM的例外,即对于合法获取的作品默认可以进行文本和数据挖掘除非权利人明确表示禁止挖掘。

近期德国慕尼黑地区法院在GEMA诉OpenAI的一起版权侵权案中进一步明确了适用边界,包括非商业目的和非“记忆性复制”等。

美国则采用“fair use”四要素的判定方法,即从使用目的、作品状态、使用比例和对作品的影响四个方面,整体评价数据采集行为是否损害原作品的权利。在谷歌图书(Google Books)案中,法院对谷歌对图书的数字化扫描和展示行为是否构成侵权进行了分析。法院认为,谷歌图书虽然未经授权就对已出版书籍(作品已发表)进行数字化扫描和复制,并提供搜索和和预览功能,这是一种服务于公共利益的转换性使用(目的),且涉及的预览页面仅仅是少量预览(比例)。对市场影响方面,法院认为这一功能并不能取代其他读者对原书的需求,反而可能激发读者对原书的兴趣,促进图书销售(不损害原作品权利)。

从以上两个案例可以看出,欧洲和美国对于AI训练素材的侵权问题态度有所区别,美国相较于欧洲或许更为宽容。可见世界范围内对于这一问题仍然存在不小的争议,仍然在寻求一个关于智能体升级进化和版权保护之间的平衡。

一方面,从AI企业的立场考虑,海量的数据需求和商业变现是其两大核心诉求,于是无法牵强地套用诸如“非商业用途”或“公共利益”的条款。另一方面,从作者的角度出发,对于低创意附加值的作品,作者或许也没有过高的版权费用的期待。如此一来,公共数字版权平台或许可以起到维持二者平衡的纽带——公共数字版权平台可以面向作者确认版权、收集作品,并且在收集作品的同时征询作者的意见,是否愿意提供给AI企业用于训练;AI数字版权可以从公共数字版权平台采购作品,承诺不生成作品或者对生成作品建立审核机制和追责机制,以便监管部门和作者及时发现、定向问责。


三、案例启示与行业合规建议

本案判决为 AI 行业提供了明确的法律指引,无论是个人用户还是企业,都需建立合规意识:

个人用户:AI 训练需坚守 “合法素材 + 非商业使用” 原则,避免截取他人版权作品公开发布或商业利用,警惕 “技术操作” 掩盖侵权本质。

l AI 企业:应建立健全素材授权机制,通过合法采购、开源授权等方式获取训练数据;同时设置素材审核流程,及时清理侵权内容,履行网络服务提供者的注意义务。

司法导向:未来需进一步细化 AI 训练的合理使用标准,出台针对性司法解释,明确宽容适用的具体场景与边界,为 AI 技术健康发展提供稳定的法律环境。


案的核心价值的在于,既未因 AI 技术的创新性而忽视著作权保护,也未因严格保护而阻碍技术进步,而是通过精准界定侵权行为、明确责任边界,为 AI 行业的合规发展划定了清晰路径。这一判决逻辑,将为后续同类案件提供重要参考,推动 AI 领域形成 “创新有边界、保护有力度” 的法治生态。


相关文集