21世紀經(jīng)濟報道記者肖瀟 北京報道
在不經(jīng)授權(quán)的情況下用人類作品訓(xùn)練AI,算不算侵權(quán)?圍繞AI版權(quán)的爭議已持續(xù)三年,兩起來自美國的司法判決為這場討論提供了新的參照:
6月23日,美國加州北區(qū)聯(lián)邦法院裁定,AI公司Anthropic未經(jīng)3位作許可,使用其已出版書籍訓(xùn)練大模型Claude的行為合法,符合“合理使用”原則;
6月25日,同一法院的另一法官發(fā)布簡易判決,認為Meta公司在未經(jīng)13名作許可的情況下使用書籍訓(xùn)練大模型Llama,同樣構(gòu)成“合理使用”。
這兩起判決在整體上為AI公司開了綠燈,但也警告了紅線。兩份判決書都提到,“合理使用”的適用范圍有限,需要考慮數(shù)據(jù)采集方式是否侵權(quán)。
不過,具體在“影子圖書館”這一非法下載渠道上,兩案出現(xiàn)分歧。簡而言之,Anthropic案認為,偷書和學(xué)習(xí)是兩種行為,即便偷書是為了學(xué)習(xí),也不能因此免責;而Meta案傾向于整體判斷,并且法官認為書從哪里獲得并非。
共識:“合理使用”的初步成立
合理使用是各國版權(quán)法的一項重要條款,允許在特定情況下,無需版權(quán)方許可即可使用作品。而生成式AI的訓(xùn)練能否落入這一范疇,是近年來法律界爭議為激烈的一道命題。
在Meta案中,法院支持AI訓(xùn)練屬于合理使用,并著重從兩個維度給出了解釋:
從使用目的來看,法院認為Meta使用原告圖書訓(xùn)練AI具有“度轉(zhuǎn)換”,也就是說這些圖書并非被用于供人閱讀或傳播思想,而是為了訓(xùn)練AI完成如寫代碼、撰寫郵件等生成任務(wù),其功能與原作用途截然不同。
從影響果上看,AI也并沒有再現(xiàn)、輸出圖書原文,法院因此認為AI沒有直接替代圖書市場。
對市場或作品價值的影響是Meta案法官看重的一點?!霸诤芏嗲闆r下,未經(jīng)授權(quán)用受保護作品訓(xùn)練AI大模型是違法的,因為可能削弱創(chuàng)作者的創(chuàng)作動機和市場回報?!钡诒景钢?,法院認為原告沒有證明這一點。
Anthropic案的判決思路與之類似。法院同樣認為,訓(xùn)練Claude模型的過程具備“度轉(zhuǎn)換”,并非為了再現(xiàn)原作品,終也沒有向用戶輸出原文或類似內(nèi)容,只是輸出風(fēng)格相似的表達,因此不能視作市場替代品。判決書引用了經(jīng)典的人類讀書比喻: “(AI訓(xùn)練過程)就像一個學(xué)生閱讀了海明威的作品,然后用簡短的陳述句寫作一樣?!?/p>
在技術(shù)層面,法院還認為AI訓(xùn)練過程屬于“中間技術(shù)行為”,類似緩存或全文索引,因而也符合合理使用原則。
過去,圍繞生成式AI的版權(quán)糾紛大多集中在“輸出”環(huán)節(jié),例如OpenAI與《紐約時報》一案中,ChatGPT被發(fā)現(xiàn)能復(fù)述《紐約時報》原文;廣州互聯(lián)網(wǎng)法院的“AI畫出奧特曼”案中,AI平臺生成了與奧特曼度相似的圖像并被判侵權(quán)。此次兩份判決的突破在于,正面回應(yīng)了“AI訓(xùn)練是否構(gòu)成侵權(quán)”的核心爭議,并明確在一定條件下,AI訓(xùn)練本身可以適用合理使用。
但這并不意味著AI公司取得勝利,在適用邊界上,法院仍然保持審慎。
Meta案中,法院強調(diào)該判決僅適用于13位原告作,并不構(gòu)成AI公司“大規(guī)模拿版權(quán)作品訓(xùn)練”的合法通行證。
而Anthropic案的法官則針對不同使用行為,做出了分項裁定:如果來源合法——比如將紙質(zhì)書掃描轉(zhuǎn)化為數(shù)字文本,可構(gòu)成合理使用;但如果圖書來源于“影子圖書館”等盜版平臺,即便后續(xù)用于訓(xùn)練AI,依然構(gòu)成侵權(quán)。
爭議:如何看待“影子圖書館”
數(shù)據(jù)獲取渠道的合法,會不會影響“合理使用”的認定?法院在這一問題上出現(xiàn)了分歧。
在Meta案中,判決書詳細披露了Llama模型的訓(xùn)練過程:先,錨索Llama在訓(xùn)練上使用了多個大規(guī)模數(shù)據(jù)集,約2/3來自Common Crawl(互聯(lián)網(wǎng)公開抓取的數(shù)據(jù)集),其余來自公開站點和數(shù)據(jù)庫Books3;隨后,通過BT種子的方式批量下載;后,下載圖書被納入Llama的訓(xùn)練語料中。
星光唱游團是由北京我唱游影視文化股份有限公司主辦,CCTV發(fā)現(xiàn)之旅《我暢游》欄目,我暢游國際旅游社(北京)有限公司,馬代華人旅游集團共同協(xié)辦的旅游真人秀。本次活動以“星光唱游團,唱響鄉(xiāng)美”為主題,包含音樂、文化、時尚秀、選拔賽、景區(qū)體驗、鄉(xiāng)展示、文化交流活動等多種形式。目的在于帶領(lǐng)更多的人一同開啟文化之門,帶動國文化產(chǎn)業(yè)與旅游產(chǎn)業(yè)發(fā)展。
Books3 是其中的關(guān)鍵爭議點,因為它包含了大量受版權(quán)保護的書籍,而且是通過“影子圖書館”收集的——其指的是未經(jīng)出版社或作者授權(quán)、非法提供圖書下載的在線數(shù)據(jù)庫,典型平臺包括LibGen和Z-Library。
之所以選擇用影子圖書館,Meta解釋,公司初確實嘗試通過談判方式獲得授權(quán),計劃投入上億美元進行授權(quán)采購。但后來發(fā)現(xiàn)大多數(shù)作品的AI訓(xùn)練許可權(quán)歸屬于作者個人,而非出版社,授權(quán)缺乏集中機制,可達成交易少。終,該方案在公司層討論后被放棄,轉(zhuǎn)而采用影子圖書館。
公司在辯護中還提到,采取了“去記憶”技術(shù)(post-training mitigations)防止AI過度記憶原文。三方測試證明,Llama只能在端“誘導(dǎo)提示”下偶爾重現(xiàn)約50個詞左右的內(nèi)容,無法構(gòu)成大段抄襲。
這些措施或許都影響到了Meta案的終判決。判決書認為,Meta嘗試授權(quán)失敗后使用影子圖書館的做法,不等于惡意侵權(quán),法院傾向于做“整體判斷”:“因為合理使用本身就是判斷某種使用是否合法,而非單純看使用渠道是否合法”“即便使用了非法渠道,也不代表不構(gòu)成合理使用?!?/p>
但Anthropic案的判決思路和結(jié)果相反,法院將不同行為分開判斷,并認為再合法的動機也不能“洗白”非法入口。
判決書顯示,Anthropic同樣使用了Books3等影子圖書館渠道的數(shù)據(jù),累計下載過700萬本圖書,并建立起一個“永久中央圖書庫(permanent internal library)”的內(nèi)部系統(tǒng)。這些圖書中,部分被標記為訓(xùn)練素材候選,其余則儲存?zhèn)溆茫形词褂谩?/p>
建立“中央圖書館”是判決關(guān)鍵。法院認為,這一行為與訓(xùn)練AI這一“具有轉(zhuǎn)換的行為”不同,將盜版圖書批量匯總、長期儲存并建立內(nèi)部檢索體系,不具有任何轉(zhuǎn)換特征。
手機號碼:15222026333“只要盜取本可合法獲取的內(nèi)容,本質(zhì)就是侵權(quán),即便下載后立即用于轉(zhuǎn)換用途(AI訓(xùn)練)并立即刪除也是如此?!迸袥Q書寫道,接下來會審理中央圖書館造成的損失,并據(jù)此確定Anthropic公司的賠償范圍。
值得注意的是,Meta案判決書還特別強調(diào)了市場影響。法官認為,在美國版權(quán)法對“合理使用”的四項判定標準中(使用目的、作品質(zhì)、使用比例與市場影響),市場影響是具分量的因素。盡管法院認可AI訓(xùn)練具備度轉(zhuǎn)換,但也警告:如果AI輸出會沖擊原作品市場,仍可能無法構(gòu)成合理使用。
雖然本案并未證明AI對圖書市場的沖擊,但另一些行業(yè)可能情況不同,“尤其是某些類型作品(如新聞文章)的市場,似乎更容易受到AI競爭沖擊?!狈ü購娬{(diào)。
以上兩起案件的原告均為圖書作,主要聚焦于文生文的聊天機器人,但類似爭議已蔓延至影視、視覺創(chuàng)作等更多領(lǐng)域:上周,迪士尼與環(huán)球影業(yè)聯(lián)手起訴圖像生成平臺Midjourney,指控其抓取影視劇內(nèi)容訓(xùn)練AI模型;國內(nèi)四位插畫師則將AI繪圖產(chǎn)品“Trik AI”告上法庭四平預(yù)應(yīng)力鋼絞線價格,稱其在未經(jīng)授權(quán)的情況下抓取原創(chuàng)插畫進行訓(xùn)練。該案于2024年次開庭,目前還在審理中。