电视剧大全,中文字幕乱在线伦视频高濑,国产ZZJJZZJJ视频全免费

文丨游云庭（上海大邦律師事務(wù)所高級(jí)合伙人，知識(shí)產(chǎn)權(quán)律師。）

近日，人工智能公司OpenAI在開發(fā)者大會(huì)上宣布：如果用戶因人工智能生成內(nèi)容造成版權(quán)侵權(quán)被起訴索賠，其將向用戶提供版權(quán)保護(hù)盾：為客戶辯護(hù)并報(bào)銷過程中產(chǎn)生的費(fèi)用。其實(shí)OpenAI這招是從微軟學(xué)來的。而微軟，則是因?yàn)橛昧碎_源軟件代碼訓(xùn)練人工智能被起訴，迫不得已才想出版權(quán)保護(hù)盾的辦法。今天就來聊聊微軟被起訴這個(gè)訴訟，以及用開源代碼訓(xùn)練人工智能到底有哪些法律風(fēng)險(xiǎn)。

筆者在網(wǎng)上找到了案件的起訴書、微軟的答辯意見和美國(guó)加利福尼亞北區(qū)法院的初步裁定，今天就根據(jù)相關(guān)內(nèi)容介紹一下該案。美國(guó)是普通法系國(guó)家，法院的審判模式和我國(guó)有很大區(qū)別，所以我對(duì)判決書中的判例引用和制度也都不甚了解，只能挑自己看得懂的案件事實(shí)和部分說理做摘要。美國(guó)法律上的分析可以參考美國(guó)律師這篇文章。

OpenAI公司開發(fā)出一款名為Codex的人工智能生成工具。GitHub 推出了基于生成式人工智能的代碼自動(dòng)完成工具 Copilot。Copilot是一款面向 GitHub用戶的訂閱工具，月費(fèi) 10 美元，年費(fèi)100美元。根據(jù)訴狀，Copilot需要Codex才能運(yùn)行。2022年11月，兩名軟件開發(fā)者使用化名（為什么用化名起訴，因?yàn)橛腥送ㄟ^原告律師對(duì)原告發(fā)出過死亡威脅）提起了假定的集體訴訟，被告為GitHub、微軟（作為GitHub的母公司）、OpenAI。原告聲稱Copilot和Codex作為人工智能工具，其訓(xùn)練中使用了原告受版權(quán)保護(hù)的計(jì)算機(jī)代碼。

開源代碼的特點(diǎn)是都在開源許可證下發(fā)布的，既然是開放的，所以用開源代碼訓(xùn)練人工智能也不能說必然侵權(quán)，但在GitHub上有11種開源許可證，每一種許可證都對(duì)使用開源代碼者有不同的要求，要求任何衍生作品或許可作品的副本都包含貢獻(xiàn)源代碼者的信息、版權(quán)聲明以及其他要求，比如GPL許可證下的代碼要求使用者開放其軟件中的全部源代碼。

但原告認(rèn)為，當(dāng)他們的代碼被用作訓(xùn)練數(shù)據(jù)時(shí)，代碼附帶的開源許可證的版權(quán)管理信息（“CMI”Copyright Management Information）被刪除了。他們還認(rèn)定Codex和Copilot生成的作品部分包含了他們受版權(quán)保護(hù)的代碼。原告的訴求包括一系列索賠，違反《數(shù)字千年版權(quán)法》(DMCA)；違反 GitHub用戶協(xié)議；不公平競(jìng)爭(zhēng)；隱私權(quán)侵權(quán)等。

但原告的起訴有一個(gè)證據(jù)瑕疵：無法證明Codex和Copilot生成的作品完全復(fù)制了原告的代碼。法院初步調(diào)查的結(jié)果是：發(fā)現(xiàn)了幾處 Copilot的輸出與 Github用戶編寫的授權(quán)代碼相匹配（matched）的情況，但這些情況都不涉及原告發(fā)布的代碼。也就是說，有初步證據(jù)證明人工智能輸出的內(nèi)容用了Github上的代碼，但本案的原告不是代碼的作者，所以無權(quán)主張此行為侵權(quán)。

這些匹配的代碼證明原告訴訟事項(xiàng)并非沒有依據(jù)，故法院在初步裁定書中認(rèn)定：原告有理由聲稱，被告的計(jì)劃至少存在以下重大風(fēng)險(xiǎn)：將復(fù)制原告的許可代碼并進(jìn)行輸出。首先，Codex和Copilot的數(shù)據(jù)訓(xùn)練數(shù)據(jù)中包括所有公開的GitHub存儲(chǔ)庫。其次，程序會(huì)根據(jù)相關(guān)提示重現(xiàn)眾所周知的代碼，并提供幾個(gè)具體的此類復(fù)制的例子。最后，原告聲稱GitHub自己的內(nèi)部研究顯示，Copilot“大約有1%的時(shí)間”從訓(xùn)練數(shù)據(jù)中復(fù)制代碼。因此，原告聲稱的，“如果沒有禁令救濟(jì)，就會(huì)存在以下現(xiàn)實(shí)危險(xiǎn)，Codex或Copilot將復(fù)制原告的許可代碼作為輸出”有一定道理。

原告還聲稱被告修改了Copilot，以確保它不再復(fù)制許可證文本、署名和版權(quán)聲明。法院認(rèn)為，如果原告的代碼是被復(fù)制用于輸出，其復(fù)制方式將違反開源許可證的規(guī)定。雖然原告未能證明事實(shí)損害足以使其獲得部分訴訟資格，但法院還是認(rèn)可他們有資格以財(cái)產(chǎn)權(quán)受到損害為由提出損害賠償，同時(shí)要求起訴8項(xiàng)禁令救濟(jì)。

雖然法院的初步裁定駁回了原告的很多訴請(qǐng)，比如隱私權(quán)，民事共謀和宣告性救濟(jì)（civil conspiracy and declaratory relief），但這個(gè)訴訟如果繼續(xù)推進(jìn)，對(duì)被告方而言，其人工智能產(chǎn)品會(huì)始終處于被法院認(rèn)定停止侵權(quán)的威脅之下，所以目前案件對(duì)誰更有利還不好說。

要厘清用開源代碼訓(xùn)練人工智能是否侵權(quán)的問題，可以看訴狀里提到的下面幾個(gè)問題：

一、人工智能是怎么用開源代碼訓(xùn)練及輸出的？

根據(jù)訴狀，原告認(rèn)為人工智能的訓(xùn)練是算法推演，而不是理解代碼后生成結(jié)果，至少在訴訟的答辯狀里，被告方對(duì)訓(xùn)練過程、方法都沒有進(jìn)行回應(yīng)，只是說認(rèn)為訓(xùn)練屬于合理使用。

原告認(rèn)為：Codex和Copilot不能理解代碼，與人工智能有關(guān)的“研究”、 “培訓(xùn)”和“學(xué)習(xí)”等詞描述的是與人類推理不同的算法過程。也不能像人類那樣“理解”語義和上下文，人工智能模型無法像人類一樣“學(xué)習(xí)”，它能檢測(cè)其訓(xùn)練數(shù)據(jù)中具有統(tǒng)計(jì)意義的模式，并提供從其訓(xùn)練數(shù)據(jù)中得出的輸出結(jié)果，在統(tǒng)計(jì)適當(dāng)?shù)那闆r下，對(duì)數(shù)據(jù)進(jìn)行分析。這樣的“蠻力”方法既不高效，也不可靠。所以Codex和Copilot不能自己生成代碼，他們只是用算法推導(dǎo)出用戶想要什么，他們生成的結(jié)果是多個(gè)來源拼湊的。

可能Codex和Copilot這個(gè)產(chǎn)品是為了給程序員編程時(shí)服務(wù)，這個(gè)訓(xùn)練的智能跟人類學(xué)習(xí)區(qū)別還是很大的，甚至和ChatGPT生成代碼的方式也是不同的。如果訴狀所稱屬實(shí)，因?yàn)檩敵龅膬?nèi)容都是現(xiàn)成的結(jié)果的拼湊，其侵權(quán)的可能性確實(shí)會(huì)比較大。

二、GitHub的用戶協(xié)議有沒有限制或禁止訓(xùn)練行為？

所有上傳到GitHub的代碼均受GitHub用戶協(xié)議的約束，該協(xié)議條款規(guī)定用戶保留其上傳至GitHub的任何內(nèi)容的所有權(quán)，但授予GitHub存儲(chǔ)權(quán)，對(duì)“內(nèi)容”進(jìn)行存檔、解析和顯示，并制作必要的附帶副本，以提供服務(wù)，包括不斷改進(jìn)服務(wù)。

根據(jù)Github的用戶協(xié)議：這包括將代碼復(fù)制到我們的數(shù)據(jù)庫并進(jìn)行備份等操作的權(quán)利;向您和其他用戶提供，將其解析為搜索索引或在我們的服務(wù)器上進(jìn)行其他分析;與其他用戶共享。用戶協(xié)議還規(guī)定，用戶如果設(shè)置了GitHub將授予每位GitHub用戶非獨(dú)占的、全球范圍內(nèi)的許可通過GitHub服務(wù)使用、展示和執(zhí)行。在GitHub功能允許的情況下，內(nèi)容只能在GitHub上發(fā)布。

鑒于用戶協(xié)議中有代碼要“與其他用戶共享”的規(guī)定，所以，如果代碼是開源的，那拿來訓(xùn)練應(yīng)當(dāng)也是共享的一種方式，符合用戶協(xié)議規(guī)定。

三、人工智能輸出的涉及開源代碼的內(nèi)容是不是符合開源協(xié)議？

訴狀稱：盡管GitHub公共存儲(chǔ)庫中的大部分代碼都受到限制其使用的開源許可證的約束，但Codex和Copilot“并未進(jìn)行編程設(shè)計(jì)，以將版權(quán)歸屬、版權(quán)聲明和許可條款視為法律上必需的”，Copilot訓(xùn)練數(shù)據(jù)并復(fù)制作為輸出，但沒有復(fù)制版權(quán)歸屬信息、版權(quán)聲明和許可條款。這違反了“數(shù)萬（可能是數(shù)百萬）軟件開發(fā)人員”的開源許可證。

這里面有三個(gè)法律問題，首先是違法問題，根據(jù)美國(guó)的版權(quán)法律，未經(jīng)版權(quán)所有者或法律授權(quán)，任何人不得刪除或更改版權(quán)管理信息。而本案中，代碼附帶的開源許可證的版權(quán)管理信息（“CMI”Copyright Management Information），在訓(xùn)練時(shí)被刪除了。這里的版權(quán)管理信息的范圍要比我國(guó)《著作權(quán)法》規(guī)定的署名權(quán)要大，因?yàn)槌孙@示作者或項(xiàng)目的名稱，開源協(xié)議可能還有其他要求，比如公開衍生代碼甚至項(xiàng)目的全部代碼。

其次是違約問題，GitHub上有十一種開源協(xié)議。每一種都對(duì)使用代碼，產(chǎn)生衍生代碼有明確的條件，并且復(fù)制或者以原有代碼衍生新的代碼都至少應(yīng)當(dāng)載明代碼來源，所屬的開源許可證，如果版權(quán)管理信息被刪除，人工智能的開發(fā)者就會(huì)違反開源協(xié)議。

還有人工智能使用者侵權(quán)的問題。由于版權(quán)管理信息被刪除，Codex和Copilot的使用者無法判斷人工智能生成的代碼是否屬于開源許可證項(xiàng)下的代碼，如果其使用了這些代碼，但沒有按照開源許可證的要求標(biāo)明開源代碼來源以及其他要求，就會(huì)對(duì)開源代碼的作者構(gòu)成侵權(quán)?？赡苓@也是微軟和OpenAi會(huì)向其人工智能服務(wù)用戶提供版權(quán)保護(hù)盾的原因。

最后，本案可以看出人工智能目前處于野蠻生長(zhǎng)的狀態(tài)，創(chuàng)業(yè)者只顧產(chǎn)品快速推出，但產(chǎn)品設(shè)計(jì)中忽視法律風(fēng)險(xiǎn)和更重要的產(chǎn)業(yè)生態(tài)保護(hù)。開源軟件作為一個(gè)有幾十年歷史的龐大的產(chǎn)業(yè)，標(biāo)注版權(quán)管理信息和遵守開源許可證的規(guī)定是產(chǎn)業(yè)能夠正常運(yùn)轉(zhuǎn)的核心，而新興的人工智能產(chǎn)業(yè)卻只是把開源社區(qū)的成果——開源代碼全部拿走，但完全不愿遵守法律和開源社區(qū)的規(guī)則。所以，我的判斷是，這種破壞生態(tài)式的創(chuàng)新應(yīng)該不會(huì)得到法院的支持。

（文章僅代表作者觀點(diǎn)。責(zé)編郵箱：yanguihua@jiemian.com。）

文丨游云庭（上海大邦律師事務(wù)所高級(jí)合伙人，知識(shí)產(chǎn)權(quán)律師。）

要厘清用開源代碼訓(xùn)練人工智能是否侵權(quán)的問題，可以看訴狀里提到的下面幾個(gè)問題：

一、人工智能是怎么用開源代碼訓(xùn)練及輸出的？

二、GitHub的用戶協(xié)議有沒有限制或禁止訓(xùn)練行為？

三、人工智能輸出的涉及開源代碼的內(nèi)容是不是符合開源協(xié)議？

（文章僅代表作者觀點(diǎn)。責(zé)編郵箱：yanguihua@jiemian.com。）

歷史搜索全部刪除

熱門搜索

用GitHub上的開源代碼訓(xùn)練人工智能違法嗎？

評(píng)論

用GitHub上的開源代碼訓(xùn)練人工智能違法嗎？