文丨游云庭(上海大邦律師事務(wù)所高級合伙人,知識產(chǎn)權(quán)律師。)
近日,知網(wǎng)向人工智能搜索服務(wù)商秘塔發(fā)送侵權(quán)通知,要求其立即斷開知網(wǎng)內(nèi)容搜索結(jié)果鏈接。無獨(dú)有偶,一個月前擁有《紐約客》、《時尚》、和《連線》的美國雜志巨頭康泰納仕集團(tuán)也曾向人工智能搜索引擎Perplexity發(fā)出過類似侵權(quán)通知。作為秘塔和Perplexity的用戶,今天就來分析下知網(wǎng)有權(quán)要求秘塔斷開鏈接嗎?
一、知網(wǎng)的robots文件并未屏蔽秘塔
搜索引擎是否有權(quán)對互聯(lián)網(wǎng)站內(nèi)容進(jìn)行抓取,是由網(wǎng)站robots文件的設(shè)置決定的,如果網(wǎng)站的robots文件不允許抓取,則搜索引擎強(qiáng)行抓取可能有不正當(dāng)競爭風(fēng)險,有意思的是,雖然知網(wǎng)給秘塔發(fā)函要求斷開鏈接,也就是不允許其抓取網(wǎng)頁內(nèi)容,但其網(wǎng)站的主站robots文件網(wǎng)頁卻顯示:很抱歉!您瀏覽的頁面不存在,可能已被刪除或轉(zhuǎn)移。也就是說,知網(wǎng)主站并沒有禁止任何搜索引擎爬蟲。
當(dāng)然,現(xiàn)在很多的人工智能搜索引擎的爬蟲確實(shí)也不講武德,其不像傳統(tǒng)的百度、谷歌、搜狗、必應(yīng)那樣把自家的爬蟲進(jìn)行命名,而是默不作聲的匿名爬取,比如前文提到的Perplexity公司CEO接受采訪時公然表示,哪怕你禁止我的爬蟲,我也不保證不抓取你的網(wǎng)頁,因?yàn)槲业墓ぞ甙涿?a target="_blank">第三方爬蟲。但至少從技術(shù)上,知網(wǎng)沒有屏蔽秘塔的爬蟲。
二、屏蔽特定爬蟲要有正當(dāng)理由
可能有讀者會問,我的地盤我做主,網(wǎng)站所有人要屏蔽別人為什么還要有正當(dāng)理由?這里涉及兩方面的問題,一個是《反壟斷法》,另一個是行業(yè)協(xié)會的規(guī)定。
1、知網(wǎng)有市場支配地位
2022年國家市場監(jiān)管總局曾認(rèn)定知網(wǎng)在中國境內(nèi)中文學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)數(shù)據(jù)庫服務(wù)市場具有支配地位,并因其其他的壟斷行為,對其處以8760萬元罰款。我國《反壟斷法》第二十二條規(guī)定:禁止具有市場支配地位的經(jīng)營者從事下列濫用市場支配地位的行為:沒有正當(dāng)理由,拒絕與交易相對人進(jìn)行交易。所以,有市場支配地位的知網(wǎng),要求秘塔搜索斷開鏈接需要有正當(dāng)理由的,否則就涉嫌拒絕交易的違法壟斷。
2、行業(yè)公約規(guī)定限制搜索引擎抓取應(yīng)有合理理由
多年前,中國互聯(lián)網(wǎng)協(xié)會制定了《互聯(lián)網(wǎng)搜索引擎服務(wù)自律公約》對搜索引擎爬取網(wǎng)站信息是否正當(dāng)進(jìn)行了規(guī)定。根據(jù)該公約第八條:互聯(lián)網(wǎng)站所有者設(shè)置機(jī)器人協(xié)議應(yīng)遵循公平、開放和促進(jìn)信息自由流動的原則,限制搜索引擎抓取應(yīng)有行業(yè)公認(rèn)合理的正當(dāng)理由,不利用機(jī)器人協(xié)議進(jìn)行不正當(dāng)競爭行為,積極營造鼓勵創(chuàng)新、公平公正的良性競爭環(huán)境。這個自律公約可以看做行業(yè)對于網(wǎng)站屏蔽搜索引擎標(biāo)準(zhǔn)的共識,知網(wǎng)的限制行為需要符合這個共識。
3、法院認(rèn)為無正當(dāng)理由屏蔽搜索引擎涉嫌不正當(dāng)競爭
在后來的百度訴奇虎360搜索引擎違法抓取案中,法院也認(rèn)可了該公約內(nèi)容的合理性。北京高院法院認(rèn)定百度在缺乏合理、正當(dāng)理由的情況下,以對網(wǎng)絡(luò)搜索引擎經(jīng)營主體區(qū)別對待的方式,限制360搜索引擎抓取其相關(guān)網(wǎng)站網(wǎng)頁內(nèi)容,影響該通用搜索引擎的正常運(yùn)行,損害了奇虎公司的合法權(quán)益和相關(guān)消費(fèi)者的利益,妨礙了正常的互聯(lián)網(wǎng)競爭秩序,違反公平競爭原則,且違反誠實(shí)信用原則和公認(rèn)的商業(yè)道德而具有不正當(dāng)性,不制止不足以維護(hù)公平競爭的秩序,故構(gòu)成反不正當(dāng)競爭法第二條規(guī)定所指的不正當(dāng)競爭行為。所以根據(jù)行業(yè)公約,知網(wǎng)也需要找到要求秘塔斷開鏈接的正當(dāng)理由。
三、人工智能涉及的知識產(chǎn)權(quán)問題可以作為正當(dāng)理由嗎?
所以知網(wǎng)有沒有權(quán)利要求秘塔斷開鏈接,核心問題是其訴求有沒有法律上的正當(dāng)性。人工智能是新生事物,對版權(quán)內(nèi)容的使用存在一定的合規(guī)瑕疵,如果知網(wǎng)以此為由要求斷開鏈接的,會有一定合理性。雖然據(jù)秘塔的通告稱,知網(wǎng)向其發(fā)送的侵權(quán)通知長達(dá)28頁,但除了本文前面的截圖外,其他內(nèi)容并未披露,所以,筆者只能根據(jù)自己使用秘塔的體驗(yàn),以及行業(yè)的情況進(jìn)行分析。
1、知網(wǎng)無權(quán)主張秘塔訓(xùn)練版權(quán)侵權(quán)
如果秘塔使用了知網(wǎng)上的論文進(jìn)行了人工智能訓(xùn)練,知網(wǎng)不一定有權(quán)主張版權(quán)侵權(quán)。因?yàn)檎撐牡淖髡咄陡迥畴s志,雜志刊登后,文章的版權(quán)可能是作者的,也可能是作者授權(quán)給了雜志,知網(wǎng)站內(nèi)的多數(shù)論文雖然被收錄,但知網(wǎng)擁有這是雜志社或作者授權(quán)的信息網(wǎng)絡(luò)傳播權(quán),如果該論文被用于訓(xùn)練,訓(xùn)練涉及的版權(quán)是著作權(quán)法規(guī)定的復(fù)制權(quán)和著作權(quán)其他權(quán)利,并不侵犯知網(wǎng)的信息網(wǎng)絡(luò)傳播權(quán)。當(dāng)然如果是雜志社維權(quán)秘塔訓(xùn)練侵權(quán)的,那么秘塔將面臨《紐約時報》起訴OpenAI一模一樣的問題。
如果知網(wǎng)可以證明秘塔的系統(tǒng)抓取其網(wǎng)站大量論文并進(jìn)行批量訓(xùn)練的,則可以主張訓(xùn)練行為涉嫌侵權(quán)其整體數(shù)據(jù)權(quán)利,構(gòu)成不正當(dāng)競爭,法律依據(jù)是《反不正當(dāng)競爭法》第二條原則性條款,經(jīng)營者在生產(chǎn)經(jīng)營活動中,應(yīng)當(dāng)遵循自愿、平等、公平、誠信的原則,遵守法律和商業(yè)道德。
2、秘塔索引庫如包含知網(wǎng)內(nèi)容,可能侵權(quán)
根據(jù)網(wǎng)上公開的報道,秘塔AI搜索的播客和文庫板塊是有索引庫的,筆者理解的索引庫可能是秘塔把批量收集的文獻(xiàn)事先直接在內(nèi)部做了一個索引數(shù)據(jù)庫,當(dāng)用戶搜索時,秘塔會搜索網(wǎng)絡(luò)對應(yīng)的實(shí)時內(nèi)容,然后利用人工智能把實(shí)時搜索結(jié)果和索引庫的內(nèi)容整合在一起提供答案。
根據(jù)筆者的個人體驗(yàn),索引庫很可能是真實(shí)存在的,因?yàn)槊厮乃阉鹘Y(jié)果里經(jīng)常提供非公開可以訪問的論文鏈接,這些論文被標(biāo)注為pdf,如果用戶點(diǎn)擊的,可以在秘塔網(wǎng)頁的小框中閱讀pdf全文但無法下載,如果點(diǎn)擊pdf對應(yīng)的鏈接,就會被鏈接到一個文庫類網(wǎng)站的登錄界面,這個應(yīng)該是為了表明pdf的來源。根據(jù)筆者的用戶感知,這個在線閱讀的pdf應(yīng)該是秘塔數(shù)據(jù)庫提供的。其實(shí)這個技術(shù)上也不難證明,我們代理訴訟時碰到此問題,通常用抓包軟件顯示該文檔的真實(shí)ip地址。如果這個ip地址位于秘塔的服務(wù)器,則說明是秘塔提供的。
3、過擬合可能導(dǎo)致輸出結(jié)果侵權(quán)
秘塔的搜索結(jié)果如果出現(xiàn)了被索引論文的主要內(nèi)容,可能涉嫌“洗稿”類著作權(quán)侵權(quán)。不同于普通的搜索引擎,秘塔的搜索是人工智能的問答式引擎,其結(jié)果會整合很多篇新聞、文章、論文,多數(shù)情況下,這種整合后輸出的結(jié)果構(gòu)成合理使用,法律依據(jù)是我國著作權(quán)法規(guī)定的,為介紹、評論某一作品或者說明某一問題,在作品中適當(dāng)引用他人已發(fā)表作品的構(gòu)成合理使用。但少部分情況下,人工智能會因?yàn)橛?xùn)練技術(shù)問題出現(xiàn)過擬合(overfitting),導(dǎo)致輸出的結(jié)果內(nèi)容和訓(xùn)練內(nèi)容一致,此時,比如秘塔預(yù)訓(xùn)練論文時有過擬合,就會出現(xiàn)搜索結(jié)果照搬索引論文文獻(xiàn)內(nèi)容的情況,哪怕照搬的是部分內(nèi)容也是侵犯被索引文獻(xiàn)信息網(wǎng)絡(luò)傳播權(quán)的,這時的行為性質(zhì)就從合理使用變成了抄襲。
如果出現(xiàn)搜索結(jié)果抄襲知網(wǎng)論文,或者秘塔制做索引數(shù)據(jù)庫、或者向用戶提供論文pdf的在線閱讀功能的情況,都是侵犯信息網(wǎng)絡(luò)傳播權(quán)的行為,如果知網(wǎng)據(jù)此要求秘塔斷開鏈接的,筆者認(rèn)為是正當(dāng)?shù)摹?/span>
4、抓取學(xué)術(shù)文獻(xiàn)題錄及摘要數(shù)據(jù)不一定侵權(quán)
筆者注意到,知網(wǎng)的侵權(quán)通知中稱秘塔向用戶提供知網(wǎng)的學(xué)術(shù)文獻(xiàn)題錄及摘要數(shù)據(jù),涉嫌侵權(quán)。對秘塔抓取這兩部分網(wǎng)頁是否侵權(quán),筆者倒是有不同意見。網(wǎng)頁不同于論文,知網(wǎng)的學(xué)術(shù)文獻(xiàn)題錄(標(biāo)題、作者、發(fā)表年份、期刊卷號、期號、頁碼以及摘要)及摘要網(wǎng)頁都是國內(nèi)用戶公開可以訪問的,知網(wǎng)作為在中國境內(nèi)中文學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)數(shù)據(jù)庫服務(wù)市場具有支配地位的經(jīng)營者,其不允許秘塔搜索抓取這兩部分公開信息需要有合理的理由。如果秘塔清除了索引庫中的知網(wǎng)論文,并且不再向用戶提供知網(wǎng)論文的在線閱讀功能,此時,知識產(chǎn)權(quán)侵權(quán)的爭議就很小了,根據(jù)《反壟斷法》和《互聯(lián)網(wǎng)搜索引擎服務(wù)自律公約》,知網(wǎng)不允許秘塔搜索抓取這兩部分公開信息就不再具有合理的理由。
(文章僅代表作者觀點(diǎn)。責(zé)編郵箱:yanguihua@jiemian.com。)