文|三易生活
“AI大模型即將遇到數(shù)據(jù)荒”這件事,從2023年開始就成為了AI開發(fā)者對未來最大的擔(dān)憂,甚至有研究團(tuán)隊(duì)已經(jīng)給出了高質(zhì)量語料數(shù)據(jù)將會在2026年耗盡的預(yù)測。由此也使得手握大量數(shù)據(jù)的互聯(lián)網(wǎng)內(nèi)容平臺、新聞機(jī)構(gòu)、出版商突然發(fā)現(xiàn),在AI時代“賣鏟子”這活不僅英偉達(dá)能干,自己好像也能做。
而AI廠商則很快發(fā)現(xiàn),自己頭上的大山除了英偉達(dá),還要多出個數(shù)據(jù)供應(yīng)商。盡管谷歌、OpenAI等實(shí)力雄厚的大廠可以選擇“銀彈攻勢”,一邊找英偉達(dá)買算力卡,一邊與Reddit等網(wǎng)絡(luò)社區(qū)及新聞媒體達(dá)成合作,但資金豐沛的大廠畢竟是少數(shù),絕大多數(shù)初創(chuàng)企業(yè)、哪怕是AI獨(dú)角獸都缺錢。
AI大模型需要持續(xù)投喂數(shù)據(jù)來進(jìn)行迭代,可AI廠商缺錢又已經(jīng)是普遍現(xiàn)象,如此一來就有廠商選擇了用技術(shù)手段來“強(qiáng)取”數(shù)據(jù)。日前有消息顯示,AI獨(dú)角獸Anthropic無視知名維修網(wǎng)站iFixit的條款,使用爬蟲ClaudeBot在24小時內(nèi)瘋狂訪問近百萬次。
以至于iFixit CEO Kyle Wiens直接在社交平臺向Anthropic隔空喊話,“你真的有必要在24小時內(nèi)訪問我們的服務(wù)器100萬次嗎?你不僅在不付費(fèi)的情況下獲取我們的內(nèi)容,還占用了我們的devops資源,一點(diǎn)都不酷!”此外Kyle Wiens還進(jìn)一步表示,“如果你想要跟我們談?wù)剝?nèi)容許可和商業(yè)用途的話,我們就在這呢?!?/p>
作為全球知名的消費(fèi)電子產(chǎn)品維修網(wǎng)站,iFixit的市場競爭力就來源于網(wǎng)站上提供的幾乎任何類型、任何型號電子設(shè)備對應(yīng)的免費(fèi)維修手冊、解決方案,以及iFixit用戶社區(qū)。這些電子產(chǎn)品的維修知識無疑就是iFixit的立身之本,因此iFixit方面也在其robots.txt文件中添加了一行特定于Anthropic爬蟲的禁用指令。
隨后Anthropic方面回應(yīng)稱,他們尊重robots.txt協(xié)議,并在iFixit實(shí)施禁令后遵守了相關(guān)規(guī)則。其實(shí)不僅僅是iFixit,全球規(guī)模最大的外包服務(wù)撮合平臺Freelancer同樣也是Anthropic的受害者,該公司CEO Matt Barrie也表示,ClaudeBot是最激進(jìn)的爬蟲,F(xiàn)reelancer在四小時內(nèi)收到了來自Anthropic爬蟲的350萬次訪問,遠(yuǎn)超其他AI爬蟲的訪問量。
對于iFixit、Freelancer這種專注于細(xì)分賽道的“隱形冠軍”,24小時內(nèi)數(shù)百萬次訪問請求已經(jīng)算得上是一次小規(guī)模的分布式拒絕服務(wù)攻擊(DDoS)了。對此,Anthropic方面表示正在調(diào)查此事件,以確保其爬蟲活動對同一域名的訪問頻率最小化,從而減少干擾。
那么問題就來了,Anthropic其實(shí)不缺錢,畢竟作為OpenAI的第一勁敵,僅亞馬遜一家就對其投資了40億美元。Anthropic方面甚至在本月初聯(lián)合風(fēng)險投資公司Menlo Ventures共同推出了一只1億美元的基金Anthology Fund,為早期的AI初創(chuàng)公司提供支持。
沒錯,身為AI獨(dú)角獸的Anthropic已然開始“提攜后輩”,玩起了大公司標(biāo)配的戰(zhàn)略投資。對此,似乎就只能用Anthropic的經(jīng)營策略是“該省省,該花花”,能不花的錢就一定不花來解釋了。
正因如此,Anthropic的做法才讓iFixit、Freelancer的CEO“破防”。作為一家在業(yè)界頗有聲望的AI獨(dú)角獸,Anthropic的做法毫無疑問是開了個壞頭。要知道反爬蟲策略本身是不可能完全杜絕爬蟲的,因?yàn)樾畔⒅灰獙ν馓峁捅厝挥斜蛔ト〉目赡?。在這一基礎(chǔ)上的robots.txt,其實(shí)就是一個針對網(wǎng)絡(luò)爬蟲的君子協(xié)議,也正是谷歌、雅虎等大廠的帶頭遵守,才有了過去二十年間互聯(lián)網(wǎng)世界的秩序。
現(xiàn)在明明Anthropic是有向內(nèi)容平臺購買數(shù)據(jù)的預(yù)算,卻偏偏選擇用技術(shù)手段來“零元購”,豈不是就意味著其他囊中羞澀的AI初創(chuàng)企業(yè)也會有樣學(xué)樣??善?dāng)下是AI創(chuàng)業(yè)的熱潮,做AI的廠商不知凡幾,如果大家都效仿Anthropic這一玩法,高頻次、大流量的訪問必然會讓網(wǎng)站“壓力山大”,已經(jīng)與DDoS網(wǎng)絡(luò)攻擊行為無異了。
面對DDoS這種目前最簡單、也是最粗暴的網(wǎng)絡(luò)安全破壞活動,幾乎只有兩個有效途徑可以解決,即用更大的帶寬資源來容納超預(yù)期的網(wǎng)絡(luò)請求,或是使用流量清洗來過濾掉無用流量。很遺憾的是,這兩種策略都不便宜,中小網(wǎng)站通常是買不起的。
AI廠商對于數(shù)據(jù)的需求永無止境,可偏偏不愿意付錢,而一般的網(wǎng)站有數(shù)據(jù)、卻缺乏保護(hù)這一資產(chǎn)的手段。如果這次Anthropic僅僅是“有則改之”,連一個道歉都沒有的話,后續(xù)內(nèi)容平臺賣數(shù)據(jù)的生意恐怕就要難做了,互聯(lián)網(wǎng)世界可能會開始進(jìn)入周禮崩潰后的春秋戰(zhàn)國時代。
在AI廠商的爬蟲高頻次訪問下,中小網(wǎng)站別說賣數(shù)據(jù),可能就連正常的運(yùn)營都會受到影響。如果想要讓自己的網(wǎng)站免受爬蟲打擾,“自污”策略或許很快就會普及。而所謂“自污”其實(shí)很簡單,畢竟AI廠商的爬蟲希望獲得數(shù)據(jù)來訓(xùn)練AI,可假如數(shù)據(jù)本身不可用呢?
關(guān)心AI大模型的朋友對于“AI投毒”這個詞想必不會陌生。就在不久前,《Nature》封面刊登了來自牛津大學(xué)、劍橋大學(xué)等機(jī)構(gòu)的研究論文,內(nèi)容就是AI訓(xùn)練AI會出現(xiàn)不可逆轉(zhuǎn)的缺陷,進(jìn)而使得模型性能下降。這篇文章盡管在業(yè)界充滿了爭議,但其中給AI投喂低質(zhì)量數(shù)據(jù)會導(dǎo)致模型劣化卻收到了共鳴。
如今,數(shù)據(jù)投毒攻擊(Data Poisoning Attack)已經(jīng)是一個AI研究領(lǐng)域不可回避的問題,只需要訓(xùn)練集有不到1%的數(shù)據(jù)被污染,大模型輸出內(nèi)容的準(zhǔn)確率就會大幅下降。用謊言去驗(yàn)證謊言得到的一定是謊言,如果數(shù)據(jù)集中的參數(shù)本身就有問題,得到的回答自然就是錯漏百出。
想要得到高質(zhì)量數(shù)據(jù)需要凝聚人類的智慧,但想要?dú)缢删秃唵味嗔?。如果AI廠商不保持克制,一旦內(nèi)容平臺的運(yùn)營者達(dá)成共識,用污染自家數(shù)據(jù)的方式來解決這個問題,遭遇數(shù)據(jù)荒的時間恐怕就會近在眼前。