亚洲AV无码之国产精品,亚洲日韩欧美日日狠狠久久

文｜三易生活

“AI大模型即將遇到數(shù)據(jù)荒”這件事，從2023年開始就成為了AI開發(fā)者對未來最大的擔(dān)憂，甚至有研究團(tuán)隊(duì)已經(jīng)給出了高質(zhì)量語料數(shù)據(jù)將會在2026年耗盡的預(yù)測。由此也使得手握大量數(shù)據(jù)的互聯(lián)網(wǎng)內(nèi)容平臺、新聞機(jī)構(gòu)、出版商突然發(fā)現(xiàn)，在AI時(shí)代“賣鏟子”這活不僅英偉達(dá)能干，自己好像也能做。

而AI廠商則很快發(fā)現(xiàn)，自己頭上的大山除了英偉達(dá)，還要多出個數(shù)據(jù)供應(yīng)商。盡管谷歌、OpenAI等實(shí)力雄厚的大廠可以選擇“銀彈攻勢”，一邊找英偉達(dá)買算力卡，一邊與Reddit等網(wǎng)絡(luò)社區(qū)及新聞媒體達(dá)成合作，但資金豐沛的大廠畢竟是少數(shù)，絕大多數(shù)初創(chuàng)企業(yè)、哪怕是AI獨(dú)角獸都缺錢。

AI大模型需要持續(xù)投喂數(shù)據(jù)來進(jìn)行迭代，可AI廠商缺錢又已經(jīng)是普遍現(xiàn)象，如此一來就有廠商選擇了用技術(shù)手段來“強(qiáng)取”數(shù)據(jù)。日前有消息顯示，AI獨(dú)角獸Anthropic無視知名維修網(wǎng)站iFixit的條款，使用爬蟲ClaudeBot在24小時(shí)內(nèi)瘋狂訪問近百萬次。

以至于iFixit CEO Kyle Wiens直接在社交平臺向Anthropic隔空喊話，“你真的有必要在24小時(shí)內(nèi)訪問我們的服務(wù)器100萬次嗎？你不僅在不付費(fèi)的情況下獲取我們的內(nèi)容，還占用了我們的devops資源，一點(diǎn)都不酷！”此外Kyle Wiens還進(jìn)一步表示，“如果你想要跟我們談?wù)剝?nèi)容許可和商業(yè)用途的話，我們就在這呢。”

作為全球知名的消費(fèi)電子產(chǎn)品維修網(wǎng)站，iFixit的市場競爭力就來源于網(wǎng)站上提供的幾乎任何類型、任何型號電子設(shè)備對應(yīng)的免費(fèi)維修手冊、解決方案，以及iFixit用戶社區(qū)。這些電子產(chǎn)品的維修知識無疑就是iFixit的立身之本，因此iFixit方面也在其robots.txt文件中添加了一行特定于Anthropic爬蟲的禁用指令。

隨后Anthropic方面回應(yīng)稱，他們尊重robots.txt協(xié)議，并在iFixit實(shí)施禁令后遵守了相關(guān)規(guī)則。其實(shí)不僅僅是iFixit，全球規(guī)模最大的外包服務(wù)撮合平臺Freelancer同樣也是Anthropic的受害者，該公司CEO Matt Barrie也表示，ClaudeBot是最激進(jìn)的爬蟲，F(xiàn)reelancer在四小時(shí)內(nèi)收到了來自Anthropic爬蟲的350萬次訪問，遠(yuǎn)超其他AI爬蟲的訪問量。

對于iFixit、Freelancer這種專注于細(xì)分賽道的“隱形冠軍”，24小時(shí)內(nèi)數(shù)百萬次訪問請求已經(jīng)算得上是一次小規(guī)模的分布式拒絕服務(wù)攻擊（DDoS）了。對此，Anthropic方面表示正在調(diào)查此事件，以確保其爬蟲活動對同一域名的訪問頻率最小化，從而減少干擾。

那么問題就來了，Anthropic其實(shí)不缺錢，畢竟作為OpenAI的第一勁敵，僅亞馬遜一家就對其投資了40億美元。Anthropic方面甚至在本月初聯(lián)合風(fēng)險(xiǎn)投資公司Menlo Ventures共同推出了一只1億美元的基金Anthology Fund，為早期的AI初創(chuàng)公司提供支持。

沒錯，身為AI獨(dú)角獸的Anthropic已然開始“提攜后輩”，玩起了大公司標(biāo)配的戰(zhàn)略投資。對此，似乎就只能用Anthropic的經(jīng)營策略是“該省省，該花花”，能不花的錢就一定不花來解釋了。

正因如此，Anthropic的做法才讓iFixit、Freelancer的CEO“破防”。作為一家在業(yè)界頗有聲望的AI獨(dú)角獸，Anthropic的做法毫無疑問是開了個壞頭。要知道反爬蟲策略本身是不可能完全杜絕爬蟲的，因?yàn)樾畔⒅灰獙ν馓峁?，就必然有被抓取的可能。在這一基礎(chǔ)上的robots.txt，其實(shí)就是一個針對網(wǎng)絡(luò)爬蟲的君子協(xié)議，也正是谷歌、雅虎等大廠的帶頭遵守，才有了過去二十年間互聯(lián)網(wǎng)世界的秩序。

現(xiàn)在明明Anthropic是有向內(nèi)容平臺購買數(shù)據(jù)的預(yù)算，卻偏偏選擇用技術(shù)手段來“零元購”，豈不是就意味著其他囊中羞澀的AI初創(chuàng)企業(yè)也會有樣學(xué)樣?？善?dāng)下是AI創(chuàng)業(yè)的熱潮，做AI的廠商不知凡幾，如果大家都效仿Anthropic這一玩法，高頻次、大流量的訪問必然會讓網(wǎng)站“壓力山大”，已經(jīng)與DDoS網(wǎng)絡(luò)攻擊行為無異了。

面對DDoS這種目前最簡單、也是最粗暴的網(wǎng)絡(luò)安全破壞活動，幾乎只有兩個有效途徑可以解決，即用更大的帶寬資源來容納超預(yù)期的網(wǎng)絡(luò)請求，或是使用流量清洗來過濾掉無用流量。很遺憾的是，這兩種策略都不便宜，中小網(wǎng)站通常是買不起的。

AI廠商對于數(shù)據(jù)的需求永無止境，可偏偏不愿意付錢，而一般的網(wǎng)站有數(shù)據(jù)、卻缺乏保護(hù)這一資產(chǎn)的手段。如果這次Anthropic僅僅是“有則改之”，連一個道歉都沒有的話，后續(xù)內(nèi)容平臺賣數(shù)據(jù)的生意恐怕就要難做了，互聯(lián)網(wǎng)世界可能會開始進(jìn)入周禮崩潰后的春秋戰(zhàn)國時(shí)代。

在AI廠商的爬蟲高頻次訪問下，中小網(wǎng)站別說賣數(shù)據(jù)，可能就連正常的運(yùn)營都會受到影響。如果想要讓自己的網(wǎng)站免受爬蟲打擾，“自污”策略或許很快就會普及。而所謂“自污”其實(shí)很簡單，畢竟AI廠商的爬蟲希望獲得數(shù)據(jù)來訓(xùn)練AI，可假如數(shù)據(jù)本身不可用呢？

關(guān)心AI大模型的朋友對于“AI投毒”這個詞想必不會陌生。就在不久前，《Nature》封面刊登了來自牛津大學(xué)、劍橋大學(xué)等機(jī)構(gòu)的研究論文，內(nèi)容就是AI訓(xùn)練AI會出現(xiàn)不可逆轉(zhuǎn)的缺陷，進(jìn)而使得模型性能下降。這篇文章盡管在業(yè)界充滿了爭議，但其中給AI投喂低質(zhì)量數(shù)據(jù)會導(dǎo)致模型劣化卻收到了共鳴。

如今，數(shù)據(jù)投毒攻擊（Data Poisoning Attack）已經(jīng)是一個AI研究領(lǐng)域不可回避的問題，只需要訓(xùn)練集有不到1%的數(shù)據(jù)被污染，大模型輸出內(nèi)容的準(zhǔn)確率就會大幅下降。用謊言去驗(yàn)證謊言得到的一定是謊言，如果數(shù)據(jù)集中的參數(shù)本身就有問題，得到的回答自然就是錯漏百出。

想要得到高質(zhì)量數(shù)據(jù)需要凝聚人類的智慧，但想要?dú)缢删秃唵味嗔?。如果AI廠商不保持克制，一旦內(nèi)容平臺的運(yùn)營者達(dá)成共識，用污染自家數(shù)據(jù)的方式來解決這個問題，遭遇數(shù)據(jù)荒的時(shí)間恐怕就會近在眼前。

文｜三易生活

想要得到高質(zhì)量數(shù)據(jù)需要凝聚人類的智慧，但想要?dú)缢删秃唵味嗔恕Ｈ绻鸄I廠商不保持克制，一旦內(nèi)容平臺的運(yùn)營者達(dá)成共識，用污染自家數(shù)據(jù)的方式來解決這個問題，遭遇數(shù)據(jù)荒的時(shí)間恐怕就會近在眼前。

歷史搜索全部刪除

熱門搜索

AI廠商為數(shù)據(jù)發(fā)狂，竟然都開始“DDos”小網(wǎng)站了

評論

AI廠商為數(shù)據(jù)發(fā)狂，竟然都開始“DDos”小網(wǎng)站了

AI廠商為數(shù)據(jù)發(fā)狂，竟然都開始“DDos”小網(wǎng)站了

評論

AI廠商為數(shù)據(jù)發(fā)狂，竟然都開始“DDos”小網(wǎng)站了

AI廠商為數(shù)據(jù)發(fā)狂，竟然都開始“DDos”小網(wǎng)站了

AI廠商為數(shù)據(jù)發(fā)狂，竟然都開始“DDos”小網(wǎng)站了