正在閱讀:

為了給大模型找語(yǔ)料,有人開(kāi)始進(jìn)行“互聯(lián)網(wǎng)考古”

掃一掃下載界面新聞APP

為了給大模型找語(yǔ)料,有人開(kāi)始進(jìn)行“互聯(lián)網(wǎng)考古”

圍繞構(gòu)建更強(qiáng)大的AI大模型,科技巨頭、AI獨(dú)角獸更是展開(kāi)了一輪又一輪的廝殺。

文|三易生活

過(guò)去一年,AI大模型無(wú)疑是科技行業(yè)中最亮眼的主角,從FAAMG到BAT、再到一眾初創(chuàng)企業(yè),無(wú)數(shù)優(yōu)秀的大腦、海量的資源都投入到了這個(gè)有望解放人類生產(chǎn)力的賽道中。

圍繞構(gòu)建更強(qiáng)大的AI大模型,科技巨頭、AI獨(dú)角獸更是展開(kāi)了一輪又一輪的廝殺,對(duì)于算法、數(shù)據(jù)、算力的爭(zhēng)奪如今也已達(dá)到了白熱化狀態(tài),其中特別是數(shù)據(jù)資源更是成為了重中之重,畢竟沒(méi)有它來(lái)作為燃料,不光無(wú)法訓(xùn)練更強(qiáng)的大模型、現(xiàn)有的大模型也可能會(huì)“熄火”。

為了收集更多的數(shù)據(jù)、或者說(shuō)是語(yǔ)料來(lái)澆灌大模型,“買買買”就成為了一眾AI廠商的解決方案,例如谷歌每年花6000萬(wàn)美元從Reddit手中買數(shù)據(jù),OpenAI更是付費(fèi)購(gòu)買了施普林格出版集團(tuán)旗下出版物的內(nèi)容。眼見(jiàn)財(cái)大氣粗的AI廠商揮舞鈔票,越來(lái)越多的人也開(kāi)始意識(shí)到了語(yǔ)料的價(jià)值。

日前照片分享社區(qū)EyeEm突然變更了服務(wù)條款,宣布將默認(rèn)使用平臺(tái)上的照片來(lái)訓(xùn)練AI大模型。

據(jù)悉,EyeEm方面通過(guò)郵件通知用戶,該公司在其條款和條件中添加了一項(xiàng)新的條款,授予其"復(fù)制、分發(fā)、公開(kāi)展示、轉(zhuǎn)換、改編、制作衍生作品、向公眾傳播和/或推廣"用戶內(nèi)容的權(quán)利,包括用于培訓(xùn)、開(kāi)發(fā)和改進(jìn)軟件、算法和機(jī)器學(xué)習(xí)模型,用戶有30天的時(shí)間可選擇退出,否則就默認(rèn)為同意這一用途,未來(lái)用戶想要從EyeEm及其合作伙伴平臺(tái)上刪除內(nèi)容可能需要長(zhǎng)達(dá)180天。

一石激起千層浪,EyeEm此舉幾乎是將覬覦用戶照片的想法擺在了臺(tái)面上。要知道,在當(dāng)下這個(gè)用戶普遍重視個(gè)人隱私的時(shí)代,用突然更改用戶協(xié)議的方式來(lái)表示自己準(zhǔn)備將收集的用戶數(shù)據(jù)作為AI訓(xùn)練的語(yǔ)料,就等于是直接與用戶交惡。

那么問(wèn)題就來(lái)了,為什么EyeEm會(huì)搞出這種幾乎屬于自絕于用戶的操作呢?當(dāng)然是因?yàn)樯聿挥梢选?/p>

成立于2010年的EyeEm,曾被視為全球知名圖片社交平臺(tái)Instagram在歐洲市場(chǎng)的競(jìng)爭(zhēng)對(duì)手,前者在最鼎盛時(shí)期曾擁有超過(guò)2000萬(wàn)名活躍的優(yōu)秀視覺(jué)創(chuàng)作者。并且與Instagram不同的是,EyeEm非常受攝影師的青睞,因?yàn)槠渫瞥隽藰O具商業(yè)價(jià)值的Mission功能,可以讓品牌向EyeEm社區(qū)眾包照片,幫助平臺(tái)上的攝影師賺到錢。

然而遺憾的是,EyeEm這樣一個(gè)將商業(yè)化與社區(qū)建設(shè)恰如其分融合到一起的廠商,最終還是被Instagram碾壓了。在Instagram被Meta收購(gòu)后,前者借助Meta的社交網(wǎng)絡(luò)成功席卷全球,但與之相對(duì)應(yīng)的是,2018年之后EyeEm就開(kāi)始走下坡路,到了2021年,這家公司被瑞士社交網(wǎng)站Talenthouse以4000萬(wàn)美元的價(jià)格收購(gòu)。只可惜在Talenthouse手中的EyeEm也沒(méi)能起死回生,因?yàn)槠胀ㄓ脩舨⒉恍枰獌蓚€(gè)圖片分享社區(qū)。

到了2022年年中,EyeEm已經(jīng)無(wú)法按時(shí)向攝影師支付報(bào)酬。隨后在2023年4月,EyeEm正式申請(qǐng)破產(chǎn)保護(hù)。同年10月,這家僅剩3名員工的公司,被西班牙在線平面設(shè)計(jì)資源網(wǎng)站Freepik收購(gòu)。

顯而易見(jiàn),在申請(qǐng)破產(chǎn)保護(hù)之后,EyeEm就已經(jīng)只是一個(gè)空殼了,用戶規(guī)模也萎縮至15萬(wàn)人。對(duì)于一個(gè)非技術(shù)導(dǎo)向、或者說(shuō)產(chǎn)品導(dǎo)向的互聯(lián)網(wǎng)公司來(lái)說(shuō),從2000萬(wàn)用戶衰退到15萬(wàn),也就意味著EyeEm已經(jīng)無(wú)法說(shuō)服用戶繼續(xù)使用他們的產(chǎn)品了。

Freepik之所以收購(gòu)EyeEm,就是為了后者所擁有的1.6億張圖像資源。Freepik已然成為一個(gè)數(shù)據(jù)掮客,為了向AI大模型廠商出售語(yǔ)料資源,而買下了已經(jīng)失去經(jīng)營(yíng)價(jià)值的EyeEm。從某種意義上來(lái)說(shuō),F(xiàn)reepik也算是獨(dú)具慧眼,發(fā)現(xiàn)了EyeEm這樣一家注定玩完的互聯(lián)網(wǎng)公司的剩余價(jià)值。

要知道自從進(jìn)入新世紀(jì)以來(lái),嘗試在互聯(lián)網(wǎng)行業(yè)進(jìn)行創(chuàng)業(yè)的團(tuán)隊(duì)不知幾凡,但畢竟Meta、X、Reddit這樣的成功者只是少數(shù),更多的初創(chuàng)公司最終都成為了“炮灰”。只不過(guò)在這一眾失敗者里,有不少是曾經(jīng)煊赫一時(shí)的存在,但他們最終因?yàn)榉N種原因陷入了沉寂。而在AI大模型爆發(fā)以前,類似EyeEm這樣的失敗者其實(shí)是毫無(wú)價(jià)值的,因?yàn)樗鼈兊纳虡I(yè)模式失敗了,競(jìng)爭(zhēng)對(duì)手脫穎而出。

然而當(dāng)下最火熱的AI大模型需要海量的數(shù)據(jù)來(lái)澆灌,在同等條件下,預(yù)訓(xùn)練時(shí)投喂的數(shù)據(jù)越多,AI大模型的性能就越強(qiáng),這已經(jīng)是業(yè)界的共識(shí)。只是優(yōu)質(zhì)數(shù)據(jù)總歸是稀缺資源,根據(jù)人工智能研究機(jī)構(gòu)epoch的預(yù)測(cè),語(yǔ)言數(shù)據(jù)可能在2030至2040年耗盡,其中能訓(xùn)練出更優(yōu)性能的高質(zhì)量語(yǔ)言數(shù)據(jù)甚至可能在2026年就被耗盡。在這種情況下,EyeEm這類沉淀了數(shù)據(jù)資源的失敗者,突然就變得有了價(jià)值。

因此有了Freepik的珠玉在前,未來(lái)可能會(huì)有越來(lái)越多公司去嘗試從互聯(lián)網(wǎng)創(chuàng)業(yè)的失敗者身上挖掘可能存在的數(shù)據(jù)資源,進(jìn)而讓互聯(lián)網(wǎng)考古不再是部分網(wǎng)民的興趣,更有可能真正變成一門生意。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

為了給大模型找語(yǔ)料,有人開(kāi)始進(jìn)行“互聯(lián)網(wǎng)考古”

圍繞構(gòu)建更強(qiáng)大的AI大模型,科技巨頭、AI獨(dú)角獸更是展開(kāi)了一輪又一輪的廝殺。

文|三易生活

過(guò)去一年,AI大模型無(wú)疑是科技行業(yè)中最亮眼的主角,從FAAMG到BAT、再到一眾初創(chuàng)企業(yè),無(wú)數(shù)優(yōu)秀的大腦、海量的資源都投入到了這個(gè)有望解放人類生產(chǎn)力的賽道中。

圍繞構(gòu)建更強(qiáng)大的AI大模型,科技巨頭、AI獨(dú)角獸更是展開(kāi)了一輪又一輪的廝殺,對(duì)于算法、數(shù)據(jù)、算力的爭(zhēng)奪如今也已達(dá)到了白熱化狀態(tài),其中特別是數(shù)據(jù)資源更是成為了重中之重,畢竟沒(méi)有它來(lái)作為燃料,不光無(wú)法訓(xùn)練更強(qiáng)的大模型、現(xiàn)有的大模型也可能會(huì)“熄火”。

為了收集更多的數(shù)據(jù)、或者說(shuō)是語(yǔ)料來(lái)澆灌大模型,“買買買”就成為了一眾AI廠商的解決方案,例如谷歌每年花6000萬(wàn)美元從Reddit手中買數(shù)據(jù),OpenAI更是付費(fèi)購(gòu)買了施普林格出版集團(tuán)旗下出版物的內(nèi)容。眼見(jiàn)財(cái)大氣粗的AI廠商揮舞鈔票,越來(lái)越多的人也開(kāi)始意識(shí)到了語(yǔ)料的價(jià)值。

日前照片分享社區(qū)EyeEm突然變更了服務(wù)條款,宣布將默認(rèn)使用平臺(tái)上的照片來(lái)訓(xùn)練AI大模型。

據(jù)悉,EyeEm方面通過(guò)郵件通知用戶,該公司在其條款和條件中添加了一項(xiàng)新的條款,授予其"復(fù)制、分發(fā)、公開(kāi)展示、轉(zhuǎn)換、改編、制作衍生作品、向公眾傳播和/或推廣"用戶內(nèi)容的權(quán)利,包括用于培訓(xùn)、開(kāi)發(fā)和改進(jìn)軟件、算法和機(jī)器學(xué)習(xí)模型,用戶有30天的時(shí)間可選擇退出,否則就默認(rèn)為同意這一用途,未來(lái)用戶想要從EyeEm及其合作伙伴平臺(tái)上刪除內(nèi)容可能需要長(zhǎng)達(dá)180天。

一石激起千層浪,EyeEm此舉幾乎是將覬覦用戶照片的想法擺在了臺(tái)面上。要知道,在當(dāng)下這個(gè)用戶普遍重視個(gè)人隱私的時(shí)代,用突然更改用戶協(xié)議的方式來(lái)表示自己準(zhǔn)備將收集的用戶數(shù)據(jù)作為AI訓(xùn)練的語(yǔ)料,就等于是直接與用戶交惡。

那么問(wèn)題就來(lái)了,為什么EyeEm會(huì)搞出這種幾乎屬于自絕于用戶的操作呢?當(dāng)然是因?yàn)樯聿挥梢选?/p>

成立于2010年的EyeEm,曾被視為全球知名圖片社交平臺(tái)Instagram在歐洲市場(chǎng)的競(jìng)爭(zhēng)對(duì)手,前者在最鼎盛時(shí)期曾擁有超過(guò)2000萬(wàn)名活躍的優(yōu)秀視覺(jué)創(chuàng)作者。并且與Instagram不同的是,EyeEm非常受攝影師的青睞,因?yàn)槠渫瞥隽藰O具商業(yè)價(jià)值的Mission功能,可以讓品牌向EyeEm社區(qū)眾包照片,幫助平臺(tái)上的攝影師賺到錢。

然而遺憾的是,EyeEm這樣一個(gè)將商業(yè)化與社區(qū)建設(shè)恰如其分融合到一起的廠商,最終還是被Instagram碾壓了。在Instagram被Meta收購(gòu)后,前者借助Meta的社交網(wǎng)絡(luò)成功席卷全球,但與之相對(duì)應(yīng)的是,2018年之后EyeEm就開(kāi)始走下坡路,到了2021年,這家公司被瑞士社交網(wǎng)站Talenthouse以4000萬(wàn)美元的價(jià)格收購(gòu)。只可惜在Talenthouse手中的EyeEm也沒(méi)能起死回生,因?yàn)槠胀ㄓ脩舨⒉恍枰獌蓚€(gè)圖片分享社區(qū)。

到了2022年年中,EyeEm已經(jīng)無(wú)法按時(shí)向攝影師支付報(bào)酬。隨后在2023年4月,EyeEm正式申請(qǐng)破產(chǎn)保護(hù)。同年10月,這家僅剩3名員工的公司,被西班牙在線平面設(shè)計(jì)資源網(wǎng)站Freepik收購(gòu)。

顯而易見(jiàn),在申請(qǐng)破產(chǎn)保護(hù)之后,EyeEm就已經(jīng)只是一個(gè)空殼了,用戶規(guī)模也萎縮至15萬(wàn)人。對(duì)于一個(gè)非技術(shù)導(dǎo)向、或者說(shuō)產(chǎn)品導(dǎo)向的互聯(lián)網(wǎng)公司來(lái)說(shuō),從2000萬(wàn)用戶衰退到15萬(wàn),也就意味著EyeEm已經(jīng)無(wú)法說(shuō)服用戶繼續(xù)使用他們的產(chǎn)品了。

Freepik之所以收購(gòu)EyeEm,就是為了后者所擁有的1.6億張圖像資源。Freepik已然成為一個(gè)數(shù)據(jù)掮客,為了向AI大模型廠商出售語(yǔ)料資源,而買下了已經(jīng)失去經(jīng)營(yíng)價(jià)值的EyeEm。從某種意義上來(lái)說(shuō),F(xiàn)reepik也算是獨(dú)具慧眼,發(fā)現(xiàn)了EyeEm這樣一家注定玩完的互聯(lián)網(wǎng)公司的剩余價(jià)值。

要知道自從進(jìn)入新世紀(jì)以來(lái),嘗試在互聯(lián)網(wǎng)行業(yè)進(jìn)行創(chuàng)業(yè)的團(tuán)隊(duì)不知幾凡,但畢竟Meta、X、Reddit這樣的成功者只是少數(shù),更多的初創(chuàng)公司最終都成為了“炮灰”。只不過(guò)在這一眾失敗者里,有不少是曾經(jīng)煊赫一時(shí)的存在,但他們最終因?yàn)榉N種原因陷入了沉寂。而在AI大模型爆發(fā)以前,類似EyeEm這樣的失敗者其實(shí)是毫無(wú)價(jià)值的,因?yàn)樗鼈兊纳虡I(yè)模式失敗了,競(jìng)爭(zhēng)對(duì)手脫穎而出。

然而當(dāng)下最火熱的AI大模型需要海量的數(shù)據(jù)來(lái)澆灌,在同等條件下,預(yù)訓(xùn)練時(shí)投喂的數(shù)據(jù)越多,AI大模型的性能就越強(qiáng),這已經(jīng)是業(yè)界的共識(shí)。只是優(yōu)質(zhì)數(shù)據(jù)總歸是稀缺資源,根據(jù)人工智能研究機(jī)構(gòu)epoch的預(yù)測(cè),語(yǔ)言數(shù)據(jù)可能在2030至2040年耗盡,其中能訓(xùn)練出更優(yōu)性能的高質(zhì)量語(yǔ)言數(shù)據(jù)甚至可能在2026年就被耗盡。在這種情況下,EyeEm這類沉淀了數(shù)據(jù)資源的失敗者,突然就變得有了價(jià)值。

因此有了Freepik的珠玉在前,未來(lái)可能會(huì)有越來(lái)越多公司去嘗試從互聯(lián)網(wǎng)創(chuàng)業(yè)的失敗者身上挖掘可能存在的數(shù)據(jù)資源,進(jìn)而讓互聯(lián)網(wǎng)考古不再是部分網(wǎng)民的興趣,更有可能真正變成一門生意。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。