文|真故研究室 林秋藝
編輯|龔 正
今年5月,24歲的張娟開始做大模型數(shù)據(jù)標(biāo)注的工作。她是甘肅積石山縣的一位95后,大專畢業(yè)。
積石山縣位于甘肅西南部與青海的交界處,經(jīng)濟(jì)欠發(fā)達(dá)。2022年,該縣城鎮(zhèn)居民人均可支配收入為26258.5元/年,每月平均才2188.2元,農(nóng)村就更低。但做數(shù)據(jù)標(biāo)注的張娟,月薪平均已到7000元,時(shí)而上萬。
大模型數(shù)據(jù)標(biāo)注是國內(nèi)今年一個(gè)熱門職業(yè)。它的工作內(nèi)容是,人們?yōu)槿f事萬物打上標(biāo)簽,AI通過標(biāo)簽來進(jìn)行深度學(xué)習(xí),從而訓(xùn)練自己的智能。數(shù)據(jù)標(biāo)注工,做的就是打標(biāo)簽的工作。
一些簡單的標(biāo)注,技術(shù)含量不會(huì)那么高。比如張娟做的就是標(biāo)注照片中是否包含鳥類或者汽車、錄音中有哪些詞的發(fā)音等等,大專畢業(yè)的她完全能勝任。
畢業(yè)后的張娟本來先是入職了蘭州一家測繪公司,但由于心里牽掛母親和年邁的爺爺奶奶,加上測繪經(jīng)常要到野外作業(yè),她覺得并不適合自己,更想回到家鄉(xiāng)工作。
但老家的工作機(jī)會(huì),除了考公就是服務(wù)業(yè),工資不高,張娟很猶豫。直到遇到數(shù)據(jù)標(biāo)注工作,它屬于AI行業(yè)的一種新崗位,既解決了年輕人賺錢儲蓄的心理,也能夠照顧家里。
向積石山縣這樣經(jīng)濟(jì)不發(fā)達(dá)地區(qū),發(fā)包AI標(biāo)注的是遠(yuǎn)在杭州的螞蟻集團(tuán)。今年,隨著大模型熱潮,中國包括阿里、百度、騰訊、字節(jié)在內(nèi)的互聯(lián)網(wǎng)大廠紛紛投入這個(gè)被稱為“移動(dòng)互聯(lián)網(wǎng)時(shí)代最后一個(gè)機(jī)會(huì)”的領(lǐng)域。
螞蟻相關(guān)負(fù)責(zé)人告訴《真故研究室》,做這樣的發(fā)包,本質(zhì)是一個(gè)與地方政府合作的名為“數(shù)字木蘭|AI豆計(jì)劃”的公益項(xiàng)目。螞蟻在集團(tuán)內(nèi)部勻出部分工作需求,與欠發(fā)達(dá)地區(qū)進(jìn)行合作,希望讓新技術(shù)普惠到更廣泛的人群。
若追溯數(shù)據(jù)標(biāo)注工種的誕生,并不是今年才開始,而是可以追到2011年。當(dāng)年,隨著大數(shù)據(jù)、云計(jì)算、互聯(lián)網(wǎng)和物聯(lián)網(wǎng)等信息技術(shù)發(fā)展,針對AI的數(shù)據(jù)標(biāo)注外包市場隨之開啟,2017年數(shù)據(jù)標(biāo)注市場進(jìn)入爆發(fā)階段。
而今年對話大模型的爆火,使得數(shù)據(jù)標(biāo)注員的需求量節(jié)節(jié)攀升,人才供需缺口被迅速放大,這一職業(yè)逐漸被人們所熟知。
一些原本對AI搶自身工作很擔(dān)憂的人們,這才逐漸認(rèn)識到,AI也在創(chuàng)造新工作。當(dāng)然自己到底是受益方、還是受損方,不同立場的人們有不同的利益計(jì)算。
和螞蟻集團(tuán)偏公益的操作不同,在大模型領(lǐng)域迅猛發(fā)展的百度,在聚焦技術(shù)研發(fā)的同時(shí),也在聯(lián)合各大高校,通過產(chǎn)學(xué)研共建的方法培養(yǎng)大模型領(lǐng)域、更具專業(yè)度的人才,并致力于為大學(xué)生們增加職業(yè)選擇路徑。
6月28日,百度聯(lián)合廣西科技大學(xué)舉辦的“500萬AI人才培養(yǎng)計(jì)劃”系列活動(dòng)——大數(shù)據(jù)標(biāo)注首期訓(xùn)練營,就在廣西科技大學(xué)計(jì)算機(jī)學(xué)院(軟件學(xué)院)正式開啟。
雙方具體的合作是,百度通過在該學(xué)院開設(shè)的《計(jì)算思維導(dǎo)論》這門課程中,設(shè)置大模型訓(xùn)練標(biāo)注實(shí)踐環(huán)節(jié),來培養(yǎng)大學(xué)新生的數(shù)據(jù)標(biāo)注能力,讓大學(xué)生們有機(jī)會(huì)理論與實(shí)踐相結(jié)合。
廣西科技大學(xué)副校長秦小云向《真故研究室》表示,希望通過開設(shè)數(shù)據(jù)標(biāo)注的實(shí)踐課程,培養(yǎng)本校學(xué)生的在大模型方面更高階的思維,打好專業(yè)基礎(chǔ),為其增加能貫穿職業(yè)發(fā)展與晉升路徑的能力模型,提高就業(yè)競爭力。
部分學(xué)生在訪談中透露,自己的心儀工作崗位是算法工程師、建模工程師這類傳統(tǒng)工作崗位,但隨著AI的不斷發(fā)展,數(shù)據(jù)標(biāo)注的能力或?qū)⒃诰蜆I(yè)市場中越來越被看重,且未來還能依靠專業(yè)學(xué)歷與實(shí)踐能力不斷進(jìn)階。“希望能借學(xué)校與百度開設(shè)的這門實(shí)踐課,為自己的職業(yè)生涯增添砝碼?!?/p>
AI給普通人帶來機(jī)會(huì),不只發(fā)生在中國,在國際上也正在進(jìn)行一些國際分工。
Open AI的一家外包數(shù)據(jù)標(biāo)注公司Sama,員工就來自烏干達(dá)、肯尼亞、印度等工資水平相對較低的國家。
在肯尼亞,Sama最初級的數(shù)據(jù)標(biāo)注員每月工資有2.1萬肯尼亞先令(約合1057元),雖然低于國內(nèi)數(shù)據(jù)標(biāo)注員的工資水平,但無疑對人均GDP只有2000美元的當(dāng)?shù)囟?,這工作不算差。
同時(shí),數(shù)據(jù)標(biāo)注也給聰明人帶來了新的創(chuàng)業(yè)機(jī)會(huì)。
如Open AI的另一家外包數(shù)據(jù)標(biāo)注公司Scale AI(提供數(shù)據(jù)標(biāo)注服務(wù)的公司,創(chuàng)始人為華裔Alexandr Wang ),位于舊金山,靠承包數(shù)據(jù)標(biāo)注這一工作起家和得勢,估值已達(dá)73億美元。
值得關(guān)注的是,該公司比較推行讓AI給AI標(biāo)注數(shù)據(jù),也就是自動(dòng)化標(biāo)注。這給人們又帶來了另一層隱憂,即:未來數(shù)據(jù)標(biāo)注是否會(huì)全部由模型代勞,不再需要人工標(biāo)注工?
目前行業(yè)的判斷是不會(huì),認(rèn)為沒有任何數(shù)據(jù)標(biāo)注公司、能夠完全擺脫人工參與,畢竟AI沒辦法識別它沒見過的東西。
綜合種種,從數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀來看,該行業(yè)還能出現(xiàn)外包企業(yè)的創(chuàng)業(yè)機(jī)會(huì)。
廣西科技大學(xué)計(jì)算機(jī)學(xué)院院長李春貴判斷,國內(nèi)的數(shù)據(jù)標(biāo)注行業(yè)將會(huì)涌現(xiàn)大批初創(chuàng)企業(yè),其中,為科技、醫(yī)學(xué)等專業(yè)領(lǐng)域進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)的、這樣小而精的公司更有希望在行業(yè)中拔得頭籌。