文|摩登AI 三石
編輯 | 聶風(fēng)
大模型已成兵家必爭(zhēng)之地。
訓(xùn)練模型,最關(guān)鍵的環(huán)節(jié)之一是投喂數(shù)據(jù)。
那么訓(xùn)練AI的數(shù)據(jù)由誰提供,AI成長(zhǎng)的養(yǎng)分,又從何而來?
在東西競(jìng)跑之下,迭代大模型是核心根本,而標(biāo)注中文數(shù)據(jù),同等重要。
01、海量數(shù)據(jù)投喂出的AI
使用英文和其他語(yǔ)言的ChatGPT時(shí),體驗(yàn)有差別嗎?
有,ChatGPT英文確實(shí)比其他語(yǔ)言表現(xiàn)更好。
這種差異除了ChatGPT英文在使用過程中受到的訓(xùn)練更多,同時(shí)也要?dú)w功于模型創(chuàng)建時(shí)期的資料投喂。
2020年,OpenAI在投喂海量數(shù)據(jù)、更接近人腦的超大基礎(chǔ)模型GPT-3模型上持續(xù)提升,終于在2022年11月,ChatGPT誕生。
ChatGPT足夠智能,是因?yàn)樗暮诵娜蝿?wù)是將一個(gè)文本進(jìn)行合理性延續(xù),即根據(jù)已有的文本,生成一個(gè)符合上下文背景和書寫習(xí)慣的合理內(nèi)容。
因此,前期的海量資料投喂與模型訓(xùn)練才是其后期使用過程中最大的差異原因。
據(jù)悉,ChatGPT的大模型數(shù)據(jù)主要來自以下幾方面:
維基百科:ChatGPT使用了英文版維基百科的數(shù)據(jù),包含了超過640萬篇文章,超過40億個(gè)詞。
書籍:ChatGPT使用了ProjectGutenberg和BookCorpus的數(shù)據(jù),包含了超過10萬本書籍,超過20億個(gè)詞。
期刊:ChatGPT使用了PubMedCentral和arXiv的數(shù)據(jù),包含了超過100萬篇期刊文章,超過10億個(gè)詞。
Reddit鏈接:社交媒體網(wǎng)站Reddit上的各種帖子和評(píng)論,包含了用戶之間的對(duì)話和互動(dòng)。ChatGPT使用了Reddit的數(shù)據(jù),包含了超過18億條鏈接和評(píng)論,超過100億個(gè)詞。
CommonCrawl:包含超過31億個(gè)網(wǎng)頁(yè)內(nèi)容,超過4100億個(gè)詞。
其他數(shù)據(jù)集:ChatGPT使用了GitHub的代碼倉(cāng)庫(kù)、WebText2的新聞文章、OpenSubtitles的電影字幕等數(shù)據(jù)。
從ChatGPT資源投喂上可以看出,ChatGPT獲得了更多的英文數(shù)據(jù),大模型訓(xùn)練時(shí),也更多地使用英文,而非中文。
所以,在現(xiàn)實(shí)使用過程中,ChatGPT英文將比中文反應(yīng)更快,更智能。反過來,中國(guó)大廠創(chuàng)建的人工智能大模型,中文版應(yīng)比英文版反應(yīng)更快,更智能。
據(jù)悉,目前中國(guó)大廠創(chuàng)建的人工智能大模型,數(shù)據(jù)投喂資源主要分為三類:
公開數(shù)據(jù)集,如中文維基百科、中文新聞?wù)Z料庫(kù)、中文問答語(yǔ)料庫(kù)等;自有數(shù)據(jù)集,這些數(shù)據(jù)集是由各個(gè)大廠自行收集、整理、標(biāo)注的,包括用戶行為數(shù)據(jù)、搜索引擎數(shù)據(jù)、社交媒體數(shù)據(jù)、電商平臺(tái)數(shù)據(jù)等;合作數(shù)據(jù)集,這些數(shù)據(jù)集是由各個(gè)大廠與其他機(jī)構(gòu)或組織合作獲取的,包括政府部門數(shù)據(jù)、行業(yè)協(xié)會(huì)數(shù)據(jù)、科研機(jī)構(gòu)數(shù)據(jù)等。
一個(gè)人工智能大模型的創(chuàng)建,不僅需要超高的運(yùn)算能力,也需要海量數(shù)據(jù)投喂和大量的數(shù)據(jù)標(biāo)注員。
02、賽博流水線上的民工
人工智能為什么需要數(shù)據(jù)標(biāo)注員?
在人工智能大模型投入海量的數(shù)據(jù)后,還需要像人一樣,辨別、理解這些數(shù)據(jù),才能成長(zhǎng),成熟,而這個(gè)過程離不開數(shù)據(jù)標(biāo)注員。
對(duì)于人工智能而言,有標(biāo)簽的數(shù)據(jù)才是有用的數(shù)據(jù)。
例如人臉識(shí)別,人工智能本身不會(huì)識(shí)別物體,只有當(dāng)人臉關(guān)鍵點(diǎn)被一一標(biāo)注之后,計(jì)算機(jī)才能建立起對(duì)人臉的認(rèn)知。
對(duì)數(shù)據(jù)進(jìn)行標(biāo)注是人工智能的一個(gè)必須過程。
可以說,數(shù)據(jù)標(biāo)注員就是人工智能的老師,幫助人工智能成長(zhǎng)。那么,數(shù)據(jù)標(biāo)注員每天都如何調(diào)校人工智能呢?
數(shù)據(jù)標(biāo)注員身上的標(biāo)簽是“互聯(lián)網(wǎng)民工”、“賽博流水線”。他們每天的日常工作,就是坐在一間如同初代網(wǎng)吧的屋子里,每天對(duì)著電腦劃拉鼠標(biāo)幾千次。不停地對(duì)海量數(shù)據(jù)進(jìn)行清洗、分類、畫框、注釋、標(biāo)記等操作。
他們將大量的文字、語(yǔ)音、圖像打上標(biāo)記,例如“眼珠”、“四川話”、“綠化帶”等。只有被標(biāo)注過的數(shù)據(jù),才能被人工智能模型識(shí)別,訓(xùn)練出它的分辨能力。
例如標(biāo)記道路圖片,標(biāo)注道路圖片上的物體名稱、顏色等信息。業(yè)內(nèi)人士稱這種工作位“拉框”。
他們或許并不明白“什么是人工智能”,但卻實(shí)實(shí)在在是人工智能的老師。
2021年版的《人工智能訓(xùn)練師國(guó)家職業(yè)技能標(biāo)準(zhǔn)》中,對(duì)該職業(yè)的能力特征描述是“具有一定的學(xué)習(xí)能力、表達(dá)能力、計(jì)算能力;空間感、色覺正常”,普遍受教育程度寫的是“初中畢業(yè)”。
這意味著,標(biāo)注員是一份幾乎沒有門檻的職業(yè)。
美國(guó)《時(shí)代》雜志曾發(fā)表過一份調(diào)查,OpenAI為訓(xùn)練ChatGPT使用了非洲肯尼亞外包勞工。
據(jù)悉,肯尼亞首都內(nèi)羅畢有30多名ChatGPT的數(shù)據(jù)標(biāo)注員,他們每天工作9個(gè)小時(shí),閱讀150-200段文字。
標(biāo)注員需要從這些文字中標(biāo)注出包含性、暴力與仇恨言論的內(nèi)容,由于每天閱讀大量極具沖擊力的文字,有人會(huì)連續(xù)做噩夢(mèng)。
欠發(fā)達(dá)地區(qū)的標(biāo)注員不在少數(shù)??夏醽?、烏干達(dá)和印度,有不少人是谷歌、Meta和微軟等硅谷企業(yè)的數(shù)據(jù)標(biāo)注員。
這些數(shù)據(jù)標(biāo)注員的實(shí)得工資約為每小時(shí)1.32美元至2美元。這在當(dāng)?shù)匾呀?jīng)算得上中產(chǎn)收入,所以數(shù)據(jù)標(biāo)注員雖然會(huì)因工作而做噩夢(mèng),但他們并沒有討厭這份工作。
而在BOSS直聘等招聘網(wǎng)站上,數(shù)字標(biāo)注員的公司月工資大都在3K-5K,崗位要求在大專及以上學(xué)歷,專業(yè)不限。在貴州、西安等地的縣城里,數(shù)據(jù)標(biāo)注員的工資僅僅過千。
人工智能快速成長(zhǎng)的背后,數(shù)據(jù)標(biāo)注員像一群卑微的工蟻,默默地搬運(yùn)著過冬的食物。
03、即將被取代的老師
中國(guó)的數(shù)據(jù)標(biāo)注公司主要分為兩類,一是人工智能公司內(nèi)部的標(biāo)注公司,二是商務(wù)流程外包公司。
大廠內(nèi)部標(biāo)注公司有京東的京東眾智,百度的百度眾測(cè),網(wǎng)易的網(wǎng)易有數(shù),阿里的阿里數(shù)據(jù)標(biāo)注、騰訊的騰訊數(shù)據(jù)標(biāo)注,這些大廠都已經(jīng)擁有自己的標(biāo)注平臺(tái)和工具。
其他新興的國(guó)內(nèi)數(shù)據(jù)標(biāo)注公司,有龍貓數(shù)據(jù)、Testin云測(cè)、倍賽BasicFinder、數(shù)據(jù)堂等,這些公司都具有相當(dāng)?shù)囊?guī)模。
截至2021年初,數(shù)據(jù)標(biāo)注企業(yè)分布的top5城市是:北京185家,上海84家,成都68家,深圳63家,杭州46家。
這5個(gè)城市都是人工智能技術(shù)發(fā)展和應(yīng)用的重要區(qū)域,擁有大量的需求方和合作伙伴,同時(shí)擁有較為完善的政策支持和產(chǎn)業(yè)環(huán)境。
此外,新疆和田、山西太原、山東濟(jì)南、河北保定、安徽合肥等地的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)都在不斷成長(zhǎng)。
貴州是全國(guó)首個(gè)大數(shù)據(jù)綜合試驗(yàn)區(qū),而惠水縣百鳥河數(shù)字小鎮(zhèn)也則是貴州首個(gè)縣級(jí)大數(shù)據(jù)產(chǎn)業(yè)園區(qū)。
目前,百鳥河數(shù)字小鎮(zhèn)已培育了迦太利華、金百合、黔南即富、夢(mèng)動(dòng)科技、金信大數(shù)據(jù)等重點(diǎn)企業(yè)。
其中,貴州夢(mèng)動(dòng)科技員工超過500人,其中的一半人,是附近盛華職業(yè)學(xué)院的學(xué)生。該公司曾入選2020全國(guó)數(shù)據(jù)標(biāo)注公司排行榜前10強(qiáng)。
鄭成安是一名大三在校學(xué)生,目前在夢(mèng)動(dòng)科技實(shí)習(xí),公司全職員工只有十多人,管理層大都是學(xué)校里的老師,對(duì)他而言上課就是上班,老師就是經(jīng)理。
鄭成安出身農(nóng)村,上高職前沒碰過電腦,現(xiàn)在憑借電腦前的兼職,一個(gè)月能拿到1500元以上的收入,他感到非常滿足。
有時(shí)候,他為了多掙一些生活費(fèi),碰上緊急的項(xiàng)目,會(huì)主動(dòng)加班。但鄭成安很清楚,標(biāo)注員的工作很難一直做下去。
2022年6月,美國(guó)加州圣馬特奧縣的特斯拉辦公室,200員工被裁員,其中大多數(shù)都是數(shù)據(jù)標(biāo)注員。
裁員背后,是因?yàn)樘厮估谘邪l(fā)計(jì)算機(jī)Dojo,采用自監(jiān)督學(xué)習(xí)技術(shù),用于訓(xùn)練人工智能模型,對(duì)數(shù)據(jù)標(biāo)注的需求正越來越低。
不僅如此,國(guó)內(nèi)騰訊、阿里、字節(jié)跳動(dòng)等一眾大廠都在研發(fā)自監(jiān)督學(xué)習(xí)技術(shù)。
可以說,隨著人工智能的不斷成長(zhǎng),數(shù)據(jù)標(biāo)注員的工作,也變得岌岌可危。這些曾經(jīng)教會(huì)了人工智能“思考”的人,同樣正面臨被人工智能取代的風(fēng)險(xiǎn)。