文 |硅兔賽跑 Eric
編輯|伊凡
3月19日,OpenAI在其開發(fā)人員API上推出了o1-pro——o1推理AI模型更強(qiáng)大的版本。
所向披靡的Open AI,正在“創(chuàng)飛”一部分創(chuàng)業(yè)公司,只要Open AI想做某個業(yè)務(wù),就會有一批初創(chuàng)公司宣告倒閉。不過,也有另一批小公司,正在OpenAI的生態(tài)之下生長。
Turing原本專注于遠(yuǎn)程的開發(fā)人才招聘,現(xiàn)在成為AI代碼服務(wù)商——即組織工程師團(tuán)隊為OpenAI等公司提供代碼支持。今年3月,Turing完成1.11億美元的E輪融資,公司估值翻倍達(dá)到22億美元,在數(shù)據(jù)標(biāo)注領(lǐng)域僅次于Scale AI。
業(yè)績方面,Turing創(chuàng)始人兼CEO Jonathan Siddharth 在社交平臺高調(diào)宣布:公司2024年收入增長3倍,ARR(年度經(jīng)常性收入)突破3億美元,并成為“全球增長最快且盈利的AGI基礎(chǔ)設(shè)施公司”。
我們試圖從Turing的成長故事,挖掘大模型時代下,小企業(yè)的生存指南——在做原來業(yè)務(wù)的過程中,發(fā)現(xiàn)了新的機(jī)會,迅速切入AI,瞄準(zhǔn)垂直而細(xì)分的市場。
Turing:從人才中介到AI“數(shù)據(jù)礦場”
Siddharth的創(chuàng)業(yè)故事,充滿硅谷式傳奇色彩。
2017年,Siddharth與斯坦福校友Vijay Krishnan創(chuàng)立的機(jī)器學(xué)習(xí)公司Rover被收購,這是一家利用機(jī)器學(xué)習(xí)進(jìn)行深度個性化興趣分析的公司。第二年,Siddharth就創(chuàng)立了Turing,利用AI技術(shù)為其客戶優(yōu)化人才匹配。
2020年的疫情期間,Turing獲得迅速發(fā)展。因為疫情讓許多公司不得不居家辦公,同時也需要在線上招聘人才和管理團(tuán)隊,由此對Turing產(chǎn)生旺盛的需求。當(dāng)時,Turing平臺上有上百萬的工程師和開發(fā)人員。對于雇主而言,使用Turing招聘可以節(jié)省50多個小時的面試時間,匹配成功率高達(dá)97%。
轉(zhuǎn)折點(diǎn)發(fā)生在2022年。
當(dāng)時Siddharth被邀請到OpenAI開會,他本來以為是去討論招募工程師,去了之后才發(fā)現(xiàn)是要談合作。OpenAI的研究人員發(fā)現(xiàn),將代碼添加到訓(xùn)練數(shù)據(jù)集中有助于提高模型的推理能力。比如,用Python代碼解釋“如何設(shè)計橋梁”,模型更易抽象出工程學(xué)原理。
為什么添加代碼這么有用?因為代碼有著嚴(yán)密的語法和邏輯結(jié)構(gòu),同時包含了大量的算法、數(shù)據(jù)結(jié)構(gòu)等知識,有助于AI大模型學(xué)習(xí)到更抽象的語言規(guī)律。
在OpenAI眼中,Turing憑借龐大的工程師資源成為理想的“代碼礦場”。OpenAI方面詢問Siddharth是否可以組建一支程序員隊伍完成特定的軟件工程任務(wù),以便推動OpenAI的下一個項目:GPT-4。
“我清楚地記得,他們當(dāng)時的雄心壯志有多大,”Siddharth在接受 Semafor采訪時說道。“他們對我們的要求非常高,想在短時間內(nèi)獲得大量數(shù)據(jù)。”
后來Siddharth接受了OpenAI提出的合作,一位知情的OpenAI前員工透露,Turing在幫助OpenAI提升性能方面發(fā)揮了重要作用。
當(dāng)然,這場合作也為Turing開啟了全新的業(yè)務(wù)方向。與 OpenAI合作以來的近三年里,許多基礎(chǔ)模型提供商以及AI模型公司都成為了Turing的客戶,而且其數(shù)據(jù)標(biāo)注的能力范圍已超越了編程代碼領(lǐng)域,逐漸涉及各行業(yè)的專業(yè)數(shù)據(jù)。
比如,谷歌就從2023年下半年開始跟Turing合作。從編程代碼任務(wù)開始,二者達(dá)成了價值數(shù)百萬美元的合作。
目前,Turing大約60%的收入來自希望訓(xùn)練及提升AI模型能力的客戶,40%的收入來自為利用AI升級業(yè)務(wù)的客戶提供咨詢服務(wù)。
“資源-效率-社區(qū)”三板斧,筑牢護(hù)城河
隨著Turing跟AI公司的合作逐漸深入,資本也對其產(chǎn)生了興趣。
Turing的E輪融資,由馬來西亞主權(quán)財富基金 Khazanah Nasional Berhad領(lǐng)投,其他參投方包括 WestBridge Capital、Sozo Ventures、UpHonest Capital威誠資本、AltaIR Capital、Amino Capital豐元創(chuàng)投、Plug and Play、MVP Ventures、Fortius Ventures、Gaingels 和 Mastodon Capital Management。
這些投資機(jī)構(gòu)之所以押注Turing,在于它的幾大優(yōu)勢。
首先,AI大模型的整個訓(xùn)練和運(yùn)行,其實(shí)都非常依賴數(shù)據(jù)標(biāo)記和數(shù)據(jù)投喂。
數(shù)據(jù)標(biāo)記,其實(shí)就是對圖像、文本、語音等數(shù)據(jù)進(jìn)行標(biāo)注,以便機(jī)器學(xué)習(xí)模型能夠識別和分類這些數(shù)據(jù)。盡管自動化工具涌現(xiàn),但數(shù)據(jù)標(biāo)注仍高度依賴人類。目前,Scale AI已經(jīng)成為頭部的數(shù)據(jù)標(biāo)注服務(wù)商。其擁有龐大的數(shù)據(jù)標(biāo)記師團(tuán)隊,大多是來自非洲、印度和菲律賓的廉價勞動力。根據(jù)The information報道,Scale AI的年化收入至2024年5月已經(jīng)突破10億美元,估值突破138億美元。
不過,人類對大模型推理能力要求在不斷提高。大模型除了需要傳統(tǒng)的數(shù)據(jù)標(biāo)注,還需要代碼輸入,說白了就是從“體力勞動”轉(zhuǎn)向“腦力協(xié)作”。Bloomberg Research指出預(yù)計到2032年模型訓(xùn)練市場價值2470億美元,模型推理市場價值2970億美元,總價值超過5000億美元。Turing就是處在在這一趨勢上,即通過代碼生成優(yōu)化大模型的推理能力,資本自然對其抱有期望。
另外,Turing自身的“資源-效率-社區(qū)”特性,也筑牢了發(fā)展的護(hù)城河,提升了資本的信心。
資源領(lǐng)域,Turing擁有覆蓋140個國家、超400萬程序員貢獻(xiàn)的代碼,涵蓋金融、生物、制造等垂直領(lǐng)域,能夠形成差異化語料庫。效率領(lǐng)域,在龐大資源的基礎(chǔ)上,Turing憑借算法能夠提升客戶跟工程師的匹配效率,降低撮合成本。社區(qū)領(lǐng)域,工程師通過貢獻(xiàn)代碼獲得高薪和成長,形成“貢獻(xiàn)越多→技能越強(qiáng)→收入越高→吸引更多工程師”的正循環(huán),從而推動Turing平臺的壯大。
隨著大模型的加速發(fā)展,資本認(rèn)為Turing憑借這三板斧能夠開拓更廣闊的成長空間。更何況,AI基建賽道是個極為燒錢的領(lǐng)域,但Turing罕見地實(shí)現(xiàn)盈利,這也是吸引資本的重要一點(diǎn)。
DeepSeek時代:數(shù)據(jù)標(biāo)記會消失嗎?
雖然Turing發(fā)展地如火如荼,但很多人質(zhì)疑其未來的發(fā)展空間。
他們認(rèn)為越來越多的AI大模型能自動標(biāo)技數(shù)據(jù)和生成代碼,比如DeepSeek就能對數(shù)據(jù)進(jìn)行自動標(biāo)記和整理,還能通過自然語言描述生成代碼。這意味著,Scale AI旗下的數(shù)據(jù)標(biāo)記師、Turing旗下眾多的程序員會面臨淘汰風(fēng)險。
事實(shí)上,完全拋開人類實(shí)現(xiàn)大模型的迭代是不現(xiàn)實(shí)的。
因為模型越復(fù)雜,越需要人類進(jìn)行精準(zhǔn)且高效的“數(shù)據(jù)指導(dǎo)”。比如,自動駕駛模型需要標(biāo)注極端場景數(shù)據(jù),醫(yī)療模型需專家驗證病理特征,這些都無法完全依靠自動化的機(jī)器。另外,AI生成的代碼仍需人類審核與優(yōu)化。最優(yōu)秀的AI代碼生成器,一定由人類編寫的代碼訓(xùn)練而成。
Siddharth就描繪了一幅人類和AI共同推動大模型發(fā)展的圖景,比如如果要求大模型分析頂級風(fēng)險投資公司,它首先會利用金融專業(yè)人士的知識了解要尋找哪種數(shù)據(jù),然后利用人類的編碼知識編寫一個腳本,訪問相關(guān)數(shù)據(jù)并將其轉(zhuǎn)換為正確的格式,接著做出深度的分析。
Siddharth表示,OpenAI的最新模型是給程序員的禮物,而不是生存威脅。
事實(shí)上,AI不是取代人類,而是放大人類的智慧。人類跟AI是可以共同協(xié)作的——人類進(jìn)行數(shù)據(jù)標(biāo)注和提供專業(yè)知識,AI將其轉(zhuǎn)化為數(shù)據(jù)和邏輯,二者共同喂養(yǎng)更強(qiáng)大的模型。
數(shù)據(jù)就是數(shù)字化時代的原料,是21世紀(jì)的石油。當(dāng)資本瘋狂涌入大模型時,Turing的崛起揭示了一個趨勢:
AI的“靈魂”不止于數(shù)據(jù)和算法,還在于數(shù)據(jù)背后的人類痕跡。工程師的每一行代碼、醫(yī)生的每一次診斷,都能成為喂養(yǎng)AI的養(yǎng)料。人類和AI之間是共生關(guān)系,而不是零和博弈。
參考資料:
1、Jonathan Siddharth的領(lǐng)英
2、Inside the company that gathers ‘human data’ for every major AI firm(Semafor)3、Turing, a key coding provider for OpenAI and other LLM producers, raises $111M at a $2.2B valuation(TechCrunch)