界面新聞?dòng)浾?| 肖芳
界面新聞編輯 | 文姝琪
10月18日,多個(gè)微信群流傳一則消息:“某頭部大廠的大模型訓(xùn)練被實(shí)習(xí)生入侵,注入了破壞代碼,導(dǎo)致其訓(xùn)練成果不可靠,可能需要重新訓(xùn)練。據(jù)稱遭到入侵的代碼注入了8000多張卡,帶來的損失可能超過千萬美元。”
界面新聞從知情人士處獲悉,該頭部大廠為字節(jié)跳動(dòng)。此事發(fā)生在今年6月,起因是某高校的博士在字節(jié)跳動(dòng)商業(yè)化技術(shù)團(tuán)隊(duì)實(shí)習(xí),因?qū)F(tuán)隊(duì)資源分配不滿,使用攻擊代碼破壞團(tuán)隊(duì)的模型訓(xùn)練任務(wù)。
界面新聞向字節(jié)跳動(dòng)方面求證此事,截至目前,官方未進(jìn)行回應(yīng)。
傳聞顯示,該田姓實(shí)習(xí)生利用了HF(huggingface)的漏洞,在公司的共享模型里寫入破壞代碼,導(dǎo)致模型的訓(xùn)練效果忽高忽低,無法產(chǎn)生預(yù)期的訓(xùn)練效果,而且AML團(tuán)隊(duì)無法核查原因。但傳聞曝出之后,該實(shí)習(xí)生還在某微信群里辟謠稱,自己發(fā)完論文后就從字節(jié)跳動(dòng)離職,這個(gè)當(dāng)口有另一個(gè)人鉆漏洞改模型代碼,把鍋扣到自己頭上。
界面新聞從知情人士處了解到,字節(jié)跳動(dòng)內(nèi)部已經(jīng)調(diào)查明確此事為田姓實(shí)習(xí)生所為。目前,該實(shí)習(xí)生已被辭退,字節(jié)跳動(dòng)同時(shí)把此事同步給陽光誠信聯(lián)盟和企業(yè)反舞弊聯(lián)盟,以及該實(shí)習(xí)生所在的學(xué)校。但這名實(shí)習(xí)生被辭退后到處“辟謠”甩鍋,稱是其他人所為。
但該實(shí)習(xí)生攻擊的并不是豆包大模型,而是商業(yè)化技術(shù)團(tuán)隊(duì)的模型訓(xùn)練任務(wù),影響了該技術(shù)團(tuán)隊(duì)的一些業(yè)務(wù)進(jìn)展,但整體對(duì)公司造成的損失并沒有傳聞中的超過千萬美元那么大。
一位技術(shù)安全專家告訴界面新聞,HF漏洞產(chǎn)生肯定是單一性集中訓(xùn)練,此事暴露了字節(jié)跳動(dòng)技術(shù)訓(xùn)練存在安全管理問題。公司既沒做權(quán)限隔離,也沒有做好共用代碼的審計(jì)。正常情況下,每次大的代碼變動(dòng)必須做審計(jì),無論誰做操作都有痕跡記錄,一個(gè)人想動(dòng)代碼是不可能的。
上述技術(shù)安全專家表示,目前行業(yè)通用的做法是做三級(jí)隔離導(dǎo)向性部署,每一級(jí)只有鏡像,每次先掃描。調(diào)用按次算、必須密鑰。每一級(jí)完成后,才能進(jìn)入下一級(jí),而上一級(jí)自動(dòng)刪除,進(jìn)行分級(jí)訓(xùn)練。