正在閱讀:

聊聊大模型如何思考與深度學(xué)習(xí)科學(xué)家Yann LeCun

掃一掃下載界面新聞APP

聊聊大模型如何思考與深度學(xué)習(xí)科學(xué)家Yann LeCun

大模型的可解釋性。

文 | 硅谷101 泓君

隨著近兩年來(lái)生成式AI技術(shù)的進(jìn)步與普及,使用大模型來(lái)生成內(nèi)容也已逐漸成為普通人生活的一部分。這個(gè)過(guò)程看起來(lái)似乎很輕松:當(dāng)我們輸入一個(gè)指令,大模型就直接能為我們輸出答案。然而在這背后,模型內(nèi)部的工作原理和模型決策過(guò)程卻并沒(méi)有人知道,這即是廣為人知的“機(jī)器學(xué)習(xí)黑盒”。

因?yàn)楹诤心P退嬖诘牟豢山忉屝?,AI的安全問(wèn)題也一直備受質(zhì)疑。于是科學(xué)家們開(kāi)始試圖去打開(kāi)大模型的黑盒子,業(yè)內(nèi)稱之為“白盒研究”。一方面,白盒模型的研究能幫助人們理解黑盒模型,從而對(duì)大模型進(jìn)行優(yōu)化和效率的提升。另一方面,白盒研究的目標(biāo)是要把AI這一工程性學(xué)科推向科學(xué)。

此次,我們邀請(qǐng)到了加州大學(xué)戴維斯分校電子與計(jì)算機(jī)工程系助理教授陳羽北,他的研究?jī)?nèi)容就與“白盒模型”有關(guān)。此外,他也是圖靈獎(jiǎng)獲得者、Meta首席科學(xué)家Yann LeCun的博士后。本期節(jié)目中,他和我們聊了聊白盒模型的最新研究進(jìn)展,同時(shí)也向我們分享了他所熟悉的這位經(jīng)歷過(guò)AI行業(yè)起起伏伏、卻依然純粹專注的科學(xué)家Yann LeCun。

以下是部分訪談精選

01 人腦與大模型

《硅谷101》:可以先簡(jiǎn)單介紹一下你正在做的“白盒模型”研究嗎?在你的研究過(guò)程中有沒(méi)有發(fā)現(xiàn)如何能去解釋 GPT 的輸入輸出問(wèn)題?

陳羽北:這個(gè)方向其實(shí)一個(gè)比較大的目標(biāo)就是深度學(xué)習(xí)從一門純經(jīng)驗(yàn)性學(xué)科向一個(gè)科學(xué)學(xué)科來(lái)推動(dòng),或者說(shuō)把工程變成科學(xué),因?yàn)槟壳肮こ贪l(fā)展得比較快但科學(xué)相對(duì)緩慢。以前有一個(gè)模型叫做詞的嵌入(embedding),它可以學(xué)到語(yǔ)言的一些表征。

大家當(dāng)時(shí)其實(shí)就有一個(gè)疑問(wèn),我們做任務(wù)的性能變好了,可是究竟是什么導(dǎo)致這個(gè)性能變好了?所以我們當(dāng)時(shí)做過(guò)一個(gè)非常早期的工作,就是嘗試打開(kāi)詞匯的這些表示。當(dāng)你把它打開(kāi)的時(shí)候,就會(huì)發(fā)現(xiàn)一些很有意思的現(xiàn)象。

比如說(shuō)蘋果這個(gè)詞,你可以找到里面的一些元意思,比如其中的一個(gè)意思可能就是代表水果,另外一個(gè)意思代表甜點(diǎn),再往下挖會(huì)找到有技術(shù)和產(chǎn)品的意思,當(dāng)然指的是蘋果公司的產(chǎn)品。所以你就會(huì)發(fā)現(xiàn)順著一個(gè)詞你能找到這些元意思,接著你就可以把這樣的方法延伸到大語(yǔ)言模型里。

也就是說(shuō),當(dāng)我們學(xué)完一個(gè)大語(yǔ)言模型以后,可以在模型里面去尋找它里面所帶有的一些元意思,然后嘗試去打開(kāi)。你會(huì)發(fā)現(xiàn)一個(gè)大語(yǔ)言模型,它其實(shí)有很多層。

在初級(jí)層里,它會(huì)出現(xiàn)一個(gè)現(xiàn)象叫“詞語(yǔ)的消歧”。比如像在英文里面有個(gè)詞叫做“l(fā)eft”,這個(gè)詞它既有向左轉(zhuǎn)的意思,也有離開(kāi)的過(guò)去式的意思,那么它具體的意思則要取決于語(yǔ)境前后的上下文,所以大語(yǔ)言模型在初期的幾層里就完成了詞語(yǔ)的消歧。

而在中期你會(huì)發(fā)現(xiàn)又有一些新的意思產(chǎn)生。當(dāng)時(shí)我們覺(jué)得一個(gè)很好玩的事叫做“單位轉(zhuǎn)換”,一旦要將公里變成英里、溫度從華氏度變成攝氏度的時(shí)候就會(huì)被激活,這個(gè)意思就會(huì)被打開(kāi),你可以順著這個(gè)路找到很多相似級(jí)別的這種元意思。

你再往上走的時(shí)候甚至?xí)l(fā)現(xiàn)這些元意思中存在一種規(guī)律,這種規(guī)律就是當(dāng)上下文里出現(xiàn)了一個(gè)重復(fù)的意思時(shí)它就會(huì)被激活,你就可以用這樣的方式去打開(kāi)大語(yǔ)言模型以及小語(yǔ)言模型。當(dāng)然這些思路也并不完全是新的,它在視覺(jué)模型里其實(shí)已經(jīng)有一段歷史了,比如說(shuō)從Matthew Zeiler開(kāi)始就有一些類似探索。

《硅谷101》:順著這個(gè)思路,是不是如果我們知道了它部分是怎么運(yùn)作的,就可以從工程上對(duì)它有很多優(yōu)化?

陳羽北:是的,這個(gè)是一個(gè)非常好的問(wèn)題。我覺(jué)得做任何理論一個(gè)比較高的要求就是可以指導(dǎo)實(shí)踐,所以在我們當(dāng)時(shí)做語(yǔ)言模型還有詞匯表征的時(shí)候,當(dāng)時(shí)也有的一個(gè)目標(biāo),就是當(dāng)我們理解以后,能不能反過(guò)來(lái)優(yōu)化這些模型?其實(shí)是可以的。

舉一個(gè)例子,如果你在大語(yǔ)言模型里面找到的一個(gè)元意思,當(dāng)它看到某一種元意思的時(shí)候就會(huì)激活,那這一個(gè)神經(jīng)元就可以被作為一個(gè)判別器,你就可以用這個(gè)東西來(lái)做一些任務(wù)。通過(guò)對(duì)這些元意思的改變,來(lái)調(diào)節(jié)模型的偏見(jiàn)。

就是如果我能夠發(fā)現(xiàn)它,那我可以調(diào)整它。最近 Anthropic 他們就是做了類似的一個(gè)工作,就是找到語(yǔ)言模型里邊可能存在的一些偏見(jiàn),然后對(duì)它進(jìn)行一些改變來(lái)使這個(gè)模型變得更加的公平和安全。

《硅谷101》:我看到去年 OpenAI 也有一項(xiàng)研究,就是用 GPT4 去解釋 GPT2,看 GPT2到底是怎么工作的。比如說(shuō)他們發(fā)現(xiàn)GPT 2的神經(jīng)元在回答所有跟美國(guó)歷史1800年前后的事情時(shí),第5行的第12個(gè)神經(jīng)元會(huì)被激活,在回答中文的時(shí)候是第12行的第13個(gè)神經(jīng)元被激活。

如果把它回答中文的這個(gè)神經(jīng)元關(guān)閉的話,它對(duì)中文的理解能力就會(huì)大幅的下降。但是越往后的神經(jīng)元,比如當(dāng)神經(jīng)元到了2000排左右的時(shí)候那它整個(gè)的可信度就已經(jīng)下降了很多。你有沒(méi)有注意到他們的這個(gè)研究?

OpenAI的研究:讓GPT4去解釋GPT2的神經(jīng)元

陳羽北:這篇文章我還沒(méi)看過(guò),不過(guò)這個(gè)方法它非常像是給大腦的神經(jīng)元做手術(shù)。相當(dāng)于現(xiàn)在如果有一個(gè)神經(jīng)的網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)是指從某種意義上能找到一個(gè)局部的存在而不是完全分散的,那么就可以對(duì)它進(jìn)行一些操作。比如把某個(gè)神經(jīng)元切掉了,那你就可以認(rèn)為它某一塊的能力相對(duì)來(lái)講就損失掉了。

人其實(shí)也是一樣的,比如一個(gè)患有癲癇的人在做完手術(shù)后可能會(huì)出現(xiàn)某些語(yǔ)言的障礙,但并不太影響其他人體功能,這從原理上看起來(lái)是相似的。

《硅谷101》:OpenAI、Anthropic他們現(xiàn)在都在研究大模型的可解釋性,你的研究跟他們之間有什么區(qū)別嗎?

陳羽北:白盒模型的研究是否將來(lái)能成功其實(shí)大家都不知道,我之前也跟我的導(dǎo)師討論過(guò),但大家一致的看法是說(shuō)這件事值得嘗試。如果我們回到這一塊的話,我們的研究想做的其實(shí)是想理解人工智能,并且通過(guò)我們的理解重構(gòu)它,進(jìn)而從根本上來(lái)構(gòu)建出一些不一樣的東西。那么觀測(cè),也就是可解釋性我覺(jué)得只是一種手段。

也就是說(shuō),打開(kāi)這種模型也好,我做這些實(shí)驗(yàn)也好,對(duì)模型進(jìn)行一些調(diào)整也好,我認(rèn)為這都是我們?cè)诶斫獾倪^(guò)程中所嘗試的一些手段,但是白盒模型真正重要的還是要回到這個(gè)信號(hào)本身。因?yàn)椴还苁侨四X也好,機(jī)器也好,它們的學(xué)習(xí)的本質(zhì)都因?yàn)樾盘?hào)。

我們這個(gè)世界中存在一些結(jié)構(gòu),他們也要通過(guò)這些結(jié)構(gòu)來(lái)進(jìn)行學(xué)習(xí),學(xué)的也正是這些結(jié)構(gòu)。那么我們是否可以找到這些結(jié)構(gòu)背后的規(guī)律,以及表示他們的一些數(shù)學(xué)工具再把這些東西進(jìn)行重組進(jìn)而構(gòu)建出來(lái)一個(gè)不一樣的模型?如果這件事可以完成的話,我想就能帶來(lái)關(guān)于提高我們的系統(tǒng)的魯棒性,或者安全性和可信度的一種期望。

另外,它的效率也會(huì)提高。這有點(diǎn)像是蒸汽機(jī)先出來(lái)之后才出現(xiàn)了熱力學(xué)這種理論,從而支撐它從一門完全的工匠學(xué)科變成了一門科學(xué)。那么同理,今天我們就好像是第一次在數(shù)據(jù)上有了蒸汽機(jī),從以前不理解我們的數(shù)據(jù),到現(xiàn)在終于可以開(kāi)始做出來(lái)一些 AI 的算法把數(shù)據(jù)中的規(guī)律給抓出來(lái)。

《硅谷101》:所以它會(huì)更節(jié)能。

陳羽北:要說(shuō)到節(jié)能,我可以舉幾個(gè)有意思的例子。第一個(gè)點(diǎn)肯定是節(jié)能,因?yàn)榇竽X它相當(dāng)于一個(gè)20瓦功耗的一個(gè)燈泡,那現(xiàn)在的超級(jí)計(jì)算機(jī)它可能要超過(guò)百萬(wàn)瓦。

第二點(diǎn)是,如果我們看自然界各種各樣生物所進(jìn)行演化,它的演化效率其實(shí)是非常高的。比如有一種特殊蜘蛛叫Jumping Spider,它只有幾百萬(wàn)個(gè)神經(jīng)元,但它可以做出非常復(fù)雜的三維的群線去捕捉它的獵物。

而我覺(jué)得最有意思的一件事兒是人對(duì)于數(shù)據(jù)使用的效率。Llama3現(xiàn)在的數(shù)據(jù)量大概已經(jīng)達(dá)到了13萬(wàn)億個(gè)Token。但人的一生當(dāng)中到底能接收多少的數(shù)據(jù)呢?假設(shè)我們每秒可以獲得30幀圖像,每天的獲取時(shí)間是12個(gè)小時(shí),做20年,那么我們大概能得到100億個(gè)token,文字能獲取的也是差不多一樣,數(shù)據(jù)量比大模型小太多了。

那么問(wèn)題來(lái)了,人究竟是如何通過(guò)如此少的一個(gè)數(shù)據(jù)量來(lái)獲得如此強(qiáng)的一個(gè)泛化能力的呢?這就是人腦在效率層面讓我覺(jué)得很神奇的一點(diǎn)。

《硅谷101》:去揭開(kāi)大模型是怎么運(yùn)作的和跟揭開(kāi)人腦是怎么運(yùn)作的哪個(gè)更難?我聽(tīng)起來(lái)都很難。

陳羽北:這兩者各有各的難法,但在方法上是相似的。不管是人腦還是大語(yǔ)言模型,我們都是嘗試去觀測(cè)它,看它對(duì)什么產(chǎn)生了響應(yīng)。

這個(gè)方法其實(shí)從上個(gè)世紀(jì)80年代獲得諾貝爾生理學(xué)獎(jiǎng)得主David Hubel和Torsten Weisel關(guān)于視覺(jué)皮層的研究中就能看到。他們找到了一種Simple Cell,嘗試研究人看到什么東西的時(shí)候這些神經(jīng)元它會(huì)產(chǎn)生沖動(dòng),分析看不同的東西時(shí)候神經(jīng)元不同的響應(yīng)狀態(tài),比如什么時(shí)候完全不響應(yīng),什么時(shí)候又很興奮,接著他們就找到了神經(jīng)元的 Receptive field。

D.H.Hubel和T.N.Wiesel, 1981年諾貝爾生理學(xué)或醫(yī)學(xué)獎(jiǎng)獲得者

而我們今天研究大語(yǔ)言模型其實(shí)也是相似的,找不同的輸入,然后理解模型內(nèi)部的哪些神經(jīng)元是對(duì)哪些輸入感興趣的。不過(guò)它們?nèi)匀挥袇^(qū)別。

第一個(gè)區(qū)別是,不管是通過(guò)插電極還是腦機(jī)接口等方法對(duì)人腦進(jìn)行觀測(cè),都有很多的限制,但大語(yǔ)言模型有一個(gè)天然的好處就是觀測(cè)手段不再受限了,如果你有更好的方法,你就可以長(zhǎng)期去分析,甚至你還可以通過(guò)一些微分的方法對(duì)模型進(jìn)一步分析。

但是它的缺點(diǎn)是,大模型的能力還遠(yuǎn)遠(yuǎn)不及大腦,尤其是大語(yǔ)言模型,因?yàn)樗粡恼Z(yǔ)言里面來(lái)學(xué)習(xí)這個(gè)世界,所以它的對(duì)世界是理解是不完整的,就好像一個(gè)人他沒(méi)有了其他的感官只有語(yǔ)言。

相比之下,大腦能處理更多維的信號(hào),感官是非常豐富的。有時(shí)候我們會(huì)想一個(gè)問(wèn)題,就是語(yǔ)言是否是完備的?如果沒(méi)有其他感官的支撐的話,語(yǔ)言里邊是不是所有的概念都可以獨(dú)立存在,還是一定需要其他感官作為支撐,才有可能實(shí)現(xiàn)真正的理解。

舉個(gè)例子,“冰箱”這個(gè)東西如果不和現(xiàn)實(shí)世界的冷熱感受關(guān)聯(lián),只是描述它有門等這種統(tǒng)計(jì)特征,是不是這種描述就是不完備的。

《硅谷101》:所以其實(shí)目前大模型跟大腦相比,它還是欠缺非常多的。但是因?yàn)槲覀兛梢园阉痖_(kāi)來(lái)研究,所以你覺(jué)得它還是會(huì)比揭開(kāi)大腦的秘密的這個(gè)野心稍微更進(jìn)一步。

陳羽北:理解大語(yǔ)言模型它的難度在于你觀測(cè)的手段多,對(duì)它理解也能更多。比如有兩臺(tái)機(jī)器,一臺(tái)機(jī)器完全可觀測(cè),一臺(tái)機(jī)器部分可觀測(cè),那從直覺(jué)上來(lái)講是完全可觀測(cè)的這臺(tái)機(jī)器就更容易被理解。當(dāng)然它有一些能力是這臺(tái)機(jī)器沒(méi)有,所以不能取代對(duì)人腦的一些理解。

《硅谷101》:我跟聽(tīng)眾也補(bǔ)充介紹一下,羽北之前是學(xué)神經(jīng)科學(xué)的。那你覺(jué)得對(duì)你的學(xué)科背景對(duì)現(xiàn)在來(lái)做 AI 方向的研究有什么幫助嗎?會(huì)不會(huì)有一些跨學(xué)科的可以相互借鑒的研究方法?

陳羽北:我其實(shí)也不是專業(yè)學(xué)計(jì)算神經(jīng)科學(xué)的。我本科是在清華的電子系,在伯克利是電子工程計(jì)算機(jī)系,但當(dāng)時(shí)我所在的研究所是一個(gè)神經(jīng)科學(xué)的一個(gè)研究所,所以我導(dǎo)師是計(jì)算神經(jīng)科學(xué)的專家。

關(guān)于剛才那個(gè)問(wèn)題,我覺(jué)得神經(jīng)科學(xué)的學(xué)習(xí)對(duì)我來(lái)講的幫助通常是一種啟發(fā)。因?yàn)楫?dāng)你知道自然界的這些系統(tǒng),知道它們可以做到什么的時(shí)候,你可能就會(huì)有不一樣的想法,會(huì)重新看待眼前的問(wèn)題。

舉個(gè)例子,一張圖片它是一個(gè)二維輸入信號(hào),它的像素有橫向的、縱向的,然后它形成一個(gè)網(wǎng)格。但人眼視網(wǎng)膜并不長(zhǎng)這樣。首先它是種擁有不同感知的感受器,這個(gè)感受器是以非常密集但又不是非常規(guī)則的方式排布的,它中間非常的細(xì)密,向兩邊的時(shí)候會(huì)變得稀疏。

當(dāng)你面對(duì)這樣一個(gè)輸入信號(hào)的時(shí)候,首先我們習(xí)以為常的卷積神經(jīng)網(wǎng)絡(luò)這些東西就都失效了,因?yàn)檫B卷積在這里都沒(méi)有定義。所以當(dāng)看到生物系統(tǒng)里的這個(gè)情況,就會(huì)重新去想我們所謂的這些卷積到底從何而來(lái)。

《硅谷101》:所以你會(huì)重新去想方法是不是對(duì)的?是不是一定要以這種方式來(lái)實(shí)現(xiàn)?

陳羽北:是的。就是假設(shè)有一天你醒來(lái),所有的神經(jīng)元都打亂了,那你還能再去理解這個(gè)世界嗎?因?yàn)槟憧吹降囊呀?jīng)不再是一張圖片了,你也不能再用卷積神經(jīng)網(wǎng)絡(luò)來(lái)做這件事情了,你需要什么樣的方法?

雖然我們還沒(méi)完全解決這個(gè)問(wèn)題,其實(shí)目前也已經(jīng)走了一步。雖然我的所有的神經(jīng)元都打亂了,就是我們的感受器圖像里邊的這些像素打亂了,可是相鄰的這些像素它們有一些關(guān)系。比如我們看圖像時(shí)我會(huì)發(fā)現(xiàn)如果一個(gè)像素是紅的,那周圍的像素也更可能是紅的,那么通過(guò)這種關(guān)系你就可以去讓這些像素他們重新去找朋友,然后就可以把相似的像素自組織成一些關(guān)系。

然后這個(gè)時(shí)候再加上大語(yǔ)言模型里 Transformer 這樣的結(jié)構(gòu),就可以重新的對(duì)這種圖像做出一個(gè)表示,而且這個(gè)表示的性能還不錯(cuò)。這個(gè)就是一個(gè)完全從自然的啟發(fā)去重新審視我們現(xiàn)在的工程上的一些做法、然后提出一些不同方法的例子。

《硅谷101》:感覺(jué)研究AI大模型和人腦神經(jīng)科學(xué)還是有很多相似之處的。會(huì)有神經(jīng)科學(xué)家從他們的角度來(lái)跟你們產(chǎn)生跨領(lǐng)域的研究合作嗎?

陳羽北:其實(shí)有很多的神經(jīng)科學(xué)家、統(tǒng)計(jì)學(xué)家以及數(shù)學(xué)家他們想要理解自然信號(hào)中的一些結(jié)構(gòu),同時(shí)也會(huì)關(guān)注大腦中的神經(jīng)元它們是如何運(yùn)作的,然后把這兩者結(jié)合在一起,嘗試去提出一些極簡(jiǎn)的對(duì)于信號(hào)的一些表示。

舉一個(gè)例子,在大腦里面你會(huì)發(fā)現(xiàn)有一個(gè)現(xiàn)象,就是神經(jīng)元雖然很多,但同一時(shí)間在工作的這些神經(jīng)元其實(shí)是非常的稀疏。比如有100 萬(wàn)個(gè)神經(jīng)元,可能就只有幾千個(gè)在工作。

根據(jù)這個(gè),早年神經(jīng)科學(xué)領(lǐng)域就提出來(lái)一個(gè)稀疏編碼的方法,也就是在這種高位信號(hào)中,能不能找出一些稀疏的低維表示?從這樣的思路出發(fā)所構(gòu)建出來(lái)算法,就和你在大腦里面觀測(cè)到的這些神經(jīng)元表示非常相近,所以這個(gè)是早期計(jì)算神經(jīng)科學(xué)無(wú)監(jiān)督的一個(gè)成功。

到今天來(lái)講的話,我們整個(gè)的這一塊研究領(lǐng)域有個(gè)名字叫做自然統(tǒng)計(jì)信號(hào)的研究(Natural Signal Statistics),它的目標(biāo)就是揭示信號(hào)背后的一些基本結(jié)構(gòu),但和大模型相比,和白盒模型這類神經(jīng)科學(xué)結(jié)合的研究它的發(fā)展其實(shí)相對(duì)來(lái)講慢一些的。我其實(shí)覺(jué)得一方面可能是因?yàn)閱?wèn)題復(fù)雜,但另一方面也是因?yàn)橥度脒@個(gè)方向的人比較少。

02 黑盒模型的“彎道超車”

《硅谷101》:簡(jiǎn)單來(lái)說(shuō)就是現(xiàn)在研究白盒模型的人太少了。但是在大模型出現(xiàn)以前,傳統(tǒng)的機(jī)器學(xué)習(xí)是不是也屬于白盒模型研究的范疇?

陳羽北:我覺(jué)得這個(gè)說(shuō)法可以認(rèn)為是對(duì)的,以前的這些機(jī)器學(xué)習(xí)的模型相對(duì)簡(jiǎn)單,相對(duì)來(lái)講都可以理解。

《硅谷101》:那為什么現(xiàn)在整個(gè)的黑盒模型的研究進(jìn)展對(duì)白盒模型實(shí)現(xiàn)了彎道超車,速度可以快這么多?

陳羽北:這個(gè)問(wèn)題問(wèn)出來(lái)我們就先會(huì)是緊張一下,然后再回答。

《硅谷101》:為什么要緊張?陳羽北:因?yàn)檫@個(gè)問(wèn)題很尖銳,其實(shí)是在問(wèn)是不是白盒模型、或者說(shuō)可理解的這條路徑我們就應(yīng)該放棄了。從我們這個(gè)時(shí)代開(kāi)始,是不是在AI領(lǐng)域我們已經(jīng)不再研究科學(xué)了,以后全都變成一個(gè)經(jīng)驗(yàn)性學(xué)科?但我覺(jué)得還不是。

回到你剛才的這個(gè)問(wèn)題,這個(gè)過(guò)程中到底發(fā)生了什么?首先一點(diǎn)就是黑盒模型的包袱少。你既要這個(gè)方法可以工作又要這個(gè)方法可以解釋的話要求就太多,那黑盒模型就放棄了一條讓他先可以工作。

第二是相對(duì)來(lái)講被大家所忽視的原因,就是數(shù)據(jù)的逆勢(shì)增長(zhǎng),或者說(shuō)是規(guī)模擴(kuò)大。

Richard Sutton之前寫(xiě)了一篇博客里面曾提到,在過(guò)去的 20 年里面有一個(gè)一直沒(méi)有被打破的東西,就是當(dāng)我們有更多的數(shù)據(jù)、更多的計(jì)算,應(yīng)該找到比較能夠真正擴(kuò)張的算法去把所有的數(shù)據(jù)的這種規(guī)律找進(jìn)來(lái)。我認(rèn)為這個(gè)是黑盒模型里,或者說(shuō)是我們現(xiàn)在的經(jīng)驗(yàn)性的進(jìn)展里很重要的一條。

就是說(shuō)當(dāng)我們有更大的數(shù)據(jù)、更好的數(shù)據(jù),更多的計(jì)算、更大的模型,然后就能學(xué)得更多。但是我們回到這個(gè)問(wèn)題的話,就是白盒模型里大家有一個(gè)追求,是說(shuō)模型本身要具有簡(jiǎn)潔性。

《硅谷101》:為什么白盒模型要簡(jiǎn)潔?是不是可以理解成如果它過(guò)于復(fù)雜,它就很難被設(shè)計(jì)?陳羽北:是的。其實(shí)做理論只有簡(jiǎn)潔的東西才可以被理解,肯定是要做一次一次的簡(jiǎn)化。但是們?cè)谧非竽P偷暮?jiǎn)潔性的時(shí)候,也可能會(huì)做了一次又一次的過(guò)度簡(jiǎn)化,而一旦出現(xiàn)這種過(guò)度簡(jiǎn)化,模型就無(wú)法完全刻畫(huà)數(shù)據(jù)的形態(tài)。那么數(shù)據(jù)更多的時(shí)候,模型就走不下去了,它的能力會(huì)被限制住。

所以我認(rèn)為這也是以前大家在研究白盒模型、研究簡(jiǎn)單模型時(shí)面臨的一個(gè)困難。我們不僅僅要帶著模型需要工作、同時(shí)還需要它可解釋的包袱,同時(shí)我還需要它簡(jiǎn)潔,當(dāng)你把所有的這些東西帶上,就會(huì)發(fā)現(xiàn)這個(gè)包袱太重。當(dāng)你做過(guò)度簡(jiǎn)化的時(shí)候也就引入了錯(cuò)誤,錯(cuò)誤會(huì)積累,再后來(lái)就走不動(dòng)了?!豆韫?01》:但現(xiàn)在隨著黑盒模型的快速發(fā)展,我們又開(kāi)始嘗試去解決它。陳羽北:是的。而且這一次我們?cè)诮鉀Q它的時(shí)候,可能會(huì)重新審視這個(gè)問(wèn)題。就是我們不一定需要讓模型完全的簡(jiǎn)化到那個(gè)程度,它還是能夠表示這個(gè)世界比較復(fù)雜的一面。

但是同時(shí)我們還是希望他是比較可以理解的,所以如果有一天我們可以做到白盒模型的話,那么在此之前我認(rèn)為每一次的嘗試都是一次過(guò)度的簡(jiǎn)化,但是我們希望每次簡(jiǎn)化都能往前走。我們甚至不需要完全做出一個(gè)白盒模型,也許可以做出一個(gè)白盒的、但是沒(méi)有大模型那么強(qiáng)的模型,但它又相對(duì)來(lái)講非常簡(jiǎn)潔。

它對(duì)于我們理解學(xué)習(xí)背后的本質(zhì)是有幫助的,同時(shí)這種理解可能反過(guò)來(lái)又讓我們對(duì)大模型的訓(xùn)練提高效率。關(guān)于效率問(wèn)題我之前跟 Yann 也討論過(guò)幾次,就是說(shuō)如果這背后的理論得到發(fā)展,我們就可能讓工程實(shí)踐效率以數(shù)量級(jí)的方式上升?!豆韫?01》:Yann的觀點(diǎn)是更希望發(fā)展白盒模型還是黑盒模型?陳羽北:Yann是一個(gè)以工程方面著稱的科學(xué)家,所以他的很多嘗試還是要讓這個(gè)東西先工作起來(lái)。但Yann也是支持白盒模型研究的,在我跟他討論的過(guò)程中,他會(huì)覺(jué)得這條路值得探索,但是一個(gè)過(guò)于有野心的目標(biāo),是否能實(shí)現(xiàn)他也不知道,但總要有人做。《硅谷101》:感覺(jué)黑盒模型是一個(gè)工程問(wèn)題,白盒模型則必須用科學(xué)解釋它。雖然從商業(yè)化角度,它的投入產(chǎn)出比不是那么高,但如果最終能做出來(lái)這個(gè)東西,那么對(duì) AI 的安全性和未來(lái)商業(yè)化的應(yīng)用還是很有價(jià)值的。陳羽北:關(guān)于商業(yè)化,其實(shí)我認(rèn)為所有做基礎(chǔ) AI 研究的人工作的初衷不是以任何的應(yīng)用為初衷,而是由對(duì)智能這個(gè)問(wèn)題比較純粹的好奇心所驅(qū)動(dòng),緊接著可能會(huì)發(fā)現(xiàn)一些規(guī)律反過(guò)來(lái)可能幫到在工程實(shí)踐。研究本身并不是為某一種應(yīng)用所設(shè)計(jì)的。

另外,當(dāng)我們?cè)谧非筮@種白盒模型、這種極致效率的過(guò)程中,我們也會(huì)追問(wèn)一個(gè)問(wèn)題,就是我們現(xiàn)在做的這個(gè)大語(yǔ)言模型是不是只通過(guò)這種規(guī)模化或者 Scaling Law 這一條路走下去就可以了?我認(rèn)為其實(shí)不是的。因?yàn)槿耸亲霾坏浇邮苓@么大量數(shù)據(jù)的,那如何用少量的數(shù)據(jù)還能獲得比較高的泛化能力,這也是我們?cè)谘芯康囊粋€(gè)重要的問(wèn)題?!豆韫?01》:這應(yīng)該也是黑盒模型的學(xué)者在研究的一個(gè)問(wèn)題。目前白盒模型有哪些學(xué)者跟流派在研究這個(gè)事情呢?

陳羽北:目前主要就是AI的三股力量。第一股力量就是我們?cè)谘芯窟@些工程模型的過(guò)程中所產(chǎn)生的一些經(jīng)驗(yàn),然后對(duì)它進(jìn)行可視化,比如最近Anthropic、 OpenAI 他們也參與在做的這些事情。

Anthropic的研究:從神經(jīng)網(wǎng)絡(luò)Claude 3 Sonnet提取可解釋的特征

第二就是計(jì)算神經(jīng)科學(xué)嘗試對(duì)人腦進(jìn)行理解,找到一些記憶可能存在的方式。

還有一種流派就是從數(shù)學(xué)和統(tǒng)計(jì)的角度出發(fā),看信號(hào)的基本的結(jié)構(gòu)是什么樣的。當(dāng)然這三種之間還會(huì)產(chǎn)生很多的交叉?!豆韫?01》:你屬于哪一流派?陳羽北:其實(shí)這三派我都或多或少都有受到一點(diǎn)影響。之前在伯克利的時(shí)候跟我的導(dǎo)師以及馬毅老師他們都屬于偏神經(jīng)科學(xué)和數(shù)學(xué)統(tǒng)計(jì)的這個(gè)流派,然后在Yann 這邊是工程方面訓(xùn)練多一點(diǎn)。這三種方法我也覺(jué)得都可以接受,因?yàn)樗罱K都會(huì)讓我們向同一個(gè)方向前進(jìn)。《硅谷101》:同樣的方向是哪個(gè)方向?現(xiàn)在有階段性結(jié)果嗎?

陳羽北:最終就是理解這個(gè)模型。之前有一些階段性成果,比如說(shuō)我們能不能做出一些哪怕是兩三層的網(wǎng)絡(luò),每一層我們都可以看他學(xué)的是什么東西。最后發(fā)現(xiàn)真的可以做到一個(gè)數(shù)字要想表示它,你會(huì)把它的筆畫(huà)全都學(xué)出來(lái),再把相似的筆畫(huà)聯(lián)系在一起,接著就可以構(gòu)建出來(lái)下一個(gè)層次的表示,這樣的一層一層的,最后找到了數(shù)字?!豆韫?01》:你現(xiàn)在的這些研究會(huì)對(duì)黑盒模型產(chǎn)生優(yōu)化嗎?

陳羽北:一是當(dāng)你對(duì)它的理解加深了以后,可能就能優(yōu)化黑盒模型,讓它的效率變高。第二是能把不同的黑盒模型統(tǒng)一起來(lái),這樣就減少了很多不必要的浪費(fèi)。同時(shí)還有一個(gè)涉及到我這個(gè)實(shí)驗(yàn)室的另外一項(xiàng)支柱性的工作,就是要研究不僅僅是感知還有控制。

當(dāng)你給了這些大語(yǔ)言模型它能夠和世界交互的這個(gè)能力的時(shí)候,能不能讓它在控制系統(tǒng)里邊你能否獲得同樣的泛化能力。什么意思呢?就是說(shuō)在感知系統(tǒng)里邊你會(huì)發(fā)現(xiàn),我學(xué)了蘋果,學(xué)了梨,然后來(lái)一個(gè)桃子,由于我之前學(xué)了一個(gè)相似的蘋果和梨的概念,所以可以很快就學(xué)會(huì)桃子這個(gè)概念。

那么在控制的領(lǐng)域,能不能達(dá)到相似的性能呢?比如一個(gè)機(jī)器人它學(xué)會(huì)了向前走和原地跳躍,那能不能很快把它變成一個(gè)向前一邊跳一邊走的機(jī)器人。

《硅谷101》:如果讓你給一個(gè)結(jié)論的話,你覺(jué)得用白盒模型的研究解開(kāi)大模型運(yùn)作這個(gè)秘密,它目前的進(jìn)度條到哪里了?陳羽北:實(shí)際上我們都不知道這個(gè)進(jìn)度條有多長(zhǎng),我感覺(jué)距離這個(gè)目標(biāo)其實(shí)很遠(yuǎn)。它不一定是一個(gè)線性的發(fā)展,可能是比較像量子的這種跳躍。當(dāng)一個(gè)新的認(rèn)知出來(lái)以后,你可能會(huì)馬上往前走一大步。

如果你想做一個(gè)白盒的ChatGPT,我認(rèn)為這個(gè)還挺遠(yuǎn)的,但我們有可能能夠做出一個(gè)還不錯(cuò)的、完全可理解的模型,復(fù)現(xiàn)當(dāng)時(shí)像比如 AlexNet 這樣的能力。這種模型它可以就做 Imagenet 的識(shí)別,我們可以理解它里邊的每一步它是怎么做的,它是如何一步一步地變成了一個(gè)貓和狗,然后這個(gè)貓和狗它的這個(gè)結(jié)構(gòu)是怎么產(chǎn)生的。

ImageNet 使用的 WordNet 的示例

《硅谷101》:ImageNet 的識(shí)別算是白盒還是黑盒?

陳羽北:我們還沒(méi)有完全發(fā)現(xiàn)它的工作原理。從 Matthew Zeiler 和 Rob Fergus以及很多研究者做的一些早期的可視化中有一定理解,但是沒(méi)有人能夠創(chuàng)造出來(lái)這樣的一個(gè)模型,每一步我們都可理解且還能工作得不錯(cuò)?!豆韫?01》:所以可能白盒模型的目標(biāo)就是分階段的。比如第一步先解釋這個(gè) ImageNet 是怎么工作的,這個(gè)謎底揭開(kāi)以后我們可以再來(lái)解釋一些小模型是怎么工作的,就像用GPT 4去解釋GPT 2是怎么工作的,然后再慢慢解釋大模型是怎么工作的。陳羽北:是的。這個(gè)過(guò)程我覺(jué)得還是有相當(dāng)長(zhǎng)的時(shí)間,而且也需要更多的人來(lái)投入到這個(gè)方向上。因?yàn)槟壳按蟛糠值墓ぷ鞫技性诠こ填I(lǐng)域。如果我們放到學(xué)校來(lái)做的話,那你其實(shí)是需要有一些原創(chuàng)性的想法,而不是說(shuō)你去scale,我也去scale,那大家都是scale,到最后其實(shí)就沒(méi)有區(qū)分度,就看誰(shuí)的機(jī)器最好和誰(shuí)的數(shù)據(jù)最多了。

03 我所了解的Yann LeCun

《硅谷101》:接下來(lái)我想跟你討論一下你博士后的導(dǎo)師Yann LeCun。我先再補(bǔ)充介紹一下Yann LeCun,他的中文名字叫做楊立昆,是一名法國(guó)計(jì)算機(jī)科學(xué)家,在機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、移動(dòng)機(jī)器人和計(jì)算神經(jīng)科學(xué)等領(lǐng)域都有很多貢獻(xiàn),被譽(yù)為“卷積神經(jīng)網(wǎng)絡(luò)之父”。

LeCun 現(xiàn)任Meta首席AI科學(xué)家,并擔(dān)任紐約大學(xué)教授。他在1980年代率先提出了卷積神經(jīng)網(wǎng)絡(luò)(CNN),這項(xiàng)技術(shù)成為現(xiàn)代計(jì)算機(jī)視覺(jué)的基礎(chǔ)。LeCun與Geoffrey Hinton和Yoshua Bengio共同獲得2018年圖靈獎(jiǎng),表彰他們?cè)谏疃葘W(xué)習(xí)方面的開(kāi)創(chuàng)性工作。

可不可以給我們不懂技術(shù)的朋友稍微解釋一下 Yann 主要的科學(xué)研究成果,以及他為什么這么知名?

陳羽北:Yann從 80 年代就開(kāi)始研究神經(jīng)網(wǎng)絡(luò) AI 領(lǐng)域,經(jīng)歷了很多次的高峰和低谷和不同學(xué)派的衰落,但他始終堅(jiān)持深度學(xué)習(xí)網(wǎng)絡(luò),是一個(gè)走過(guò)黑暗的人。

比如2000 年的時(shí)候發(fā)深度學(xué)習(xí)相關(guān)的文章非常困難,困難到什么程度呢?如果你的文章里面存在 Neural 神經(jīng)或者Network這個(gè)詞,你被拒稿的概率就很大了,如果有 Neural Network 的話基本就一定會(huì)被拒稿。

所以當(dāng)時(shí)對(duì)于他們來(lái)講這是一個(gè)至暗時(shí)刻,經(jīng)費(fèi)也受影響。但是他們能在這種黑暗當(dāng)中堅(jiān)持不放棄,最后走出這個(gè)黑暗,到今天神經(jīng)深度網(wǎng)絡(luò)改變了世界,我覺(jué)得這個(gè)其實(shí)也是他們得圖靈獎(jiǎng),對(duì)他們當(dāng)年作為前期的先鋒的一種記憶吧。

《硅谷101》:你讀博士后的時(shí)候?yàn)槭裁磿?huì)選他的組?陳羽北:這是一個(gè)比較有意思的奇遇。我當(dāng)時(shí)其實(shí)挺迷茫的,甚至沒(méi)有想過(guò)那個(gè)學(xué)期去畢業(yè)。因?yàn)槲业臎Q心是說(shuō)要在博士期間做出一個(gè)白盒的模型,而且要和 AlexNet 的性能可比,但還差一點(diǎn)沒(méi)有做好。

我覺(jué)得如果要繼續(xù)我的研究,博士后去找誰(shuí)呢?當(dāng)時(shí)我正在開(kāi)會(huì),然后在會(huì)場(chǎng)上就碰到了Yann。我其實(shí)不是特別投機(jī)的一個(gè)人,我想大家肯定都想找Yann去做博后,所以碰到他的時(shí)候其實(shí)主要想的是聊一下他對(duì)我工作的一些看法,以及聊一聊對(duì)于AI未來(lái)研究方向的上的一些觀點(diǎn)。

結(jié)果當(dāng)時(shí)在會(huì)上聊的就非常好,我的研究方向以及我想的一些問(wèn)題,他曾經(jīng)也都想過(guò),只不過(guò)是從神經(jīng)網(wǎng)絡(luò)的這個(gè)角度。所以當(dāng)時(shí)他就問(wèn)我在招博士后你有沒(méi)有興趣申請(qǐng)一下,那我當(dāng)然申請(qǐng)了,所以當(dāng)時(shí)就是這樣的一拍即合。

《硅谷101》:他是一個(gè)什么樣風(fēng)格的導(dǎo)師?是屬于給學(xué)生非常多自由空間探索的,還是來(lái)跟大家一起討論幫忙很多的。陳羽北:首先,第二種情況他現(xiàn)在已經(jīng)不可能了,很多人都需要他的時(shí)間,他能夠分給每一個(gè)人的時(shí)間也相對(duì)來(lái)講就沒(méi)有那么多。

他其實(shí)和我的博士的導(dǎo)師相似,在一些大方向上是非常放養(yǎng)的,但我認(rèn)為他們有另外一點(diǎn)相似就是對(duì)于他們所相信的事情他們會(huì)有堅(jiān)持,就是他可能會(huì)給你指一個(gè)方向和目標(biāo)。但具體怎么走,是乘船還是乘車,這都沒(méi)有關(guān)系,他不會(huì)去控制這些細(xì)節(jié)。

他自己的大方向其實(shí)這么多年也沒(méi)有變過(guò),一直是自監(jiān)督學(xué)習(xí)。自監(jiān)督學(xué)習(xí)其實(shí)分兩部分,一個(gè)部分是基于感知的自監(jiān)督。另一個(gè)更重要的部分是如何用具身的方式來(lái)做自監(jiān)督,或者我們現(xiàn)在做世界模型 World Model,這是他相信的一個(gè)方向。

這個(gè)名字其實(shí)還是我安利給他,因?yàn)槲耶?dāng)時(shí)讀了David Ha和Jürgen Schmidhuber寫(xiě)的那篇名字叫 World Model文章,我覺(jué)得這個(gè)名字挺酷的。

A system architecture for autonomous intelligence, Mata AI

《硅谷101》:你覺(jué)得Yann的研究方向跟 OpenAI、Anthropic 他們的有什么不一樣嗎?陳羽北:如果說(shuō)真要說(shuō)什么不一樣的話,我覺(jué)得Yann想要的是模型需要具備有幾個(gè)特點(diǎn)。第一是要有具身的能力,也就說(shuō)不是只堆數(shù)據(jù),而是這個(gè)模型最終它可以自己去探索這個(gè)世界?!豆韫?01》:這有什么不一樣呢?似乎大家都希望最終達(dá)到這樣的一個(gè)結(jié)果。陳羽北:執(zhí)行方式有所不同。比如 OpenAI 我認(rèn)為它是 Scaling Law,也就是更多、更好的數(shù)據(jù),然后更多的計(jì)算和更大的模型。但Yann還是比較科學(xué)化的,他想的是如果我們想真正通向比較類人的這種智能的話,那到底需要什么?他會(huì)覺(jué)得只是堆數(shù)據(jù)是不夠的?!豆韫?01》:所以Yann其實(shí)是相當(dāng)于黑盒白盒一起研究。

陳羽北:我覺(jué)得Yann它實(shí)際上沒(méi)有那么在意這是否能發(fā)展成一門科學(xué),目前我認(rèn)為他的觀點(diǎn)主要還停留在經(jīng)驗(yàn)性和工程上,希望這個(gè)系統(tǒng)可以工作得更好,這其實(shí)也是他一直非常擅長(zhǎng)的東西。

《硅谷101》:當(dāng) OpenAI 證明了Scaling Law可以達(dá)到很好的效果的時(shí)候,你覺(jué)得Yann他在科研方法和思維上有所轉(zhuǎn)變嗎?還是他仍然非常堅(jiān)持原路線?

陳羽北:實(shí)際上他并不反對(duì) Scaling Law,我覺(jué)得大家在這件事情上并沒(méi)有沖突。真正的可能分歧主要在于 OpenAI 很多的工作其實(shí)還是以產(chǎn)品為導(dǎo)向,在工程上執(zhí)行到極致,但Yann其實(shí)是以更科學(xué)的形式在研究。

他想這些問(wèn)題的時(shí)候其實(shí)不太涉及到產(chǎn)品,而只是想一個(gè)事情,就是究竟怎么能實(shí)現(xiàn)智能。因?yàn)樗谶@個(gè)領(lǐng)域已經(jīng)太久了,在八幾年的時(shí)候就開(kāi)始在這個(gè)領(lǐng)域在深耕了,所以他可能看這些問(wèn)題的時(shí)候,還是會(huì)堅(jiān)持自己的理想。

《硅谷101》:讓智能自主學(xué)習(xí)這是Yann研究的第一個(gè)特點(diǎn),其他還有一些什么特點(diǎn)?

陳羽北:還有就是Yann一直相信的一個(gè)東西叫做JEPA,Joint Embedding Predictive Architecture。就是說(shuō)模型當(dāng)然要有自主學(xué)習(xí)的能力,但是比這是更重要的一點(diǎn)是當(dāng)模型在學(xué)習(xí)數(shù)據(jù)的時(shí)候也能學(xué)習(xí)到一些比較高層次的規(guī)律。

實(shí)際上目前有兩派,一派希望能夠通過(guò)學(xué)習(xí)對(duì)數(shù)據(jù)進(jìn)行完全重建,可以認(rèn)為是一個(gè)壓縮的思路,但是Yann不希望完全地回到這個(gè)圖像當(dāng)中,因?yàn)橹亟ㄟ@個(gè)圖像帶有了太多的細(xì)節(jié),而這些細(xì)節(jié)并不是對(duì)系統(tǒng)做判斷時(shí)最重要的一些信息。

《硅谷101》:這點(diǎn)他跟你在伯克利的馬毅導(dǎo)師觀點(diǎn)是不一樣的嗎?

陳羽北:其實(shí)他們?cè)谶@個(gè)觀點(diǎn)上并沒(méi)有本質(zhì)的沖突,只不過(guò)是表述的方式有所不同。馬老師覺(jué)得這個(gè)世界的規(guī)律是簡(jiǎn)潔的,Yann認(rèn)為這些細(xì)節(jié)其實(shí)對(duì)做下游的任務(wù)或者是一些判斷是不利的,所以要把那些高層次的規(guī)律找到。

其實(shí)這二者是一樣的,因?yàn)楦邔哟蔚囊?guī)律一般就是簡(jiǎn)潔的。馬老師經(jīng)常說(shuō)所有的東西都是壓縮,如果你拿Yann的觀點(diǎn)來(lái)看的話,會(huì)發(fā)現(xiàn)壓縮確實(shí)沒(méi)錯(cuò),但數(shù)據(jù)的層次結(jié)構(gòu)其實(shí)是不同的。

因?yàn)楝F(xiàn)實(shí)世界是復(fù)雜的,在現(xiàn)實(shí)世界中如果你深入到這些細(xì)節(jié)里邊會(huì)有發(fā)現(xiàn)有大量的東西其實(shí)是低層次的一些結(jié)構(gòu)。數(shù)據(jù)中有結(jié)構(gòu),任何存在結(jié)構(gòu)的東西都是從噪聲偏離的一個(gè)反應(yīng),就是說(shuō)完全沒(méi)有結(jié)構(gòu)的東西就是噪聲,任何離開(kāi)噪聲你就是有結(jié)構(gòu)了。

我們要學(xué)習(xí)這些結(jié)構(gòu),但結(jié)構(gòu)有不同的層次。但當(dāng)你上升層次,在更大的一個(gè)尺度的時(shí)候,就會(huì)發(fā)現(xiàn)結(jié)構(gòu)其實(shí)已經(jīng)不重要了,在那個(gè)層次來(lái)看的話,這些東西就已經(jīng)變成像噪聲一樣的東西了。

所以Yann的觀點(diǎn)就是說(shuō),要壓縮沒(méi)錯(cuò),但我們需要有這樣一個(gè)層次化的學(xué)習(xí),學(xué)習(xí)信號(hào)中所有的結(jié)構(gòu)、學(xué)出越來(lái)越高的結(jié)構(gòu)。但是最高級(jí)的結(jié)構(gòu)它往往對(duì)于壓縮的整個(gè)占比不大,在優(yōu)化的過(guò)程中就可能會(huì)丟失,因?yàn)榇罅康臇|西都是在低層次的、像噪聲一樣的信息量是最大的,越往上走就越難發(fā)現(xiàn)這樣的結(jié)構(gòu)。

為什么呢?因?yàn)樵谀愕膬?yōu)化的 loss function 就是你的目標(biāo)函數(shù)里邊,你找到這個(gè)規(guī)律和找不到這個(gè)規(guī)律可能對(duì)你的 loss 影響不大。我覺(jué)得主要就是這兩點(diǎn),一個(gè)是世界模型,另外一個(gè)是對(duì)于這種層次化的表示。

《硅谷101》:你覺(jué)得他們身上有哪些特質(zhì)是特別打動(dòng)你的?

陳羽北:特別打動(dòng)我的可能就是他們做事情的那種專注和純粹吧。

有一次我跟Yann吃午飯,他說(shuō)你們?cè)谀贻p時(shí)候想要的所有的東西我都有了,但是我已經(jīng)沒(méi)有太多時(shí)間了,所以他只能用自己剩下的時(shí)間做自己真正相信的事情。

當(dāng)你跟這樣的一些科學(xué)家工作的時(shí)候,你可能會(huì)被他們身上的這種氣質(zhì)所影響,以至于你即便你還沒(méi)有達(dá)到他們現(xiàn)在所在的這個(gè)地位,以及他們所擁有的這些東西之前,也能以他們的視角來(lái)看待這個(gè)世界一點(diǎn)。

所以你在做選擇或做事情的時(shí)候,可能會(huì)超出現(xiàn)在所在的這個(gè)位置,可能會(huì)想,如果有一天我也像他一樣全都擁有了,我會(huì)做什么。

《硅谷101》:他有改變你的哪些決定嗎?

陳羽北 :有,它會(huì)讓我做很多的選擇的時(shí)候會(huì)想到這個(gè)事情。我記得我讀博士的第一天,我的導(dǎo)師跟我講了兩件事情。

一件是說(shuō)他不需要我發(fā)很多的文章,但希望能發(fā)出來(lái)的這種文章可以穿越時(shí)間,就是在 20 年以后看到這篇文章依然不舊。這其實(shí)很難,因?yàn)楹芏嗟墓ぷ魉鼛в絮r明的時(shí)代感,但是真正一些深邃的思想它可能穿越了上百年依然不老,這是一個(gè)很高的目標(biāo),可能當(dāng)你快要退休的時(shí)候可能才能夠被驗(yàn)證。但是它提出了一個(gè)靈魂的拷問(wèn),就是你能否堅(jiān)持去做一些能夠與時(shí)間共存的工作。

第二是他希望一個(gè)學(xué)者應(yīng)該具有自己的一種態(tài)度,如果你覺(jué)得一件事情是a可以做, b 可以做, 你也可以做,你就不要做。就是說(shuō)當(dāng)你做這件事情的時(shí)候,你會(huì)發(fā)現(xiàn)并不是這個(gè)工作需要你,而是你需要這個(gè)工作,這就是一種投機(jī)的心態(tài)。這其實(shí)是我在他們身上看到的這種相似的氣質(zhì),就是希望不要隨大流,能有自己的態(tài)度和尋找到自己的一些 voice。

所以當(dāng)我在選研究的方向的時(shí)候,也會(huì)自己時(shí)不時(shí)的判斷一下我現(xiàn)在做的這個(gè)工作到底是一個(gè)投機(jī)的,還是一個(gè)真正的中有砥柱的工作。

我覺(jué)得他們,尤其是Yann比較偉大的一點(diǎn),就是你可以穿越了這種幾乎是絕望的時(shí)光然后迎來(lái)曙光。沒(méi)有經(jīng)歷過(guò)低谷的人沉淀的可能是不夠的,當(dāng)你經(jīng)過(guò)至暗時(shí)刻,用你的眼光和堅(jiān)持穿越短期的這個(gè)時(shí)間,然后證明它是對(duì)的,我覺(jué)得這個(gè)是挺有意思的一種氣質(zhì)。

《硅谷101》:Yann有哪些在科學(xué)上的看法是你不同意的嗎?

陳羽北 :他有的時(shí)候會(huì)鐵口直斷。比如最近他就說(shuō)如果你作為一個(gè)研究者的話,那就不應(yīng)該研究大語(yǔ)言模型。這句話它有很多種理解,從字面上意思的理解的話很多人就會(huì)不同意,包括我。我可能會(huì)覺(jué)得,大語(yǔ)言模型里面有一些結(jié)構(gòu)是值得被理解和研究的。

當(dāng)然Yann可能真正想說(shuō)的可能是我剛才提到的,不要做a可以做、b也可以做的這種投機(jī)性的工作,希望研究者有自己的一點(diǎn)堅(jiān)持和找到比較原創(chuàng)性的貢獻(xiàn)。如果是這樣的說(shuō)的話,我其實(shí)覺(jué)得我會(huì)更同意一些。但他作為大V有時(shí)候這個(gè)話講出來(lái)會(huì)嚇你一跳,然后引起很多話題討論。是讓我覺(jué)得很有意思的一個(gè)地方。

《硅谷101》:你也在 Meta 工作過(guò),你覺(jué)得 Yann 對(duì) Meta 最大的貢獻(xiàn)在哪里?

陳羽北:首先應(yīng)該是幫助籌建了Meta AI。當(dāng)時(shí)他籌建 Meta AI 的時(shí)候,首先是 Mark 找到他,另外因?yàn)樗缒晔秦悹枌?shí)驗(yàn)室的,他很向往當(dāng)年的貝爾實(shí)驗(yàn)室的那個(gè)狀態(tài),所以他也有一個(gè)理想想在 Meta 復(fù)制這樣一個(gè)實(shí)驗(yàn)室。他秉承了這樣的一個(gè)理念,在Meta AI也招募和培養(yǎng)了一批非常不錯(cuò)的人,給這個(gè)領(lǐng)域做了很大的貢獻(xiàn),推動(dòng)了整個(gè)領(lǐng)域的發(fā)展。

《硅谷101》:我覺(jué)得開(kāi)源應(yīng)該也算是他的很重要的一個(gè)貢獻(xiàn),比如說(shuō) Meta llama 之所以走了開(kāi)源的路線,跟整個(gè) Yarn 的思想應(yīng)該也是非常一致的。

陳羽北:是的,對(duì),開(kāi)源確實(shí)是Yann所堅(jiān)持。但我也不知道將來(lái) Meta 是不是會(huì)一直開(kāi)源下去,因?yàn)楫吘?Meta 也會(huì)面臨競(jìng)爭(zhēng),但是我覺(jué)得這是Yann的一個(gè)理念,最終能執(zhí)行到多好,能走多遠(yuǎn),其實(shí)也要看整個(gè)環(huán)境的發(fā)展。

《硅谷101》:你覺(jué)得現(xiàn)在整個(gè)大模型的研究必須是由科學(xué)家驅(qū)動(dòng)嗎?還是它會(huì)慢慢變成一個(gè)工程驅(qū)動(dòng)的事情?

陳羽北:我就覺(jué)得它已經(jīng)變成一個(gè)工程驅(qū)動(dòng)了,早期是科學(xué)家驅(qū)動(dòng)。這一兩年里面,我覺(jué)得主要的這個(gè)進(jìn)展都來(lái)自于工程的執(zhí)行,數(shù)據(jù)的質(zhì)量是不是變高了?數(shù)據(jù)是不是變多了?它的 distribution 是不是變豐富了?計(jì)算是不是能夠并行?都是由工程領(lǐng)域非常重要的細(xì)節(jié)導(dǎo)致的。從 0 到1 的發(fā)展它需要科學(xué)的突破性,但從 1 到100,就需要工程的嚴(yán)格性和執(zhí)行能力,在不同階段需要不同角色的人一起來(lái)推動(dòng)。

《硅谷101》:大家現(xiàn)在都在期待 GPT 5,你覺(jué)得如果 GPT 5 出來(lái)了,它更多是一個(gè)科學(xué)問(wèn)題,還是一個(gè)工程問(wèn)題?

陳羽北:我覺(jué)得工程上面可走的路是很遠(yuǎn)的,甚至我們可以認(rèn)為 Scaling Law 它還有相當(dāng)長(zhǎng)的路可走,完全沒(méi)有到盡頭,包括數(shù)據(jù)的質(zhì)量以及算力的擴(kuò)展。但同時(shí)我認(rèn)為即使我們現(xiàn)在找到的最魯棒的一條路就是Scaling Law,但這肯定是不夠的。

那我們還需什么呢?我覺(jué)得需要的就是類人的這樣的一些高效率,那如何實(shí)現(xiàn)這樣的一個(gè)效率?有可能是數(shù)據(jù)觸發(fā)的,但也可能是還有其他的一些東西,所以我覺(jué)得如果我們說(shuō)要通向 AGI 的過(guò)程中,應(yīng)該還會(huì)有這種完全從 0 到 1 的一些比較大的轉(zhuǎn)變。

《硅谷101》:就是既要有科學(xué)上的進(jìn)展,在工程上我們也還有很大的空間可以去提高。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

聊聊大模型如何思考與深度學(xué)習(xí)科學(xué)家Yann LeCun

大模型的可解釋性。

文 | 硅谷101 泓君

隨著近兩年來(lái)生成式AI技術(shù)的進(jìn)步與普及,使用大模型來(lái)生成內(nèi)容也已逐漸成為普通人生活的一部分。這個(gè)過(guò)程看起來(lái)似乎很輕松:當(dāng)我們輸入一個(gè)指令,大模型就直接能為我們輸出答案。然而在這背后,模型內(nèi)部的工作原理和模型決策過(guò)程卻并沒(méi)有人知道,這即是廣為人知的“機(jī)器學(xué)習(xí)黑盒”。

因?yàn)楹诤心P退嬖诘牟豢山忉屝?,AI的安全問(wèn)題也一直備受質(zhì)疑。于是科學(xué)家們開(kāi)始試圖去打開(kāi)大模型的黑盒子,業(yè)內(nèi)稱之為“白盒研究”。一方面,白盒模型的研究能幫助人們理解黑盒模型,從而對(duì)大模型進(jìn)行優(yōu)化和效率的提升。另一方面,白盒研究的目標(biāo)是要把AI這一工程性學(xué)科推向科學(xué)。

此次,我們邀請(qǐng)到了加州大學(xué)戴維斯分校電子與計(jì)算機(jī)工程系助理教授陳羽北,他的研究?jī)?nèi)容就與“白盒模型”有關(guān)。此外,他也是圖靈獎(jiǎng)獲得者、Meta首席科學(xué)家Yann LeCun的博士后。本期節(jié)目中,他和我們聊了聊白盒模型的最新研究進(jìn)展,同時(shí)也向我們分享了他所熟悉的這位經(jīng)歷過(guò)AI行業(yè)起起伏伏、卻依然純粹專注的科學(xué)家Yann LeCun。

以下是部分訪談精選

01 人腦與大模型

《硅谷101》:可以先簡(jiǎn)單介紹一下你正在做的“白盒模型”研究嗎?在你的研究過(guò)程中有沒(méi)有發(fā)現(xiàn)如何能去解釋 GPT 的輸入輸出問(wèn)題?

陳羽北:這個(gè)方向其實(shí)一個(gè)比較大的目標(biāo)就是深度學(xué)習(xí)從一門純經(jīng)驗(yàn)性學(xué)科向一個(gè)科學(xué)學(xué)科來(lái)推動(dòng),或者說(shuō)把工程變成科學(xué),因?yàn)槟壳肮こ贪l(fā)展得比較快但科學(xué)相對(duì)緩慢。以前有一個(gè)模型叫做詞的嵌入(embedding),它可以學(xué)到語(yǔ)言的一些表征。

大家當(dāng)時(shí)其實(shí)就有一個(gè)疑問(wèn),我們做任務(wù)的性能變好了,可是究竟是什么導(dǎo)致這個(gè)性能變好了?所以我們當(dāng)時(shí)做過(guò)一個(gè)非常早期的工作,就是嘗試打開(kāi)詞匯的這些表示。當(dāng)你把它打開(kāi)的時(shí)候,就會(huì)發(fā)現(xiàn)一些很有意思的現(xiàn)象。

比如說(shuō)蘋果這個(gè)詞,你可以找到里面的一些元意思,比如其中的一個(gè)意思可能就是代表水果,另外一個(gè)意思代表甜點(diǎn),再往下挖會(huì)找到有技術(shù)和產(chǎn)品的意思,當(dāng)然指的是蘋果公司的產(chǎn)品。所以你就會(huì)發(fā)現(xiàn)順著一個(gè)詞你能找到這些元意思,接著你就可以把這樣的方法延伸到大語(yǔ)言模型里。

也就是說(shuō),當(dāng)我們學(xué)完一個(gè)大語(yǔ)言模型以后,可以在模型里面去尋找它里面所帶有的一些元意思,然后嘗試去打開(kāi)。你會(huì)發(fā)現(xiàn)一個(gè)大語(yǔ)言模型,它其實(shí)有很多層。

在初級(jí)層里,它會(huì)出現(xiàn)一個(gè)現(xiàn)象叫“詞語(yǔ)的消歧”。比如像在英文里面有個(gè)詞叫做“l(fā)eft”,這個(gè)詞它既有向左轉(zhuǎn)的意思,也有離開(kāi)的過(guò)去式的意思,那么它具體的意思則要取決于語(yǔ)境前后的上下文,所以大語(yǔ)言模型在初期的幾層里就完成了詞語(yǔ)的消歧。

而在中期你會(huì)發(fā)現(xiàn)又有一些新的意思產(chǎn)生。當(dāng)時(shí)我們覺(jué)得一個(gè)很好玩的事叫做“單位轉(zhuǎn)換”,一旦要將公里變成英里、溫度從華氏度變成攝氏度的時(shí)候就會(huì)被激活,這個(gè)意思就會(huì)被打開(kāi),你可以順著這個(gè)路找到很多相似級(jí)別的這種元意思。

你再往上走的時(shí)候甚至?xí)l(fā)現(xiàn)這些元意思中存在一種規(guī)律,這種規(guī)律就是當(dāng)上下文里出現(xiàn)了一個(gè)重復(fù)的意思時(shí)它就會(huì)被激活,你就可以用這樣的方式去打開(kāi)大語(yǔ)言模型以及小語(yǔ)言模型。當(dāng)然這些思路也并不完全是新的,它在視覺(jué)模型里其實(shí)已經(jīng)有一段歷史了,比如說(shuō)從Matthew Zeiler開(kāi)始就有一些類似探索。

《硅谷101》:順著這個(gè)思路,是不是如果我們知道了它部分是怎么運(yùn)作的,就可以從工程上對(duì)它有很多優(yōu)化?

陳羽北:是的,這個(gè)是一個(gè)非常好的問(wèn)題。我覺(jué)得做任何理論一個(gè)比較高的要求就是可以指導(dǎo)實(shí)踐,所以在我們當(dāng)時(shí)做語(yǔ)言模型還有詞匯表征的時(shí)候,當(dāng)時(shí)也有的一個(gè)目標(biāo),就是當(dāng)我們理解以后,能不能反過(guò)來(lái)優(yōu)化這些模型?其實(shí)是可以的。

舉一個(gè)例子,如果你在大語(yǔ)言模型里面找到的一個(gè)元意思,當(dāng)它看到某一種元意思的時(shí)候就會(huì)激活,那這一個(gè)神經(jīng)元就可以被作為一個(gè)判別器,你就可以用這個(gè)東西來(lái)做一些任務(wù)。通過(guò)對(duì)這些元意思的改變,來(lái)調(diào)節(jié)模型的偏見(jiàn)。

就是如果我能夠發(fā)現(xiàn)它,那我可以調(diào)整它。最近 Anthropic 他們就是做了類似的一個(gè)工作,就是找到語(yǔ)言模型里邊可能存在的一些偏見(jiàn),然后對(duì)它進(jìn)行一些改變來(lái)使這個(gè)模型變得更加的公平和安全。

《硅谷101》:我看到去年 OpenAI 也有一項(xiàng)研究,就是用 GPT4 去解釋 GPT2,看 GPT2到底是怎么工作的。比如說(shuō)他們發(fā)現(xiàn)GPT 2的神經(jīng)元在回答所有跟美國(guó)歷史1800年前后的事情時(shí),第5行的第12個(gè)神經(jīng)元會(huì)被激活,在回答中文的時(shí)候是第12行的第13個(gè)神經(jīng)元被激活。

如果把它回答中文的這個(gè)神經(jīng)元關(guān)閉的話,它對(duì)中文的理解能力就會(huì)大幅的下降。但是越往后的神經(jīng)元,比如當(dāng)神經(jīng)元到了2000排左右的時(shí)候那它整個(gè)的可信度就已經(jīng)下降了很多。你有沒(méi)有注意到他們的這個(gè)研究?

OpenAI的研究:讓GPT4去解釋GPT2的神經(jīng)元

陳羽北:這篇文章我還沒(méi)看過(guò),不過(guò)這個(gè)方法它非常像是給大腦的神經(jīng)元做手術(shù)。相當(dāng)于現(xiàn)在如果有一個(gè)神經(jīng)的網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)是指從某種意義上能找到一個(gè)局部的存在而不是完全分散的,那么就可以對(duì)它進(jìn)行一些操作。比如把某個(gè)神經(jīng)元切掉了,那你就可以認(rèn)為它某一塊的能力相對(duì)來(lái)講就損失掉了。

人其實(shí)也是一樣的,比如一個(gè)患有癲癇的人在做完手術(shù)后可能會(huì)出現(xiàn)某些語(yǔ)言的障礙,但并不太影響其他人體功能,這從原理上看起來(lái)是相似的。

《硅谷101》:OpenAI、Anthropic他們現(xiàn)在都在研究大模型的可解釋性,你的研究跟他們之間有什么區(qū)別嗎?

陳羽北:白盒模型的研究是否將來(lái)能成功其實(shí)大家都不知道,我之前也跟我的導(dǎo)師討論過(guò),但大家一致的看法是說(shuō)這件事值得嘗試。如果我們回到這一塊的話,我們的研究想做的其實(shí)是想理解人工智能,并且通過(guò)我們的理解重構(gòu)它,進(jìn)而從根本上來(lái)構(gòu)建出一些不一樣的東西。那么觀測(cè),也就是可解釋性我覺(jué)得只是一種手段。

也就是說(shuō),打開(kāi)這種模型也好,我做這些實(shí)驗(yàn)也好,對(duì)模型進(jìn)行一些調(diào)整也好,我認(rèn)為這都是我們?cè)诶斫獾倪^(guò)程中所嘗試的一些手段,但是白盒模型真正重要的還是要回到這個(gè)信號(hào)本身。因?yàn)椴还苁侨四X也好,機(jī)器也好,它們的學(xué)習(xí)的本質(zhì)都因?yàn)樾盘?hào)。

我們這個(gè)世界中存在一些結(jié)構(gòu),他們也要通過(guò)這些結(jié)構(gòu)來(lái)進(jìn)行學(xué)習(xí),學(xué)的也正是這些結(jié)構(gòu)。那么我們是否可以找到這些結(jié)構(gòu)背后的規(guī)律,以及表示他們的一些數(shù)學(xué)工具再把這些東西進(jìn)行重組進(jìn)而構(gòu)建出來(lái)一個(gè)不一樣的模型?如果這件事可以完成的話,我想就能帶來(lái)關(guān)于提高我們的系統(tǒng)的魯棒性,或者安全性和可信度的一種期望。

另外,它的效率也會(huì)提高。這有點(diǎn)像是蒸汽機(jī)先出來(lái)之后才出現(xiàn)了熱力學(xué)這種理論,從而支撐它從一門完全的工匠學(xué)科變成了一門科學(xué)。那么同理,今天我們就好像是第一次在數(shù)據(jù)上有了蒸汽機(jī),從以前不理解我們的數(shù)據(jù),到現(xiàn)在終于可以開(kāi)始做出來(lái)一些 AI 的算法把數(shù)據(jù)中的規(guī)律給抓出來(lái)。

《硅谷101》:所以它會(huì)更節(jié)能。

陳羽北:要說(shuō)到節(jié)能,我可以舉幾個(gè)有意思的例子。第一個(gè)點(diǎn)肯定是節(jié)能,因?yàn)榇竽X它相當(dāng)于一個(gè)20瓦功耗的一個(gè)燈泡,那現(xiàn)在的超級(jí)計(jì)算機(jī)它可能要超過(guò)百萬(wàn)瓦。

第二點(diǎn)是,如果我們看自然界各種各樣生物所進(jìn)行演化,它的演化效率其實(shí)是非常高的。比如有一種特殊蜘蛛叫Jumping Spider,它只有幾百萬(wàn)個(gè)神經(jīng)元,但它可以做出非常復(fù)雜的三維的群線去捕捉它的獵物。

而我覺(jué)得最有意思的一件事兒是人對(duì)于數(shù)據(jù)使用的效率。Llama3現(xiàn)在的數(shù)據(jù)量大概已經(jīng)達(dá)到了13萬(wàn)億個(gè)Token。但人的一生當(dāng)中到底能接收多少的數(shù)據(jù)呢?假設(shè)我們每秒可以獲得30幀圖像,每天的獲取時(shí)間是12個(gè)小時(shí),做20年,那么我們大概能得到100億個(gè)token,文字能獲取的也是差不多一樣,數(shù)據(jù)量比大模型小太多了。

那么問(wèn)題來(lái)了,人究竟是如何通過(guò)如此少的一個(gè)數(shù)據(jù)量來(lái)獲得如此強(qiáng)的一個(gè)泛化能力的呢?這就是人腦在效率層面讓我覺(jué)得很神奇的一點(diǎn)。

《硅谷101》:去揭開(kāi)大模型是怎么運(yùn)作的和跟揭開(kāi)人腦是怎么運(yùn)作的哪個(gè)更難?我聽(tīng)起來(lái)都很難。

陳羽北:這兩者各有各的難法,但在方法上是相似的。不管是人腦還是大語(yǔ)言模型,我們都是嘗試去觀測(cè)它,看它對(duì)什么產(chǎn)生了響應(yīng)。

這個(gè)方法其實(shí)從上個(gè)世紀(jì)80年代獲得諾貝爾生理學(xué)獎(jiǎng)得主David Hubel和Torsten Weisel關(guān)于視覺(jué)皮層的研究中就能看到。他們找到了一種Simple Cell,嘗試研究人看到什么東西的時(shí)候這些神經(jīng)元它會(huì)產(chǎn)生沖動(dòng),分析看不同的東西時(shí)候神經(jīng)元不同的響應(yīng)狀態(tài),比如什么時(shí)候完全不響應(yīng),什么時(shí)候又很興奮,接著他們就找到了神經(jīng)元的 Receptive field。

D.H.Hubel和T.N.Wiesel, 1981年諾貝爾生理學(xué)或醫(yī)學(xué)獎(jiǎng)獲得者

而我們今天研究大語(yǔ)言模型其實(shí)也是相似的,找不同的輸入,然后理解模型內(nèi)部的哪些神經(jīng)元是對(duì)哪些輸入感興趣的。不過(guò)它們?nèi)匀挥袇^(qū)別。

第一個(gè)區(qū)別是,不管是通過(guò)插電極還是腦機(jī)接口等方法對(duì)人腦進(jìn)行觀測(cè),都有很多的限制,但大語(yǔ)言模型有一個(gè)天然的好處就是觀測(cè)手段不再受限了,如果你有更好的方法,你就可以長(zhǎng)期去分析,甚至你還可以通過(guò)一些微分的方法對(duì)模型進(jìn)一步分析。

但是它的缺點(diǎn)是,大模型的能力還遠(yuǎn)遠(yuǎn)不及大腦,尤其是大語(yǔ)言模型,因?yàn)樗粡恼Z(yǔ)言里面來(lái)學(xué)習(xí)這個(gè)世界,所以它的對(duì)世界是理解是不完整的,就好像一個(gè)人他沒(méi)有了其他的感官只有語(yǔ)言。

相比之下,大腦能處理更多維的信號(hào),感官是非常豐富的。有時(shí)候我們會(huì)想一個(gè)問(wèn)題,就是語(yǔ)言是否是完備的?如果沒(méi)有其他感官的支撐的話,語(yǔ)言里邊是不是所有的概念都可以獨(dú)立存在,還是一定需要其他感官作為支撐,才有可能實(shí)現(xiàn)真正的理解。

舉個(gè)例子,“冰箱”這個(gè)東西如果不和現(xiàn)實(shí)世界的冷熱感受關(guān)聯(lián),只是描述它有門等這種統(tǒng)計(jì)特征,是不是這種描述就是不完備的。

《硅谷101》:所以其實(shí)目前大模型跟大腦相比,它還是欠缺非常多的。但是因?yàn)槲覀兛梢园阉痖_(kāi)來(lái)研究,所以你覺(jué)得它還是會(huì)比揭開(kāi)大腦的秘密的這個(gè)野心稍微更進(jìn)一步。

陳羽北:理解大語(yǔ)言模型它的難度在于你觀測(cè)的手段多,對(duì)它理解也能更多。比如有兩臺(tái)機(jī)器,一臺(tái)機(jī)器完全可觀測(cè),一臺(tái)機(jī)器部分可觀測(cè),那從直覺(jué)上來(lái)講是完全可觀測(cè)的這臺(tái)機(jī)器就更容易被理解。當(dāng)然它有一些能力是這臺(tái)機(jī)器沒(méi)有,所以不能取代對(duì)人腦的一些理解。

《硅谷101》:我跟聽(tīng)眾也補(bǔ)充介紹一下,羽北之前是學(xué)神經(jīng)科學(xué)的。那你覺(jué)得對(duì)你的學(xué)科背景對(duì)現(xiàn)在來(lái)做 AI 方向的研究有什么幫助嗎?會(huì)不會(huì)有一些跨學(xué)科的可以相互借鑒的研究方法?

陳羽北:我其實(shí)也不是專業(yè)學(xué)計(jì)算神經(jīng)科學(xué)的。我本科是在清華的電子系,在伯克利是電子工程計(jì)算機(jī)系,但當(dāng)時(shí)我所在的研究所是一個(gè)神經(jīng)科學(xué)的一個(gè)研究所,所以我導(dǎo)師是計(jì)算神經(jīng)科學(xué)的專家。

關(guān)于剛才那個(gè)問(wèn)題,我覺(jué)得神經(jīng)科學(xué)的學(xué)習(xí)對(duì)我來(lái)講的幫助通常是一種啟發(fā)。因?yàn)楫?dāng)你知道自然界的這些系統(tǒng),知道它們可以做到什么的時(shí)候,你可能就會(huì)有不一樣的想法,會(huì)重新看待眼前的問(wèn)題。

舉個(gè)例子,一張圖片它是一個(gè)二維輸入信號(hào),它的像素有橫向的、縱向的,然后它形成一個(gè)網(wǎng)格。但人眼視網(wǎng)膜并不長(zhǎng)這樣。首先它是種擁有不同感知的感受器,這個(gè)感受器是以非常密集但又不是非常規(guī)則的方式排布的,它中間非常的細(xì)密,向兩邊的時(shí)候會(huì)變得稀疏。

當(dāng)你面對(duì)這樣一個(gè)輸入信號(hào)的時(shí)候,首先我們習(xí)以為常的卷積神經(jīng)網(wǎng)絡(luò)這些東西就都失效了,因?yàn)檫B卷積在這里都沒(méi)有定義。所以當(dāng)看到生物系統(tǒng)里的這個(gè)情況,就會(huì)重新去想我們所謂的這些卷積到底從何而來(lái)。

《硅谷101》:所以你會(huì)重新去想方法是不是對(duì)的?是不是一定要以這種方式來(lái)實(shí)現(xiàn)?

陳羽北:是的。就是假設(shè)有一天你醒來(lái),所有的神經(jīng)元都打亂了,那你還能再去理解這個(gè)世界嗎?因?yàn)槟憧吹降囊呀?jīng)不再是一張圖片了,你也不能再用卷積神經(jīng)網(wǎng)絡(luò)來(lái)做這件事情了,你需要什么樣的方法?

雖然我們還沒(méi)完全解決這個(gè)問(wèn)題,其實(shí)目前也已經(jīng)走了一步。雖然我的所有的神經(jīng)元都打亂了,就是我們的感受器圖像里邊的這些像素打亂了,可是相鄰的這些像素它們有一些關(guān)系。比如我們看圖像時(shí)我會(huì)發(fā)現(xiàn)如果一個(gè)像素是紅的,那周圍的像素也更可能是紅的,那么通過(guò)這種關(guān)系你就可以去讓這些像素他們重新去找朋友,然后就可以把相似的像素自組織成一些關(guān)系。

然后這個(gè)時(shí)候再加上大語(yǔ)言模型里 Transformer 這樣的結(jié)構(gòu),就可以重新的對(duì)這種圖像做出一個(gè)表示,而且這個(gè)表示的性能還不錯(cuò)。這個(gè)就是一個(gè)完全從自然的啟發(fā)去重新審視我們現(xiàn)在的工程上的一些做法、然后提出一些不同方法的例子。

《硅谷101》:感覺(jué)研究AI大模型和人腦神經(jīng)科學(xué)還是有很多相似之處的。會(huì)有神經(jīng)科學(xué)家從他們的角度來(lái)跟你們產(chǎn)生跨領(lǐng)域的研究合作嗎?

陳羽北:其實(shí)有很多的神經(jīng)科學(xué)家、統(tǒng)計(jì)學(xué)家以及數(shù)學(xué)家他們想要理解自然信號(hào)中的一些結(jié)構(gòu),同時(shí)也會(huì)關(guān)注大腦中的神經(jīng)元它們是如何運(yùn)作的,然后把這兩者結(jié)合在一起,嘗試去提出一些極簡(jiǎn)的對(duì)于信號(hào)的一些表示。

舉一個(gè)例子,在大腦里面你會(huì)發(fā)現(xiàn)有一個(gè)現(xiàn)象,就是神經(jīng)元雖然很多,但同一時(shí)間在工作的這些神經(jīng)元其實(shí)是非常的稀疏。比如有100 萬(wàn)個(gè)神經(jīng)元,可能就只有幾千個(gè)在工作。

根據(jù)這個(gè),早年神經(jīng)科學(xué)領(lǐng)域就提出來(lái)一個(gè)稀疏編碼的方法,也就是在這種高位信號(hào)中,能不能找出一些稀疏的低維表示?從這樣的思路出發(fā)所構(gòu)建出來(lái)算法,就和你在大腦里面觀測(cè)到的這些神經(jīng)元表示非常相近,所以這個(gè)是早期計(jì)算神經(jīng)科學(xué)無(wú)監(jiān)督的一個(gè)成功。

到今天來(lái)講的話,我們整個(gè)的這一塊研究領(lǐng)域有個(gè)名字叫做自然統(tǒng)計(jì)信號(hào)的研究(Natural Signal Statistics),它的目標(biāo)就是揭示信號(hào)背后的一些基本結(jié)構(gòu),但和大模型相比,和白盒模型這類神經(jīng)科學(xué)結(jié)合的研究它的發(fā)展其實(shí)相對(duì)來(lái)講慢一些的。我其實(shí)覺(jué)得一方面可能是因?yàn)閱?wèn)題復(fù)雜,但另一方面也是因?yàn)橥度脒@個(gè)方向的人比較少。

02 黑盒模型的“彎道超車”

《硅谷101》:簡(jiǎn)單來(lái)說(shuō)就是現(xiàn)在研究白盒模型的人太少了。但是在大模型出現(xiàn)以前,傳統(tǒng)的機(jī)器學(xué)習(xí)是不是也屬于白盒模型研究的范疇?

陳羽北:我覺(jué)得這個(gè)說(shuō)法可以認(rèn)為是對(duì)的,以前的這些機(jī)器學(xué)習(xí)的模型相對(duì)簡(jiǎn)單,相對(duì)來(lái)講都可以理解。

《硅谷101》:那為什么現(xiàn)在整個(gè)的黑盒模型的研究進(jìn)展對(duì)白盒模型實(shí)現(xiàn)了彎道超車,速度可以快這么多?

陳羽北:這個(gè)問(wèn)題問(wèn)出來(lái)我們就先會(huì)是緊張一下,然后再回答。

《硅谷101》:為什么要緊張?陳羽北:因?yàn)檫@個(gè)問(wèn)題很尖銳,其實(shí)是在問(wèn)是不是白盒模型、或者說(shuō)可理解的這條路徑我們就應(yīng)該放棄了。從我們這個(gè)時(shí)代開(kāi)始,是不是在AI領(lǐng)域我們已經(jīng)不再研究科學(xué)了,以后全都變成一個(gè)經(jīng)驗(yàn)性學(xué)科?但我覺(jué)得還不是。

回到你剛才的這個(gè)問(wèn)題,這個(gè)過(guò)程中到底發(fā)生了什么?首先一點(diǎn)就是黑盒模型的包袱少。你既要這個(gè)方法可以工作又要這個(gè)方法可以解釋的話要求就太多,那黑盒模型就放棄了一條讓他先可以工作。

第二是相對(duì)來(lái)講被大家所忽視的原因,就是數(shù)據(jù)的逆勢(shì)增長(zhǎng),或者說(shuō)是規(guī)模擴(kuò)大。

Richard Sutton之前寫(xiě)了一篇博客里面曾提到,在過(guò)去的 20 年里面有一個(gè)一直沒(méi)有被打破的東西,就是當(dāng)我們有更多的數(shù)據(jù)、更多的計(jì)算,應(yīng)該找到比較能夠真正擴(kuò)張的算法去把所有的數(shù)據(jù)的這種規(guī)律找進(jìn)來(lái)。我認(rèn)為這個(gè)是黑盒模型里,或者說(shuō)是我們現(xiàn)在的經(jīng)驗(yàn)性的進(jìn)展里很重要的一條。

就是說(shuō)當(dāng)我們有更大的數(shù)據(jù)、更好的數(shù)據(jù),更多的計(jì)算、更大的模型,然后就能學(xué)得更多。但是我們回到這個(gè)問(wèn)題的話,就是白盒模型里大家有一個(gè)追求,是說(shuō)模型本身要具有簡(jiǎn)潔性。

《硅谷101》:為什么白盒模型要簡(jiǎn)潔?是不是可以理解成如果它過(guò)于復(fù)雜,它就很難被設(shè)計(jì)?陳羽北:是的。其實(shí)做理論只有簡(jiǎn)潔的東西才可以被理解,肯定是要做一次一次的簡(jiǎn)化。但是們?cè)谧非竽P偷暮?jiǎn)潔性的時(shí)候,也可能會(huì)做了一次又一次的過(guò)度簡(jiǎn)化,而一旦出現(xiàn)這種過(guò)度簡(jiǎn)化,模型就無(wú)法完全刻畫(huà)數(shù)據(jù)的形態(tài)。那么數(shù)據(jù)更多的時(shí)候,模型就走不下去了,它的能力會(huì)被限制住。

所以我認(rèn)為這也是以前大家在研究白盒模型、研究簡(jiǎn)單模型時(shí)面臨的一個(gè)困難。我們不僅僅要帶著模型需要工作、同時(shí)還需要它可解釋的包袱,同時(shí)我還需要它簡(jiǎn)潔,當(dāng)你把所有的這些東西帶上,就會(huì)發(fā)現(xiàn)這個(gè)包袱太重。當(dāng)你做過(guò)度簡(jiǎn)化的時(shí)候也就引入了錯(cuò)誤,錯(cuò)誤會(huì)積累,再后來(lái)就走不動(dòng)了?!豆韫?01》:但現(xiàn)在隨著黑盒模型的快速發(fā)展,我們又開(kāi)始嘗試去解決它。陳羽北:是的。而且這一次我們?cè)诮鉀Q它的時(shí)候,可能會(huì)重新審視這個(gè)問(wèn)題。就是我們不一定需要讓模型完全的簡(jiǎn)化到那個(gè)程度,它還是能夠表示這個(gè)世界比較復(fù)雜的一面。

但是同時(shí)我們還是希望他是比較可以理解的,所以如果有一天我們可以做到白盒模型的話,那么在此之前我認(rèn)為每一次的嘗試都是一次過(guò)度的簡(jiǎn)化,但是我們希望每次簡(jiǎn)化都能往前走。我們甚至不需要完全做出一個(gè)白盒模型,也許可以做出一個(gè)白盒的、但是沒(méi)有大模型那么強(qiáng)的模型,但它又相對(duì)來(lái)講非常簡(jiǎn)潔。

它對(duì)于我們理解學(xué)習(xí)背后的本質(zhì)是有幫助的,同時(shí)這種理解可能反過(guò)來(lái)又讓我們對(duì)大模型的訓(xùn)練提高效率。關(guān)于效率問(wèn)題我之前跟 Yann 也討論過(guò)幾次,就是說(shuō)如果這背后的理論得到發(fā)展,我們就可能讓工程實(shí)踐效率以數(shù)量級(jí)的方式上升?!豆韫?01》:Yann的觀點(diǎn)是更希望發(fā)展白盒模型還是黑盒模型?陳羽北:Yann是一個(gè)以工程方面著稱的科學(xué)家,所以他的很多嘗試還是要讓這個(gè)東西先工作起來(lái)。但Yann也是支持白盒模型研究的,在我跟他討論的過(guò)程中,他會(huì)覺(jué)得這條路值得探索,但是一個(gè)過(guò)于有野心的目標(biāo),是否能實(shí)現(xiàn)他也不知道,但總要有人做。《硅谷101》:感覺(jué)黑盒模型是一個(gè)工程問(wèn)題,白盒模型則必須用科學(xué)解釋它。雖然從商業(yè)化角度,它的投入產(chǎn)出比不是那么高,但如果最終能做出來(lái)這個(gè)東西,那么對(duì) AI 的安全性和未來(lái)商業(yè)化的應(yīng)用還是很有價(jià)值的。陳羽北:關(guān)于商業(yè)化,其實(shí)我認(rèn)為所有做基礎(chǔ) AI 研究的人工作的初衷不是以任何的應(yīng)用為初衷,而是由對(duì)智能這個(gè)問(wèn)題比較純粹的好奇心所驅(qū)動(dòng),緊接著可能會(huì)發(fā)現(xiàn)一些規(guī)律反過(guò)來(lái)可能幫到在工程實(shí)踐。研究本身并不是為某一種應(yīng)用所設(shè)計(jì)的。

另外,當(dāng)我們?cè)谧非筮@種白盒模型、這種極致效率的過(guò)程中,我們也會(huì)追問(wèn)一個(gè)問(wèn)題,就是我們現(xiàn)在做的這個(gè)大語(yǔ)言模型是不是只通過(guò)這種規(guī)?;蛘?Scaling Law 這一條路走下去就可以了?我認(rèn)為其實(shí)不是的。因?yàn)槿耸亲霾坏浇邮苓@么大量數(shù)據(jù)的,那如何用少量的數(shù)據(jù)還能獲得比較高的泛化能力,這也是我們?cè)谘芯康囊粋€(gè)重要的問(wèn)題。《硅谷101》:這應(yīng)該也是黑盒模型的學(xué)者在研究的一個(gè)問(wèn)題。目前白盒模型有哪些學(xué)者跟流派在研究這個(gè)事情呢?

陳羽北:目前主要就是AI的三股力量。第一股力量就是我們?cè)谘芯窟@些工程模型的過(guò)程中所產(chǎn)生的一些經(jīng)驗(yàn),然后對(duì)它進(jìn)行可視化,比如最近Anthropic、 OpenAI 他們也參與在做的這些事情。

Anthropic的研究:從神經(jīng)網(wǎng)絡(luò)Claude 3 Sonnet提取可解釋的特征

第二就是計(jì)算神經(jīng)科學(xué)嘗試對(duì)人腦進(jìn)行理解,找到一些記憶可能存在的方式。

還有一種流派就是從數(shù)學(xué)和統(tǒng)計(jì)的角度出發(fā),看信號(hào)的基本的結(jié)構(gòu)是什么樣的。當(dāng)然這三種之間還會(huì)產(chǎn)生很多的交叉?!豆韫?01》:你屬于哪一流派?陳羽北:其實(shí)這三派我都或多或少都有受到一點(diǎn)影響。之前在伯克利的時(shí)候跟我的導(dǎo)師以及馬毅老師他們都屬于偏神經(jīng)科學(xué)和數(shù)學(xué)統(tǒng)計(jì)的這個(gè)流派,然后在Yann 這邊是工程方面訓(xùn)練多一點(diǎn)。這三種方法我也覺(jué)得都可以接受,因?yàn)樗罱K都會(huì)讓我們向同一個(gè)方向前進(jìn)?!豆韫?01》:同樣的方向是哪個(gè)方向?現(xiàn)在有階段性結(jié)果嗎?

陳羽北:最終就是理解這個(gè)模型。之前有一些階段性成果,比如說(shuō)我們能不能做出一些哪怕是兩三層的網(wǎng)絡(luò),每一層我們都可以看他學(xué)的是什么東西。最后發(fā)現(xiàn)真的可以做到一個(gè)數(shù)字要想表示它,你會(huì)把它的筆畫(huà)全都學(xué)出來(lái),再把相似的筆畫(huà)聯(lián)系在一起,接著就可以構(gòu)建出來(lái)下一個(gè)層次的表示,這樣的一層一層的,最后找到了數(shù)字。《硅谷101》:你現(xiàn)在的這些研究會(huì)對(duì)黑盒模型產(chǎn)生優(yōu)化嗎?

陳羽北:一是當(dāng)你對(duì)它的理解加深了以后,可能就能優(yōu)化黑盒模型,讓它的效率變高。第二是能把不同的黑盒模型統(tǒng)一起來(lái),這樣就減少了很多不必要的浪費(fèi)。同時(shí)還有一個(gè)涉及到我這個(gè)實(shí)驗(yàn)室的另外一項(xiàng)支柱性的工作,就是要研究不僅僅是感知還有控制。

當(dāng)你給了這些大語(yǔ)言模型它能夠和世界交互的這個(gè)能力的時(shí)候,能不能讓它在控制系統(tǒng)里邊你能否獲得同樣的泛化能力。什么意思呢?就是說(shuō)在感知系統(tǒng)里邊你會(huì)發(fā)現(xiàn),我學(xué)了蘋果,學(xué)了梨,然后來(lái)一個(gè)桃子,由于我之前學(xué)了一個(gè)相似的蘋果和梨的概念,所以可以很快就學(xué)會(huì)桃子這個(gè)概念。

那么在控制的領(lǐng)域,能不能達(dá)到相似的性能呢?比如一個(gè)機(jī)器人它學(xué)會(huì)了向前走和原地跳躍,那能不能很快把它變成一個(gè)向前一邊跳一邊走的機(jī)器人。

《硅谷101》:如果讓你給一個(gè)結(jié)論的話,你覺(jué)得用白盒模型的研究解開(kāi)大模型運(yùn)作這個(gè)秘密,它目前的進(jìn)度條到哪里了?陳羽北:實(shí)際上我們都不知道這個(gè)進(jìn)度條有多長(zhǎng),我感覺(jué)距離這個(gè)目標(biāo)其實(shí)很遠(yuǎn)。它不一定是一個(gè)線性的發(fā)展,可能是比較像量子的這種跳躍。當(dāng)一個(gè)新的認(rèn)知出來(lái)以后,你可能會(huì)馬上往前走一大步。

如果你想做一個(gè)白盒的ChatGPT,我認(rèn)為這個(gè)還挺遠(yuǎn)的,但我們有可能能夠做出一個(gè)還不錯(cuò)的、完全可理解的模型,復(fù)現(xiàn)當(dāng)時(shí)像比如 AlexNet 這樣的能力。這種模型它可以就做 Imagenet 的識(shí)別,我們可以理解它里邊的每一步它是怎么做的,它是如何一步一步地變成了一個(gè)貓和狗,然后這個(gè)貓和狗它的這個(gè)結(jié)構(gòu)是怎么產(chǎn)生的。

ImageNet 使用的 WordNet 的示例

《硅谷101》:ImageNet 的識(shí)別算是白盒還是黑盒?

陳羽北:我們還沒(méi)有完全發(fā)現(xiàn)它的工作原理。從 Matthew Zeiler 和 Rob Fergus以及很多研究者做的一些早期的可視化中有一定理解,但是沒(méi)有人能夠創(chuàng)造出來(lái)這樣的一個(gè)模型,每一步我們都可理解且還能工作得不錯(cuò)?!豆韫?01》:所以可能白盒模型的目標(biāo)就是分階段的。比如第一步先解釋這個(gè) ImageNet 是怎么工作的,這個(gè)謎底揭開(kāi)以后我們可以再來(lái)解釋一些小模型是怎么工作的,就像用GPT 4去解釋GPT 2是怎么工作的,然后再慢慢解釋大模型是怎么工作的。陳羽北:是的。這個(gè)過(guò)程我覺(jué)得還是有相當(dāng)長(zhǎng)的時(shí)間,而且也需要更多的人來(lái)投入到這個(gè)方向上。因?yàn)槟壳按蟛糠值墓ぷ鞫技性诠こ填I(lǐng)域。如果我們放到學(xué)校來(lái)做的話,那你其實(shí)是需要有一些原創(chuàng)性的想法,而不是說(shuō)你去scale,我也去scale,那大家都是scale,到最后其實(shí)就沒(méi)有區(qū)分度,就看誰(shuí)的機(jī)器最好和誰(shuí)的數(shù)據(jù)最多了。

03 我所了解的Yann LeCun

《硅谷101》:接下來(lái)我想跟你討論一下你博士后的導(dǎo)師Yann LeCun。我先再補(bǔ)充介紹一下Yann LeCun,他的中文名字叫做楊立昆,是一名法國(guó)計(jì)算機(jī)科學(xué)家,在機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、移動(dòng)機(jī)器人和計(jì)算神經(jīng)科學(xué)等領(lǐng)域都有很多貢獻(xiàn),被譽(yù)為“卷積神經(jīng)網(wǎng)絡(luò)之父”。

LeCun 現(xiàn)任Meta首席AI科學(xué)家,并擔(dān)任紐約大學(xué)教授。他在1980年代率先提出了卷積神經(jīng)網(wǎng)絡(luò)(CNN),這項(xiàng)技術(shù)成為現(xiàn)代計(jì)算機(jī)視覺(jué)的基礎(chǔ)。LeCun與Geoffrey Hinton和Yoshua Bengio共同獲得2018年圖靈獎(jiǎng),表彰他們?cè)谏疃葘W(xué)習(xí)方面的開(kāi)創(chuàng)性工作。

可不可以給我們不懂技術(shù)的朋友稍微解釋一下 Yann 主要的科學(xué)研究成果,以及他為什么這么知名?

陳羽北:Yann從 80 年代就開(kāi)始研究神經(jīng)網(wǎng)絡(luò) AI 領(lǐng)域,經(jīng)歷了很多次的高峰和低谷和不同學(xué)派的衰落,但他始終堅(jiān)持深度學(xué)習(xí)網(wǎng)絡(luò),是一個(gè)走過(guò)黑暗的人。

比如2000 年的時(shí)候發(fā)深度學(xué)習(xí)相關(guān)的文章非常困難,困難到什么程度呢?如果你的文章里面存在 Neural 神經(jīng)或者Network這個(gè)詞,你被拒稿的概率就很大了,如果有 Neural Network 的話基本就一定會(huì)被拒稿。

所以當(dāng)時(shí)對(duì)于他們來(lái)講這是一個(gè)至暗時(shí)刻,經(jīng)費(fèi)也受影響。但是他們能在這種黑暗當(dāng)中堅(jiān)持不放棄,最后走出這個(gè)黑暗,到今天神經(jīng)深度網(wǎng)絡(luò)改變了世界,我覺(jué)得這個(gè)其實(shí)也是他們得圖靈獎(jiǎng),對(duì)他們當(dāng)年作為前期的先鋒的一種記憶吧。

《硅谷101》:你讀博士后的時(shí)候?yàn)槭裁磿?huì)選他的組?陳羽北:這是一個(gè)比較有意思的奇遇。我當(dāng)時(shí)其實(shí)挺迷茫的,甚至沒(méi)有想過(guò)那個(gè)學(xué)期去畢業(yè)。因?yàn)槲业臎Q心是說(shuō)要在博士期間做出一個(gè)白盒的模型,而且要和 AlexNet 的性能可比,但還差一點(diǎn)沒(méi)有做好。

我覺(jué)得如果要繼續(xù)我的研究,博士后去找誰(shuí)呢?當(dāng)時(shí)我正在開(kāi)會(huì),然后在會(huì)場(chǎng)上就碰到了Yann。我其實(shí)不是特別投機(jī)的一個(gè)人,我想大家肯定都想找Yann去做博后,所以碰到他的時(shí)候其實(shí)主要想的是聊一下他對(duì)我工作的一些看法,以及聊一聊對(duì)于AI未來(lái)研究方向的上的一些觀點(diǎn)。

結(jié)果當(dāng)時(shí)在會(huì)上聊的就非常好,我的研究方向以及我想的一些問(wèn)題,他曾經(jīng)也都想過(guò),只不過(guò)是從神經(jīng)網(wǎng)絡(luò)的這個(gè)角度。所以當(dāng)時(shí)他就問(wèn)我在招博士后你有沒(méi)有興趣申請(qǐng)一下,那我當(dāng)然申請(qǐng)了,所以當(dāng)時(shí)就是這樣的一拍即合。

《硅谷101》:他是一個(gè)什么樣風(fēng)格的導(dǎo)師?是屬于給學(xué)生非常多自由空間探索的,還是來(lái)跟大家一起討論幫忙很多的。陳羽北:首先,第二種情況他現(xiàn)在已經(jīng)不可能了,很多人都需要他的時(shí)間,他能夠分給每一個(gè)人的時(shí)間也相對(duì)來(lái)講就沒(méi)有那么多。

他其實(shí)和我的博士的導(dǎo)師相似,在一些大方向上是非常放養(yǎng)的,但我認(rèn)為他們有另外一點(diǎn)相似就是對(duì)于他們所相信的事情他們會(huì)有堅(jiān)持,就是他可能會(huì)給你指一個(gè)方向和目標(biāo)。但具體怎么走,是乘船還是乘車,這都沒(méi)有關(guān)系,他不會(huì)去控制這些細(xì)節(jié)。

他自己的大方向其實(shí)這么多年也沒(méi)有變過(guò),一直是自監(jiān)督學(xué)習(xí)。自監(jiān)督學(xué)習(xí)其實(shí)分兩部分,一個(gè)部分是基于感知的自監(jiān)督。另一個(gè)更重要的部分是如何用具身的方式來(lái)做自監(jiān)督,或者我們現(xiàn)在做世界模型 World Model,這是他相信的一個(gè)方向。

這個(gè)名字其實(shí)還是我安利給他,因?yàn)槲耶?dāng)時(shí)讀了David Ha和Jürgen Schmidhuber寫(xiě)的那篇名字叫 World Model文章,我覺(jué)得這個(gè)名字挺酷的。

A system architecture for autonomous intelligence, Mata AI

《硅谷101》:你覺(jué)得Yann的研究方向跟 OpenAI、Anthropic 他們的有什么不一樣嗎?陳羽北:如果說(shuō)真要說(shuō)什么不一樣的話,我覺(jué)得Yann想要的是模型需要具備有幾個(gè)特點(diǎn)。第一是要有具身的能力,也就說(shuō)不是只堆數(shù)據(jù),而是這個(gè)模型最終它可以自己去探索這個(gè)世界?!豆韫?01》:這有什么不一樣呢?似乎大家都希望最終達(dá)到這樣的一個(gè)結(jié)果。陳羽北:執(zhí)行方式有所不同。比如 OpenAI 我認(rèn)為它是 Scaling Law,也就是更多、更好的數(shù)據(jù),然后更多的計(jì)算和更大的模型。但Yann還是比較科學(xué)化的,他想的是如果我們想真正通向比較類人的這種智能的話,那到底需要什么?他會(huì)覺(jué)得只是堆數(shù)據(jù)是不夠的?!豆韫?01》:所以Yann其實(shí)是相當(dāng)于黑盒白盒一起研究。

陳羽北:我覺(jué)得Yann它實(shí)際上沒(méi)有那么在意這是否能發(fā)展成一門科學(xué),目前我認(rèn)為他的觀點(diǎn)主要還停留在經(jīng)驗(yàn)性和工程上,希望這個(gè)系統(tǒng)可以工作得更好,這其實(shí)也是他一直非常擅長(zhǎng)的東西。

《硅谷101》:當(dāng) OpenAI 證明了Scaling Law可以達(dá)到很好的效果的時(shí)候,你覺(jué)得Yann他在科研方法和思維上有所轉(zhuǎn)變嗎?還是他仍然非常堅(jiān)持原路線?

陳羽北:實(shí)際上他并不反對(duì) Scaling Law,我覺(jué)得大家在這件事情上并沒(méi)有沖突。真正的可能分歧主要在于 OpenAI 很多的工作其實(shí)還是以產(chǎn)品為導(dǎo)向,在工程上執(zhí)行到極致,但Yann其實(shí)是以更科學(xué)的形式在研究。

他想這些問(wèn)題的時(shí)候其實(shí)不太涉及到產(chǎn)品,而只是想一個(gè)事情,就是究竟怎么能實(shí)現(xiàn)智能。因?yàn)樗谶@個(gè)領(lǐng)域已經(jīng)太久了,在八幾年的時(shí)候就開(kāi)始在這個(gè)領(lǐng)域在深耕了,所以他可能看這些問(wèn)題的時(shí)候,還是會(huì)堅(jiān)持自己的理想。

《硅谷101》:讓智能自主學(xué)習(xí)這是Yann研究的第一個(gè)特點(diǎn),其他還有一些什么特點(diǎn)?

陳羽北:還有就是Yann一直相信的一個(gè)東西叫做JEPA,Joint Embedding Predictive Architecture。就是說(shuō)模型當(dāng)然要有自主學(xué)習(xí)的能力,但是比這是更重要的一點(diǎn)是當(dāng)模型在學(xué)習(xí)數(shù)據(jù)的時(shí)候也能學(xué)習(xí)到一些比較高層次的規(guī)律。

實(shí)際上目前有兩派,一派希望能夠通過(guò)學(xué)習(xí)對(duì)數(shù)據(jù)進(jìn)行完全重建,可以認(rèn)為是一個(gè)壓縮的思路,但是Yann不希望完全地回到這個(gè)圖像當(dāng)中,因?yàn)橹亟ㄟ@個(gè)圖像帶有了太多的細(xì)節(jié),而這些細(xì)節(jié)并不是對(duì)系統(tǒng)做判斷時(shí)最重要的一些信息。

《硅谷101》:這點(diǎn)他跟你在伯克利的馬毅導(dǎo)師觀點(diǎn)是不一樣的嗎?

陳羽北:其實(shí)他們?cè)谶@個(gè)觀點(diǎn)上并沒(méi)有本質(zhì)的沖突,只不過(guò)是表述的方式有所不同。馬老師覺(jué)得這個(gè)世界的規(guī)律是簡(jiǎn)潔的,Yann認(rèn)為這些細(xì)節(jié)其實(shí)對(duì)做下游的任務(wù)或者是一些判斷是不利的,所以要把那些高層次的規(guī)律找到。

其實(shí)這二者是一樣的,因?yàn)楦邔哟蔚囊?guī)律一般就是簡(jiǎn)潔的。馬老師經(jīng)常說(shuō)所有的東西都是壓縮,如果你拿Yann的觀點(diǎn)來(lái)看的話,會(huì)發(fā)現(xiàn)壓縮確實(shí)沒(méi)錯(cuò),但數(shù)據(jù)的層次結(jié)構(gòu)其實(shí)是不同的。

因?yàn)楝F(xiàn)實(shí)世界是復(fù)雜的,在現(xiàn)實(shí)世界中如果你深入到這些細(xì)節(jié)里邊會(huì)有發(fā)現(xiàn)有大量的東西其實(shí)是低層次的一些結(jié)構(gòu)。數(shù)據(jù)中有結(jié)構(gòu),任何存在結(jié)構(gòu)的東西都是從噪聲偏離的一個(gè)反應(yīng),就是說(shuō)完全沒(méi)有結(jié)構(gòu)的東西就是噪聲,任何離開(kāi)噪聲你就是有結(jié)構(gòu)了。

我們要學(xué)習(xí)這些結(jié)構(gòu),但結(jié)構(gòu)有不同的層次。但當(dāng)你上升層次,在更大的一個(gè)尺度的時(shí)候,就會(huì)發(fā)現(xiàn)結(jié)構(gòu)其實(shí)已經(jīng)不重要了,在那個(gè)層次來(lái)看的話,這些東西就已經(jīng)變成像噪聲一樣的東西了。

所以Yann的觀點(diǎn)就是說(shuō),要壓縮沒(méi)錯(cuò),但我們需要有這樣一個(gè)層次化的學(xué)習(xí),學(xué)習(xí)信號(hào)中所有的結(jié)構(gòu)、學(xué)出越來(lái)越高的結(jié)構(gòu)。但是最高級(jí)的結(jié)構(gòu)它往往對(duì)于壓縮的整個(gè)占比不大,在優(yōu)化的過(guò)程中就可能會(huì)丟失,因?yàn)榇罅康臇|西都是在低層次的、像噪聲一樣的信息量是最大的,越往上走就越難發(fā)現(xiàn)這樣的結(jié)構(gòu)。

為什么呢?因?yàn)樵谀愕膬?yōu)化的 loss function 就是你的目標(biāo)函數(shù)里邊,你找到這個(gè)規(guī)律和找不到這個(gè)規(guī)律可能對(duì)你的 loss 影響不大。我覺(jué)得主要就是這兩點(diǎn),一個(gè)是世界模型,另外一個(gè)是對(duì)于這種層次化的表示。

《硅谷101》:你覺(jué)得他們身上有哪些特質(zhì)是特別打動(dòng)你的?

陳羽北:特別打動(dòng)我的可能就是他們做事情的那種專注和純粹吧。

有一次我跟Yann吃午飯,他說(shuō)你們?cè)谀贻p時(shí)候想要的所有的東西我都有了,但是我已經(jīng)沒(méi)有太多時(shí)間了,所以他只能用自己剩下的時(shí)間做自己真正相信的事情。

當(dāng)你跟這樣的一些科學(xué)家工作的時(shí)候,你可能會(huì)被他們身上的這種氣質(zhì)所影響,以至于你即便你還沒(méi)有達(dá)到他們現(xiàn)在所在的這個(gè)地位,以及他們所擁有的這些東西之前,也能以他們的視角來(lái)看待這個(gè)世界一點(diǎn)。

所以你在做選擇或做事情的時(shí)候,可能會(huì)超出現(xiàn)在所在的這個(gè)位置,可能會(huì)想,如果有一天我也像他一樣全都擁有了,我會(huì)做什么。

《硅谷101》:他有改變你的哪些決定嗎?

陳羽北 :有,它會(huì)讓我做很多的選擇的時(shí)候會(huì)想到這個(gè)事情。我記得我讀博士的第一天,我的導(dǎo)師跟我講了兩件事情。

一件是說(shuō)他不需要我發(fā)很多的文章,但希望能發(fā)出來(lái)的這種文章可以穿越時(shí)間,就是在 20 年以后看到這篇文章依然不舊。這其實(shí)很難,因?yàn)楹芏嗟墓ぷ魉鼛в絮r明的時(shí)代感,但是真正一些深邃的思想它可能穿越了上百年依然不老,這是一個(gè)很高的目標(biāo),可能當(dāng)你快要退休的時(shí)候可能才能夠被驗(yàn)證。但是它提出了一個(gè)靈魂的拷問(wèn),就是你能否堅(jiān)持去做一些能夠與時(shí)間共存的工作。

第二是他希望一個(gè)學(xué)者應(yīng)該具有自己的一種態(tài)度,如果你覺(jué)得一件事情是a可以做, b 可以做, 你也可以做,你就不要做。就是說(shuō)當(dāng)你做這件事情的時(shí)候,你會(huì)發(fā)現(xiàn)并不是這個(gè)工作需要你,而是你需要這個(gè)工作,這就是一種投機(jī)的心態(tài)。這其實(shí)是我在他們身上看到的這種相似的氣質(zhì),就是希望不要隨大流,能有自己的態(tài)度和尋找到自己的一些 voice。

所以當(dāng)我在選研究的方向的時(shí)候,也會(huì)自己時(shí)不時(shí)的判斷一下我現(xiàn)在做的這個(gè)工作到底是一個(gè)投機(jī)的,還是一個(gè)真正的中有砥柱的工作。

我覺(jué)得他們,尤其是Yann比較偉大的一點(diǎn),就是你可以穿越了這種幾乎是絕望的時(shí)光然后迎來(lái)曙光。沒(méi)有經(jīng)歷過(guò)低谷的人沉淀的可能是不夠的,當(dāng)你經(jīng)過(guò)至暗時(shí)刻,用你的眼光和堅(jiān)持穿越短期的這個(gè)時(shí)間,然后證明它是對(duì)的,我覺(jué)得這個(gè)是挺有意思的一種氣質(zhì)。

《硅谷101》:Yann有哪些在科學(xué)上的看法是你不同意的嗎?

陳羽北 :他有的時(shí)候會(huì)鐵口直斷。比如最近他就說(shuō)如果你作為一個(gè)研究者的話,那就不應(yīng)該研究大語(yǔ)言模型。這句話它有很多種理解,從字面上意思的理解的話很多人就會(huì)不同意,包括我。我可能會(huì)覺(jué)得,大語(yǔ)言模型里面有一些結(jié)構(gòu)是值得被理解和研究的。

當(dāng)然Yann可能真正想說(shuō)的可能是我剛才提到的,不要做a可以做、b也可以做的這種投機(jī)性的工作,希望研究者有自己的一點(diǎn)堅(jiān)持和找到比較原創(chuàng)性的貢獻(xiàn)。如果是這樣的說(shuō)的話,我其實(shí)覺(jué)得我會(huì)更同意一些。但他作為大V有時(shí)候這個(gè)話講出來(lái)會(huì)嚇你一跳,然后引起很多話題討論。是讓我覺(jué)得很有意思的一個(gè)地方。

《硅谷101》:你也在 Meta 工作過(guò),你覺(jué)得 Yann 對(duì) Meta 最大的貢獻(xiàn)在哪里?

陳羽北:首先應(yīng)該是幫助籌建了Meta AI。當(dāng)時(shí)他籌建 Meta AI 的時(shí)候,首先是 Mark 找到他,另外因?yàn)樗缒晔秦悹枌?shí)驗(yàn)室的,他很向往當(dāng)年的貝爾實(shí)驗(yàn)室的那個(gè)狀態(tài),所以他也有一個(gè)理想想在 Meta 復(fù)制這樣一個(gè)實(shí)驗(yàn)室。他秉承了這樣的一個(gè)理念,在Meta AI也招募和培養(yǎng)了一批非常不錯(cuò)的人,給這個(gè)領(lǐng)域做了很大的貢獻(xiàn),推動(dòng)了整個(gè)領(lǐng)域的發(fā)展。

《硅谷101》:我覺(jué)得開(kāi)源應(yīng)該也算是他的很重要的一個(gè)貢獻(xiàn),比如說(shuō) Meta llama 之所以走了開(kāi)源的路線,跟整個(gè) Yarn 的思想應(yīng)該也是非常一致的。

陳羽北:是的,對(duì),開(kāi)源確實(shí)是Yann所堅(jiān)持。但我也不知道將來(lái) Meta 是不是會(huì)一直開(kāi)源下去,因?yàn)楫吘?Meta 也會(huì)面臨競(jìng)爭(zhēng),但是我覺(jué)得這是Yann的一個(gè)理念,最終能執(zhí)行到多好,能走多遠(yuǎn),其實(shí)也要看整個(gè)環(huán)境的發(fā)展。

《硅谷101》:你覺(jué)得現(xiàn)在整個(gè)大模型的研究必須是由科學(xué)家驅(qū)動(dòng)嗎?還是它會(huì)慢慢變成一個(gè)工程驅(qū)動(dòng)的事情?

陳羽北:我就覺(jué)得它已經(jīng)變成一個(gè)工程驅(qū)動(dòng)了,早期是科學(xué)家驅(qū)動(dòng)。這一兩年里面,我覺(jué)得主要的這個(gè)進(jìn)展都來(lái)自于工程的執(zhí)行,數(shù)據(jù)的質(zhì)量是不是變高了?數(shù)據(jù)是不是變多了?它的 distribution 是不是變豐富了?計(jì)算是不是能夠并行?都是由工程領(lǐng)域非常重要的細(xì)節(jié)導(dǎo)致的。從 0 到1 的發(fā)展它需要科學(xué)的突破性,但從 1 到100,就需要工程的嚴(yán)格性和執(zhí)行能力,在不同階段需要不同角色的人一起來(lái)推動(dòng)。

《硅谷101》:大家現(xiàn)在都在期待 GPT 5,你覺(jué)得如果 GPT 5 出來(lái)了,它更多是一個(gè)科學(xué)問(wèn)題,還是一個(gè)工程問(wèn)題?

陳羽北:我覺(jué)得工程上面可走的路是很遠(yuǎn)的,甚至我們可以認(rèn)為 Scaling Law 它還有相當(dāng)長(zhǎng)的路可走,完全沒(méi)有到盡頭,包括數(shù)據(jù)的質(zhì)量以及算力的擴(kuò)展。但同時(shí)我認(rèn)為即使我們現(xiàn)在找到的最魯棒的一條路就是Scaling Law,但這肯定是不夠的。

那我們還需什么呢?我覺(jué)得需要的就是類人的這樣的一些高效率,那如何實(shí)現(xiàn)這樣的一個(gè)效率?有可能是數(shù)據(jù)觸發(fā)的,但也可能是還有其他的一些東西,所以我覺(jué)得如果我們說(shuō)要通向 AGI 的過(guò)程中,應(yīng)該還會(huì)有這種完全從 0 到 1 的一些比較大的轉(zhuǎn)變。

《硅谷101》:就是既要有科學(xué)上的進(jìn)展,在工程上我們也還有很大的空間可以去提高。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。