国产麻豆剧果冻传媒一区,9孩岁女被A片自慰免费观看,亚洲第一无码精品立川理惠

文 | 硅谷101 泓君

隨著近兩年來生成式AI技術(shù)的進(jìn)步與普及，使用大模型來生成內(nèi)容也已逐漸成為普通人生活的一部分。這個(gè)過程看起來似乎很輕松：當(dāng)我們輸入一個(gè)指令，大模型就直接能為我們輸出答案。然而在這背后，模型內(nèi)部的工作原理和模型決策過程卻并沒有人知道，這即是廣為人知的“機(jī)器學(xué)習(xí)黑盒”。

因?yàn)楹诤心Ｐ退嬖诘牟豢山忉屝?，AI的安全問題也一直備受質(zhì)疑。于是科學(xué)家們開始試圖去打開大模型的黑盒子，業(yè)內(nèi)稱之為“白盒研究”。一方面，白盒模型的研究能幫助人們理解黑盒模型，從而對大模型進(jìn)行優(yōu)化和效率的提升。另一方面，白盒研究的目標(biāo)是要把AI這一工程性學(xué)科推向科學(xué)。

此次，我們邀請到了加州大學(xué)戴維斯分校電子與計(jì)算機(jī)工程系助理教授陳羽北，他的研究內(nèi)容就與“白盒模型”有關(guān)。此外，他也是圖靈獎獲得者、Meta首席科學(xué)家Yann LeCun的博士后。本期節(jié)目中，他和我們聊了聊白盒模型的最新研究進(jìn)展，同時(shí)也向我們分享了他所熟悉的這位經(jīng)歷過AI行業(yè)起起伏伏、卻依然純粹專注的科學(xué)家Yann LeCun。

以下是部分訪談精選

01 人腦與大模型

《硅谷101》：可以先簡單介紹一下你正在做的“白盒模型”研究嗎？在你的研究過程中有沒有發(fā)現(xiàn)如何能去解釋 GPT 的輸入輸出問題？

陳羽北：這個(gè)方向其實(shí)一個(gè)比較大的目標(biāo)就是深度學(xué)習(xí)從一門純經(jīng)驗(yàn)性學(xué)科向一個(gè)科學(xué)學(xué)科來推動，或者說把工程變成科學(xué)，因?yàn)槟壳肮こ贪l(fā)展得比較快但科學(xué)相對緩慢。以前有一個(gè)模型叫做詞的嵌入（embedding），它可以學(xué)到語言的一些表征。

大家當(dāng)時(shí)其實(shí)就有一個(gè)疑問，我們做任務(wù)的性能變好了，可是究竟是什么導(dǎo)致這個(gè)性能變好了？所以我們當(dāng)時(shí)做過一個(gè)非常早期的工作，就是嘗試打開詞匯的這些表示。當(dāng)你把它打開的時(shí)候，就會發(fā)現(xiàn)一些很有意思的現(xiàn)象。

比如說蘋果這個(gè)詞，你可以找到里面的一些元意思，比如其中的一個(gè)意思可能就是代表水果，另外一個(gè)意思代表甜點(diǎn)，再往下挖會找到有技術(shù)和產(chǎn)品的意思，當(dāng)然指的是蘋果公司的產(chǎn)品。所以你就會發(fā)現(xiàn)順著一個(gè)詞你能找到這些元意思，接著你就可以把這樣的方法延伸到大語言模型里。

也就是說，當(dāng)我們學(xué)完一個(gè)大語言模型以后，可以在模型里面去尋找它里面所帶有的一些元意思，然后嘗試去打開。你會發(fā)現(xiàn)一個(gè)大語言模型，它其實(shí)有很多層。

在初級層里，它會出現(xiàn)一個(gè)現(xiàn)象叫“詞語的消歧”。比如像在英文里面有個(gè)詞叫做“l(fā)eft”，這個(gè)詞它既有向左轉(zhuǎn)的意思，也有離開的過去式的意思，那么它具體的意思則要取決于語境前后的上下文，所以大語言模型在初期的幾層里就完成了詞語的消歧。

而在中期你會發(fā)現(xiàn)又有一些新的意思產(chǎn)生。當(dāng)時(shí)我們覺得一個(gè)很好玩的事叫做“單位轉(zhuǎn)換”，一旦要將公里變成英里、溫度從華氏度變成攝氏度的時(shí)候就會被激活，這個(gè)意思就會被打開，你可以順著這個(gè)路找到很多相似級別的這種元意思。

你再往上走的時(shí)候甚至?xí)l(fā)現(xiàn)這些元意思中存在一種規(guī)律，這種規(guī)律就是當(dāng)上下文里出現(xiàn)了一個(gè)重復(fù)的意思時(shí)它就會被激活，你就可以用這樣的方式去打開大語言模型以及小語言模型。當(dāng)然這些思路也并不完全是新的，它在視覺模型里其實(shí)已經(jīng)有一段歷史了，比如說從Matthew Zeiler開始就有一些類似探索。

《硅谷101》：順著這個(gè)思路，是不是如果我們知道了它部分是怎么運(yùn)作的，就可以從工程上對它有很多優(yōu)化？

陳羽北：是的，這個(gè)是一個(gè)非常好的問題。我覺得做任何理論一個(gè)比較高的要求就是可以指導(dǎo)實(shí)踐，所以在我們當(dāng)時(shí)做語言模型還有詞匯表征的時(shí)候，當(dāng)時(shí)也有的一個(gè)目標(biāo)，就是當(dāng)我們理解以后，能不能反過來優(yōu)化這些模型？其實(shí)是可以的。

舉一個(gè)例子，如果你在大語言模型里面找到的一個(gè)元意思，當(dāng)它看到某一種元意思的時(shí)候就會激活，那這一個(gè)神經(jīng)元就可以被作為一個(gè)判別器，你就可以用這個(gè)東西來做一些任務(wù)。通過對這些元意思的改變，來調(diào)節(jié)模型的偏見。

就是如果我能夠發(fā)現(xiàn)它，那我可以調(diào)整它。最近 Anthropic 他們就是做了類似的一個(gè)工作，就是找到語言模型里邊可能存在的一些偏見，然后對它進(jìn)行一些改變來使這個(gè)模型變得更加的公平和安全。

《硅谷101》：我看到去年 OpenAI 也有一項(xiàng)研究，就是用 GPT4 去解釋 GPT2，看 GPT2到底是怎么工作的。比如說他們發(fā)現(xiàn)GPT 2的神經(jīng)元在回答所有跟美國歷史1800年前后的事情時(shí)，第5行的第12個(gè)神經(jīng)元會被激活，在回答中文的時(shí)候是第12行的第13個(gè)神經(jīng)元被激活。

如果把它回答中文的這個(gè)神經(jīng)元關(guān)閉的話，它對中文的理解能力就會大幅的下降。但是越往后的神經(jīng)元，比如當(dāng)神經(jīng)元到了2000排左右的時(shí)候那它整個(gè)的可信度就已經(jīng)下降了很多。你有沒有注意到他們的這個(gè)研究？

OpenAI的研究：讓GPT4去解釋GPT2的神經(jīng)元

陳羽北：這篇文章我還沒看過，不過這個(gè)方法它非常像是給大腦的神經(jīng)元做手術(shù)。相當(dāng)于現(xiàn)在如果有一個(gè)神經(jīng)的網(wǎng)絡(luò)，這個(gè)網(wǎng)絡(luò)是指從某種意義上能找到一個(gè)局部的存在而不是完全分散的，那么就可以對它進(jìn)行一些操作。比如把某個(gè)神經(jīng)元切掉了，那你就可以認(rèn)為它某一塊的能力相對來講就損失掉了。

人其實(shí)也是一樣的，比如一個(gè)患有癲癇的人在做完手術(shù)后可能會出現(xiàn)某些語言的障礙，但并不太影響其他人體功能，這從原理上看起來是相似的。

《硅谷101》：OpenAI、Anthropic他們現(xiàn)在都在研究大模型的可解釋性，你的研究跟他們之間有什么區(qū)別嗎？

陳羽北：白盒模型的研究是否將來能成功其實(shí)大家都不知道，我之前也跟我的導(dǎo)師討論過，但大家一致的看法是說這件事值得嘗試。如果我們回到這一塊的話，我們的研究想做的其實(shí)是想理解人工智能，并且通過我們的理解重構(gòu)它，進(jìn)而從根本上來構(gòu)建出一些不一樣的東西。那么觀測，也就是可解釋性我覺得只是一種手段。

也就是說，打開這種模型也好，我做這些實(shí)驗(yàn)也好，對模型進(jìn)行一些調(diào)整也好，我認(rèn)為這都是我們在理解的過程中所嘗試的一些手段，但是白盒模型真正重要的還是要回到這個(gè)信號本身。因?yàn)椴还苁侨四X也好，機(jī)器也好，它們的學(xué)習(xí)的本質(zhì)都因?yàn)樾盘枴?/p>

我們這個(gè)世界中存在一些結(jié)構(gòu)，他們也要通過這些結(jié)構(gòu)來進(jìn)行學(xué)習(xí)，學(xué)的也正是這些結(jié)構(gòu)。那么我們是否可以找到這些結(jié)構(gòu)背后的規(guī)律，以及表示他們的一些數(shù)學(xué)工具再把這些東西進(jìn)行重組進(jìn)而構(gòu)建出來一個(gè)不一樣的模型？如果這件事可以完成的話，我想就能帶來關(guān)于提高我們的系統(tǒng)的魯棒性，或者安全性和可信度的一種期望。

另外，它的效率也會提高。這有點(diǎn)像是蒸汽機(jī)先出來之后才出現(xiàn)了熱力學(xué)這種理論，從而支撐它從一門完全的工匠學(xué)科變成了一門科學(xué)。那么同理，今天我們就好像是第一次在數(shù)據(jù)上有了蒸汽機(jī)，從以前不理解我們的數(shù)據(jù)，到現(xiàn)在終于可以開始做出來一些 AI 的算法把數(shù)據(jù)中的規(guī)律給抓出來。

《硅谷101》：所以它會更節(jié)能。

陳羽北：要說到節(jié)能，我可以舉幾個(gè)有意思的例子。第一個(gè)點(diǎn)肯定是節(jié)能，因?yàn)榇竽X它相當(dāng)于一個(gè)20瓦功耗的一個(gè)燈泡，那現(xiàn)在的超級計(jì)算機(jī)它可能要超過百萬瓦。

第二點(diǎn)是，如果我們看自然界各種各樣生物所進(jìn)行演化，它的演化效率其實(shí)是非常高的。比如有一種特殊蜘蛛叫Jumping Spider，它只有幾百萬個(gè)神經(jīng)元，但它可以做出非常復(fù)雜的三維的群線去捕捉它的獵物。

而我覺得最有意思的一件事兒是人對于數(shù)據(jù)使用的效率。Llama3現(xiàn)在的數(shù)據(jù)量大概已經(jīng)達(dá)到了13萬億個(gè)Token。但人的一生當(dāng)中到底能接收多少的數(shù)據(jù)呢？假設(shè)我們每秒可以獲得30幀圖像，每天的獲取時(shí)間是12個(gè)小時(shí)，做20年，那么我們大概能得到100億個(gè)token，文字能獲取的也是差不多一樣，數(shù)據(jù)量比大模型小太多了。

那么問題來了，人究竟是如何通過如此少的一個(gè)數(shù)據(jù)量來獲得如此強(qiáng)的一個(gè)泛化能力的呢？這就是人腦在效率層面讓我覺得很神奇的一點(diǎn)。

《硅谷101》：去揭開大模型是怎么運(yùn)作的和跟揭開人腦是怎么運(yùn)作的哪個(gè)更難？我聽起來都很難。

陳羽北：這兩者各有各的難法，但在方法上是相似的。不管是人腦還是大語言模型，我們都是嘗試去觀測它，看它對什么產(chǎn)生了響應(yīng)。

這個(gè)方法其實(shí)從上個(gè)世紀(jì)80年代獲得諾貝爾生理學(xué)獎得主David Hubel和Torsten Weisel關(guān)于視覺皮層的研究中就能看到。他們找到了一種Simple Cell，嘗試研究人看到什么東西的時(shí)候這些神經(jīng)元它會產(chǎn)生沖動，分析看不同的東西時(shí)候神經(jīng)元不同的響應(yīng)狀態(tài)，比如什么時(shí)候完全不響應(yīng)，什么時(shí)候又很興奮，接著他們就找到了神經(jīng)元的 Receptive field。

D.H.Hubel和T.N.Wiesel, 1981年諾貝爾生理學(xué)或醫(yī)學(xué)獎獲得者

而我們今天研究大語言模型其實(shí)也是相似的，找不同的輸入，然后理解模型內(nèi)部的哪些神經(jīng)元是對哪些輸入感興趣的。不過它們?nèi)匀挥袇^(qū)別。

第一個(gè)區(qū)別是，不管是通過插電極還是腦機(jī)接口等方法對人腦進(jìn)行觀測，都有很多的限制，但大語言模型有一個(gè)天然的好處就是觀測手段不再受限了，如果你有更好的方法，你就可以長期去分析，甚至你還可以通過一些微分的方法對模型進(jìn)一步分析。

但是它的缺點(diǎn)是，大模型的能力還遠(yuǎn)遠(yuǎn)不及大腦，尤其是大語言模型，因?yàn)樗粡恼Z言里面來學(xué)習(xí)這個(gè)世界，所以它的對世界是理解是不完整的，就好像一個(gè)人他沒有了其他的感官只有語言。

相比之下，大腦能處理更多維的信號，感官是非常豐富的。有時(shí)候我們會想一個(gè)問題，就是語言是否是完備的？如果沒有其他感官的支撐的話，語言里邊是不是所有的概念都可以獨(dú)立存在，還是一定需要其他感官作為支撐，才有可能實(shí)現(xiàn)真正的理解。

舉個(gè)例子，“冰箱”這個(gè)東西如果不和現(xiàn)實(shí)世界的冷熱感受關(guān)聯(lián)，只是描述它有門等這種統(tǒng)計(jì)特征，是不是這種描述就是不完備的。

《硅谷101》：所以其實(shí)目前大模型跟大腦相比，它還是欠缺非常多的。但是因?yàn)槲覀兛梢园阉痖_來研究，所以你覺得它還是會比揭開大腦的秘密的這個(gè)野心稍微更進(jìn)一步。

陳羽北：理解大語言模型它的難度在于你觀測的手段多，對它理解也能更多。比如有兩臺機(jī)器，一臺機(jī)器完全可觀測，一臺機(jī)器部分可觀測，那從直覺上來講是完全可觀測的這臺機(jī)器就更容易被理解。當(dāng)然它有一些能力是這臺機(jī)器沒有，所以不能取代對人腦的一些理解。

《硅谷101》：我跟聽眾也補(bǔ)充介紹一下，羽北之前是學(xué)神經(jīng)科學(xué)的。那你覺得對你的學(xué)科背景對現(xiàn)在來做 AI 方向的研究有什么幫助嗎？會不會有一些跨學(xué)科的可以相互借鑒的研究方法？

陳羽北：我其實(shí)也不是專業(yè)學(xué)計(jì)算神經(jīng)科學(xué)的。我本科是在清華的電子系，在伯克利是電子工程計(jì)算機(jī)系，但當(dāng)時(shí)我所在的研究所是一個(gè)神經(jīng)科學(xué)的一個(gè)研究所，所以我導(dǎo)師是計(jì)算神經(jīng)科學(xué)的專家。

關(guān)于剛才那個(gè)問題，我覺得神經(jīng)科學(xué)的學(xué)習(xí)對我來講的幫助通常是一種啟發(fā)。因?yàn)楫?dāng)你知道自然界的這些系統(tǒng)，知道它們可以做到什么的時(shí)候，你可能就會有不一樣的想法，會重新看待眼前的問題。

舉個(gè)例子，一張圖片它是一個(gè)二維輸入信號，它的像素有橫向的、縱向的，然后它形成一個(gè)網(wǎng)格。但人眼視網(wǎng)膜并不長這樣。首先它是種擁有不同感知的感受器，這個(gè)感受器是以非常密集但又不是非常規(guī)則的方式排布的，它中間非常的細(xì)密，向兩邊的時(shí)候會變得稀疏。

當(dāng)你面對這樣一個(gè)輸入信號的時(shí)候，首先我們習(xí)以為常的卷積神經(jīng)網(wǎng)絡(luò)這些東西就都失效了，因?yàn)檫B卷積在這里都沒有定義。所以當(dāng)看到生物系統(tǒng)里的這個(gè)情況，就會重新去想我們所謂的這些卷積到底從何而來。

《硅谷101》：所以你會重新去想方法是不是對的？是不是一定要以這種方式來實(shí)現(xiàn)？

陳羽北：是的。就是假設(shè)有一天你醒來，所有的神經(jīng)元都打亂了，那你還能再去理解這個(gè)世界嗎？因?yàn)槟憧吹降囊呀?jīng)不再是一張圖片了，你也不能再用卷積神經(jīng)網(wǎng)絡(luò)來做這件事情了，你需要什么樣的方法？

雖然我們還沒完全解決這個(gè)問題，其實(shí)目前也已經(jīng)走了一步。雖然我的所有的神經(jīng)元都打亂了，就是我們的感受器圖像里邊的這些像素打亂了，可是相鄰的這些像素它們有一些關(guān)系。比如我們看圖像時(shí)我會發(fā)現(xiàn)如果一個(gè)像素是紅的，那周圍的像素也更可能是紅的，那么通過這種關(guān)系你就可以去讓這些像素他們重新去找朋友，然后就可以把相似的像素自組織成一些關(guān)系。

然后這個(gè)時(shí)候再加上大語言模型里 Transformer 這樣的結(jié)構(gòu)，就可以重新的對這種圖像做出一個(gè)表示，而且這個(gè)表示的性能還不錯。這個(gè)就是一個(gè)完全從自然的啟發(fā)去重新審視我們現(xiàn)在的工程上的一些做法、然后提出一些不同方法的例子。

《硅谷101》：感覺研究AI大模型和人腦神經(jīng)科學(xué)還是有很多相似之處的。會有神經(jīng)科學(xué)家從他們的角度來跟你們產(chǎn)生跨領(lǐng)域的研究合作嗎？

陳羽北：其實(shí)有很多的神經(jīng)科學(xué)家、統(tǒng)計(jì)學(xué)家以及數(shù)學(xué)家他們想要理解自然信號中的一些結(jié)構(gòu)，同時(shí)也會關(guān)注大腦中的神經(jīng)元它們是如何運(yùn)作的，然后把這兩者結(jié)合在一起，嘗試去提出一些極簡的對于信號的一些表示。

舉一個(gè)例子，在大腦里面你會發(fā)現(xiàn)有一個(gè)現(xiàn)象，就是神經(jīng)元雖然很多，但同一時(shí)間在工作的這些神經(jīng)元其實(shí)是非常的稀疏。比如有100 萬個(gè)神經(jīng)元，可能就只有幾千個(gè)在工作。

根據(jù)這個(gè)，早年神經(jīng)科學(xué)領(lǐng)域就提出來一個(gè)稀疏編碼的方法，也就是在這種高位信號中，能不能找出一些稀疏的低維表示？從這樣的思路出發(fā)所構(gòu)建出來算法，就和你在大腦里面觀測到的這些神經(jīng)元表示非常相近，所以這個(gè)是早期計(jì)算神經(jīng)科學(xué)無監(jiān)督的一個(gè)成功。

到今天來講的話，我們整個(gè)的這一塊研究領(lǐng)域有個(gè)名字叫做自然統(tǒng)計(jì)信號的研究（Natural Signal Statistics），它的目標(biāo)就是揭示信號背后的一些基本結(jié)構(gòu)，但和大模型相比，和白盒模型這類神經(jīng)科學(xué)結(jié)合的研究它的發(fā)展其實(shí)相對來講慢一些的。我其實(shí)覺得一方面可能是因?yàn)閱栴}復(fù)雜，但另一方面也是因?yàn)橥度脒@個(gè)方向的人比較少。

02 黑盒模型的“彎道超車”

《硅谷101》：簡單來說就是現(xiàn)在研究白盒模型的人太少了。但是在大模型出現(xiàn)以前，傳統(tǒng)的機(jī)器學(xué)習(xí)是不是也屬于白盒模型研究的范疇？

陳羽北：我覺得這個(gè)說法可以認(rèn)為是對的，以前的這些機(jī)器學(xué)習(xí)的模型相對簡單，相對來講都可以理解。

《硅谷101》：那為什么現(xiàn)在整個(gè)的黑盒模型的研究進(jìn)展對白盒模型實(shí)現(xiàn)了彎道超車，速度可以快這么多？

陳羽北：這個(gè)問題問出來我們就先會是緊張一下，然后再回答。

《硅谷101》：為什么要緊張？陳羽北：因?yàn)檫@個(gè)問題很尖銳，其實(shí)是在問是不是白盒模型、或者說可理解的這條路徑我們就應(yīng)該放棄了。從我們這個(gè)時(shí)代開始，是不是在AI領(lǐng)域我們已經(jīng)不再研究科學(xué)了，以后全都變成一個(gè)經(jīng)驗(yàn)性學(xué)科？但我覺得還不是。

回到你剛才的這個(gè)問題，這個(gè)過程中到底發(fā)生了什么？首先一點(diǎn)就是黑盒模型的包袱少。你既要這個(gè)方法可以工作又要這個(gè)方法可以解釋的話要求就太多，那黑盒模型就放棄了一條讓他先可以工作。

第二是相對來講被大家所忽視的原因，就是數(shù)據(jù)的逆勢增長，或者說是規(guī)模擴(kuò)大。

Richard Sutton之前寫了一篇博客里面曾提到，在過去的 20 年里面有一個(gè)一直沒有被打破的東西，就是當(dāng)我們有更多的數(shù)據(jù)、更多的計(jì)算，應(yīng)該找到比較能夠真正擴(kuò)張的算法去把所有的數(shù)據(jù)的這種規(guī)律找進(jìn)來。我認(rèn)為這個(gè)是黑盒模型里，或者說是我們現(xiàn)在的經(jīng)驗(yàn)性的進(jìn)展里很重要的一條。

就是說當(dāng)我們有更大的數(shù)據(jù)、更好的數(shù)據(jù)，更多的計(jì)算、更大的模型，然后就能學(xué)得更多。但是我們回到這個(gè)問題的話，就是白盒模型里大家有一個(gè)追求，是說模型本身要具有簡潔性。

《硅谷101》：為什么白盒模型要簡潔？是不是可以理解成如果它過于復(fù)雜，它就很難被設(shè)計(jì)？陳羽北：是的。其實(shí)做理論只有簡潔的東西才可以被理解，肯定是要做一次一次的簡化。但是們在追求模型的簡潔性的時(shí)候，也可能會做了一次又一次的過度簡化，而一旦出現(xiàn)這種過度簡化，模型就無法完全刻畫數(shù)據(jù)的形態(tài)。那么數(shù)據(jù)更多的時(shí)候，模型就走不下去了，它的能力會被限制住。

所以我認(rèn)為這也是以前大家在研究白盒模型、研究簡單模型時(shí)面臨的一個(gè)困難。我們不僅僅要帶著模型需要工作、同時(shí)還需要它可解釋的包袱，同時(shí)我還需要它簡潔，當(dāng)你把所有的這些東西帶上，就會發(fā)現(xiàn)這個(gè)包袱太重。當(dāng)你做過度簡化的時(shí)候也就引入了錯誤，錯誤會積累，再后來就走不動了。《硅谷101》：但現(xiàn)在隨著黑盒模型的快速發(fā)展，我們又開始嘗試去解決它。陳羽北：是的。而且這一次我們在解決它的時(shí)候，可能會重新審視這個(gè)問題。就是我們不一定需要讓模型完全的簡化到那個(gè)程度，它還是能夠表示這個(gè)世界比較復(fù)雜的一面。

但是同時(shí)我們還是希望他是比較可以理解的，所以如果有一天我們可以做到白盒模型的話，那么在此之前我認(rèn)為每一次的嘗試都是一次過度的簡化，但是我們希望每次簡化都能往前走。我們甚至不需要完全做出一個(gè)白盒模型，也許可以做出一個(gè)白盒的、但是沒有大模型那么強(qiáng)的模型，但它又相對來講非常簡潔。

它對于我們理解學(xué)習(xí)背后的本質(zhì)是有幫助的，同時(shí)這種理解可能反過來又讓我們對大模型的訓(xùn)練提高效率。關(guān)于效率問題我之前跟 Yann 也討論過幾次，就是說如果這背后的理論得到發(fā)展，我們就可能讓工程實(shí)踐效率以數(shù)量級的方式上升?！豆韫?01》：Yann的觀點(diǎn)是更希望發(fā)展白盒模型還是黑盒模型？陳羽北：Yann是一個(gè)以工程方面著稱的科學(xué)家，所以他的很多嘗試還是要讓這個(gè)東西先工作起來。但Yann也是支持白盒模型研究的，在我跟他討論的過程中，他會覺得這條路值得探索，但是一個(gè)過于有野心的目標(biāo)，是否能實(shí)現(xiàn)他也不知道，但總要有人做。《硅谷101》：感覺黑盒模型是一個(gè)工程問題，白盒模型則必須用科學(xué)解釋它。雖然從商業(yè)化角度，它的投入產(chǎn)出比不是那么高，但如果最終能做出來這個(gè)東西，那么對 AI 的安全性和未來商業(yè)化的應(yīng)用還是很有價(jià)值的。陳羽北：關(guān)于商業(yè)化，其實(shí)我認(rèn)為所有做基礎(chǔ) AI 研究的人工作的初衷不是以任何的應(yīng)用為初衷，而是由對智能這個(gè)問題比較純粹的好奇心所驅(qū)動，緊接著可能會發(fā)現(xiàn)一些規(guī)律反過來可能幫到在工程實(shí)踐。研究本身并不是為某一種應(yīng)用所設(shè)計(jì)的。

另外，當(dāng)我們在追求這種白盒模型、這種極致效率的過程中，我們也會追問一個(gè)問題，就是我們現(xiàn)在做的這個(gè)大語言模型是不是只通過這種規(guī)?；蛘?Scaling Law 這一條路走下去就可以了？我認(rèn)為其實(shí)不是的。因?yàn)槿耸亲霾坏浇邮苓@么大量數(shù)據(jù)的，那如何用少量的數(shù)據(jù)還能獲得比較高的泛化能力，這也是我們在研究的一個(gè)重要的問題。《硅谷101》：這應(yīng)該也是黑盒模型的學(xué)者在研究的一個(gè)問題。目前白盒模型有哪些學(xué)者跟流派在研究這個(gè)事情呢？

陳羽北：目前主要就是AI的三股力量。第一股力量就是我們在研究這些工程模型的過程中所產(chǎn)生的一些經(jīng)驗(yàn)，然后對它進(jìn)行可視化，比如最近Anthropic、 OpenAI 他們也參與在做的這些事情。

Anthropic的研究：從神經(jīng)網(wǎng)絡(luò)Claude 3 Sonnet提取可解釋的特征

第二就是計(jì)算神經(jīng)科學(xué)嘗試對人腦進(jìn)行理解，找到一些記憶可能存在的方式。

還有一種流派就是從數(shù)學(xué)和統(tǒng)計(jì)的角度出發(fā)，看信號的基本的結(jié)構(gòu)是什么樣的。當(dāng)然這三種之間還會產(chǎn)生很多的交叉。《硅谷101》：你屬于哪一流派？陳羽北：其實(shí)這三派我都或多或少都有受到一點(diǎn)影響。之前在伯克利的時(shí)候跟我的導(dǎo)師以及馬毅老師他們都屬于偏神經(jīng)科學(xué)和數(shù)學(xué)統(tǒng)計(jì)的這個(gè)流派，然后在Yann 這邊是工程方面訓(xùn)練多一點(diǎn)。這三種方法我也覺得都可以接受，因?yàn)樗罱K都會讓我們向同一個(gè)方向前進(jìn)?！豆韫?01》：同樣的方向是哪個(gè)方向？現(xiàn)在有階段性結(jié)果嗎？

陳羽北：最終就是理解這個(gè)模型。之前有一些階段性成果，比如說我們能不能做出一些哪怕是兩三層的網(wǎng)絡(luò)，每一層我們都可以看他學(xué)的是什么東西。最后發(fā)現(xiàn)真的可以做到一個(gè)數(shù)字要想表示它，你會把它的筆畫全都學(xué)出來，再把相似的筆畫聯(lián)系在一起，接著就可以構(gòu)建出來下一個(gè)層次的表示，這樣的一層一層的，最后找到了數(shù)字?！豆韫?01》：你現(xiàn)在的這些研究會對黑盒模型產(chǎn)生優(yōu)化嗎？

陳羽北：一是當(dāng)你對它的理解加深了以后，可能就能優(yōu)化黑盒模型，讓它的效率變高。第二是能把不同的黑盒模型統(tǒng)一起來，這樣就減少了很多不必要的浪費(fèi)。同時(shí)還有一個(gè)涉及到我這個(gè)實(shí)驗(yàn)室的另外一項(xiàng)支柱性的工作，就是要研究不僅僅是感知還有控制。

當(dāng)你給了這些大語言模型它能夠和世界交互的這個(gè)能力的時(shí)候，能不能讓它在控制系統(tǒng)里邊你能否獲得同樣的泛化能力。什么意思呢？就是說在感知系統(tǒng)里邊你會發(fā)現(xiàn)，我學(xué)了蘋果，學(xué)了梨，然后來一個(gè)桃子，由于我之前學(xué)了一個(gè)相似的蘋果和梨的概念，所以可以很快就學(xué)會桃子這個(gè)概念。

那么在控制的領(lǐng)域，能不能達(dá)到相似的性能呢？比如一個(gè)機(jī)器人它學(xué)會了向前走和原地跳躍，那能不能很快把它變成一個(gè)向前一邊跳一邊走的機(jī)器人。

《硅谷101》：如果讓你給一個(gè)結(jié)論的話，你覺得用白盒模型的研究解開大模型運(yùn)作這個(gè)秘密，它目前的進(jìn)度條到哪里了？陳羽北：實(shí)際上我們都不知道這個(gè)進(jìn)度條有多長，我感覺距離這個(gè)目標(biāo)其實(shí)很遠(yuǎn)。它不一定是一個(gè)線性的發(fā)展，可能是比較像量子的這種跳躍。當(dāng)一個(gè)新的認(rèn)知出來以后，你可能會馬上往前走一大步。

如果你想做一個(gè)白盒的ChatGPT，我認(rèn)為這個(gè)還挺遠(yuǎn)的，但我們有可能能夠做出一個(gè)還不錯的、完全可理解的模型，復(fù)現(xiàn)當(dāng)時(shí)像比如 AlexNet 這樣的能力。這種模型它可以就做 Imagenet 的識別，我們可以理解它里邊的每一步它是怎么做的，它是如何一步一步地變成了一個(gè)貓和狗，然后這個(gè)貓和狗它的這個(gè)結(jié)構(gòu)是怎么產(chǎn)生的。

ImageNet 使用的 WordNet 的示例

《硅谷101》：ImageNet 的識別算是白盒還是黑盒？

陳羽北：我們還沒有完全發(fā)現(xiàn)它的工作原理。從 Matthew Zeiler 和 Rob Fergus以及很多研究者做的一些早期的可視化中有一定理解，但是沒有人能夠創(chuàng)造出來這樣的一個(gè)模型，每一步我們都可理解且還能工作得不錯。《硅谷101》：所以可能白盒模型的目標(biāo)就是分階段的。比如第一步先解釋這個(gè) ImageNet 是怎么工作的，這個(gè)謎底揭開以后我們可以再來解釋一些小模型是怎么工作的，就像用GPT 4去解釋GPT 2是怎么工作的，然后再慢慢解釋大模型是怎么工作的。陳羽北：是的。這個(gè)過程我覺得還是有相當(dāng)長的時(shí)間，而且也需要更多的人來投入到這個(gè)方向上。因?yàn)槟壳按蟛糠值墓ぷ鞫技性诠こ填I(lǐng)域。如果我們放到學(xué)校來做的話，那你其實(shí)是需要有一些原創(chuàng)性的想法，而不是說你去scale，我也去scale，那大家都是scale，到最后其實(shí)就沒有區(qū)分度，就看誰的機(jī)器最好和誰的數(shù)據(jù)最多了。

03 我所了解的Yann LeCun

《硅谷101》：接下來我想跟你討論一下你博士后的導(dǎo)師Yann LeCun。我先再補(bǔ)充介紹一下Yann LeCun，他的中文名字叫做楊立昆，是一名法國計(jì)算機(jī)科學(xué)家，在機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、移動機(jī)器人和計(jì)算神經(jīng)科學(xué)等領(lǐng)域都有很多貢獻(xiàn)，被譽(yù)為“卷積神經(jīng)網(wǎng)絡(luò)之父”。

LeCun 現(xiàn)任Meta首席AI科學(xué)家，并擔(dān)任紐約大學(xué)教授。他在1980年代率先提出了卷積神經(jīng)網(wǎng)絡(luò)（CNN），這項(xiàng)技術(shù)成為現(xiàn)代計(jì)算機(jī)視覺的基礎(chǔ)。LeCun與Geoffrey Hinton和Yoshua Bengio共同獲得2018年圖靈獎，表彰他們在深度學(xué)習(xí)方面的開創(chuàng)性工作。

可不可以給我們不懂技術(shù)的朋友稍微解釋一下 Yann 主要的科學(xué)研究成果，以及他為什么這么知名？

陳羽北：Yann從 80 年代就開始研究神經(jīng)網(wǎng)絡(luò) AI 領(lǐng)域，經(jīng)歷了很多次的高峰和低谷和不同學(xué)派的衰落，但他始終堅(jiān)持深度學(xué)習(xí)網(wǎng)絡(luò)，是一個(gè)走過黑暗的人。

比如2000 年的時(shí)候發(fā)深度學(xué)習(xí)相關(guān)的文章非常困難，困難到什么程度呢？如果你的文章里面存在 Neural 神經(jīng)或者Network這個(gè)詞，你被拒稿的概率就很大了，如果有 Neural Network 的話基本就一定會被拒稿。

所以當(dāng)時(shí)對于他們來講這是一個(gè)至暗時(shí)刻，經(jīng)費(fèi)也受影響。但是他們能在這種黑暗當(dāng)中堅(jiān)持不放棄，最后走出這個(gè)黑暗，到今天神經(jīng)深度網(wǎng)絡(luò)改變了世界，我覺得這個(gè)其實(shí)也是他們得圖靈獎，對他們當(dāng)年作為前期的先鋒的一種記憶吧。

《硅谷101》：你讀博士后的時(shí)候?yàn)槭裁磿x他的組？陳羽北：這是一個(gè)比較有意思的奇遇。我當(dāng)時(shí)其實(shí)挺迷茫的，甚至沒有想過那個(gè)學(xué)期去畢業(yè)。因?yàn)槲业臎Q心是說要在博士期間做出一個(gè)白盒的模型，而且要和 AlexNet 的性能可比，但還差一點(diǎn)沒有做好。

我覺得如果要繼續(xù)我的研究，博士后去找誰呢？當(dāng)時(shí)我正在開會，然后在會場上就碰到了Yann。我其實(shí)不是特別投機(jī)的一個(gè)人，我想大家肯定都想找Yann去做博后，所以碰到他的時(shí)候其實(shí)主要想的是聊一下他對我工作的一些看法，以及聊一聊對于AI未來研究方向的上的一些觀點(diǎn)。

結(jié)果當(dāng)時(shí)在會上聊的就非常好，我的研究方向以及我想的一些問題，他曾經(jīng)也都想過，只不過是從神經(jīng)網(wǎng)絡(luò)的這個(gè)角度。所以當(dāng)時(shí)他就問我在招博士后你有沒有興趣申請一下，那我當(dāng)然申請了，所以當(dāng)時(shí)就是這樣的一拍即合。

《硅谷101》：他是一個(gè)什么樣風(fēng)格的導(dǎo)師？是屬于給學(xué)生非常多自由空間探索的，還是來跟大家一起討論幫忙很多的。陳羽北：首先，第二種情況他現(xiàn)在已經(jīng)不可能了，很多人都需要他的時(shí)間，他能夠分給每一個(gè)人的時(shí)間也相對來講就沒有那么多。

他其實(shí)和我的博士的導(dǎo)師相似，在一些大方向上是非常放養(yǎng)的，但我認(rèn)為他們有另外一點(diǎn)相似就是對于他們所相信的事情他們會有堅(jiān)持，就是他可能會給你指一個(gè)方向和目標(biāo)。但具體怎么走，是乘船還是乘車，這都沒有關(guān)系，他不會去控制這些細(xì)節(jié)。

他自己的大方向其實(shí)這么多年也沒有變過，一直是自監(jiān)督學(xué)習(xí)。自監(jiān)督學(xué)習(xí)其實(shí)分兩部分，一個(gè)部分是基于感知的自監(jiān)督。另一個(gè)更重要的部分是如何用具身的方式來做自監(jiān)督，或者我們現(xiàn)在做世界模型 World Model，這是他相信的一個(gè)方向。

這個(gè)名字其實(shí)還是我安利給他，因?yàn)槲耶?dāng)時(shí)讀了David Ha和Jürgen Schmidhuber寫的那篇名字叫 World Model文章，我覺得這個(gè)名字挺酷的。

A system architecture for autonomous intelligence, Mata AI

《硅谷101》：你覺得Yann的研究方向跟 OpenAI、Anthropic 他們的有什么不一樣嗎？陳羽北：如果說真要說什么不一樣的話，我覺得Yann想要的是模型需要具備有幾個(gè)特點(diǎn)。第一是要有具身的能力，也就說不是只堆數(shù)據(jù)，而是這個(gè)模型最終它可以自己去探索這個(gè)世界。《硅谷101》：這有什么不一樣呢？似乎大家都希望最終達(dá)到這樣的一個(gè)結(jié)果。陳羽北：執(zhí)行方式有所不同。比如 OpenAI 我認(rèn)為它是 Scaling Law，也就是更多、更好的數(shù)據(jù)，然后更多的計(jì)算和更大的模型。但Yann還是比較科學(xué)化的，他想的是如果我們想真正通向比較類人的這種智能的話，那到底需要什么？他會覺得只是堆數(shù)據(jù)是不夠的?！豆韫?01》：所以Yann其實(shí)是相當(dāng)于黑盒白盒一起研究。

陳羽北：我覺得Yann它實(shí)際上沒有那么在意這是否能發(fā)展成一門科學(xué)，目前我認(rèn)為他的觀點(diǎn)主要還停留在經(jīng)驗(yàn)性和工程上，希望這個(gè)系統(tǒng)可以工作得更好，這其實(shí)也是他一直非常擅長的東西。

《硅谷101》：當(dāng) OpenAI 證明了Scaling Law可以達(dá)到很好的效果的時(shí)候，你覺得Yann他在科研方法和思維上有所轉(zhuǎn)變嗎？還是他仍然非常堅(jiān)持原路線？

陳羽北：實(shí)際上他并不反對 Scaling Law，我覺得大家在這件事情上并沒有沖突。真正的可能分歧主要在于 OpenAI 很多的工作其實(shí)還是以產(chǎn)品為導(dǎo)向，在工程上執(zhí)行到極致，但Yann其實(shí)是以更科學(xué)的形式在研究。

他想這些問題的時(shí)候其實(shí)不太涉及到產(chǎn)品，而只是想一個(gè)事情，就是究竟怎么能實(shí)現(xiàn)智能。因?yàn)樗谶@個(gè)領(lǐng)域已經(jīng)太久了，在八幾年的時(shí)候就開始在這個(gè)領(lǐng)域在深耕了，所以他可能看這些問題的時(shí)候，還是會堅(jiān)持自己的理想。

《硅谷101》：讓智能自主學(xué)習(xí)這是Yann研究的第一個(gè)特點(diǎn)，其他還有一些什么特點(diǎn)？

陳羽北：還有就是Yann一直相信的一個(gè)東西叫做JEPA，Joint Embedding Predictive Architecture。就是說模型當(dāng)然要有自主學(xué)習(xí)的能力，但是比這是更重要的一點(diǎn)是當(dāng)模型在學(xué)習(xí)數(shù)據(jù)的時(shí)候也能學(xué)習(xí)到一些比較高層次的規(guī)律。

實(shí)際上目前有兩派，一派希望能夠通過學(xué)習(xí)對數(shù)據(jù)進(jìn)行完全重建，可以認(rèn)為是一個(gè)壓縮的思路，但是Yann不希望完全地回到這個(gè)圖像當(dāng)中，因?yàn)橹亟ㄟ@個(gè)圖像帶有了太多的細(xì)節(jié)，而這些細(xì)節(jié)并不是對系統(tǒng)做判斷時(shí)最重要的一些信息。

《硅谷101》：這點(diǎn)他跟你在伯克利的馬毅導(dǎo)師觀點(diǎn)是不一樣的嗎？

陳羽北：其實(shí)他們在這個(gè)觀點(diǎn)上并沒有本質(zhì)的沖突，只不過是表述的方式有所不同。馬老師覺得這個(gè)世界的規(guī)律是簡潔的，Yann認(rèn)為這些細(xì)節(jié)其實(shí)對做下游的任務(wù)或者是一些判斷是不利的，所以要把那些高層次的規(guī)律找到。

其實(shí)這二者是一樣的，因?yàn)楦邔哟蔚囊?guī)律一般就是簡潔的。馬老師經(jīng)常說所有的東西都是壓縮，如果你拿Yann的觀點(diǎn)來看的話，會發(fā)現(xiàn)壓縮確實(shí)沒錯，但數(shù)據(jù)的層次結(jié)構(gòu)其實(shí)是不同的。

因?yàn)楝F(xiàn)實(shí)世界是復(fù)雜的，在現(xiàn)實(shí)世界中如果你深入到這些細(xì)節(jié)里邊會有發(fā)現(xiàn)有大量的東西其實(shí)是低層次的一些結(jié)構(gòu)。數(shù)據(jù)中有結(jié)構(gòu)，任何存在結(jié)構(gòu)的東西都是從噪聲偏離的一個(gè)反應(yīng)，就是說完全沒有結(jié)構(gòu)的東西就是噪聲，任何離開噪聲你就是有結(jié)構(gòu)了。

我們要學(xué)習(xí)這些結(jié)構(gòu)，但結(jié)構(gòu)有不同的層次。但當(dāng)你上升層次，在更大的一個(gè)尺度的時(shí)候，就會發(fā)現(xiàn)結(jié)構(gòu)其實(shí)已經(jīng)不重要了，在那個(gè)層次來看的話，這些東西就已經(jīng)變成像噪聲一樣的東西了。

所以Yann的觀點(diǎn)就是說，要壓縮沒錯，但我們需要有這樣一個(gè)層次化的學(xué)習(xí)，學(xué)習(xí)信號中所有的結(jié)構(gòu)、學(xué)出越來越高的結(jié)構(gòu)。但是最高級的結(jié)構(gòu)它往往對于壓縮的整個(gè)占比不大，在優(yōu)化的過程中就可能會丟失，因?yàn)榇罅康臇|西都是在低層次的、像噪聲一樣的信息量是最大的，越往上走就越難發(fā)現(xiàn)這樣的結(jié)構(gòu)。

為什么呢？因?yàn)樵谀愕膬?yōu)化的 loss function 就是你的目標(biāo)函數(shù)里邊，你找到這個(gè)規(guī)律和找不到這個(gè)規(guī)律可能對你的 loss 影響不大。我覺得主要就是這兩點(diǎn)，一個(gè)是世界模型，另外一個(gè)是對于這種層次化的表示。

《硅谷101》：你覺得他們身上有哪些特質(zhì)是特別打動你的？

陳羽北：特別打動我的可能就是他們做事情的那種專注和純粹吧。

有一次我跟Yann吃午飯，他說你們在年輕時(shí)候想要的所有的東西我都有了，但是我已經(jīng)沒有太多時(shí)間了，所以他只能用自己剩下的時(shí)間做自己真正相信的事情。

當(dāng)你跟這樣的一些科學(xué)家工作的時(shí)候，你可能會被他們身上的這種氣質(zhì)所影響，以至于你即便你還沒有達(dá)到他們現(xiàn)在所在的這個(gè)地位，以及他們所擁有的這些東西之前，也能以他們的視角來看待這個(gè)世界一點(diǎn)。

所以你在做選擇或做事情的時(shí)候，可能會超出現(xiàn)在所在的這個(gè)位置，可能會想，如果有一天我也像他一樣全都擁有了，我會做什么。

《硅谷101》：他有改變你的哪些決定嗎？

陳羽北：有，它會讓我做很多的選擇的時(shí)候會想到這個(gè)事情。我記得我讀博士的第一天，我的導(dǎo)師跟我講了兩件事情。

一件是說他不需要我發(fā)很多的文章，但希望能發(fā)出來的這種文章可以穿越時(shí)間，就是在 20 年以后看到這篇文章依然不舊。這其實(shí)很難，因?yàn)楹芏嗟墓ぷ魉鼛в絮r明的時(shí)代感，但是真正一些深邃的思想它可能穿越了上百年依然不老，這是一個(gè)很高的目標(biāo)，可能當(dāng)你快要退休的時(shí)候可能才能夠被驗(yàn)證。但是它提出了一個(gè)靈魂的拷問，就是你能否堅(jiān)持去做一些能夠與時(shí)間共存的工作。

第二是他希望一個(gè)學(xué)者應(yīng)該具有自己的一種態(tài)度，如果你覺得一件事情是a可以做， b 可以做，你也可以做，你就不要做。就是說當(dāng)你做這件事情的時(shí)候，你會發(fā)現(xiàn)并不是這個(gè)工作需要你，而是你需要這個(gè)工作，這就是一種投機(jī)的心態(tài)。這其實(shí)是我在他們身上看到的這種相似的氣質(zhì)，就是希望不要隨大流，能有自己的態(tài)度和尋找到自己的一些 voice。

所以當(dāng)我在選研究的方向的時(shí)候，也會自己時(shí)不時(shí)的判斷一下我現(xiàn)在做的這個(gè)工作到底是一個(gè)投機(jī)的，還是一個(gè)真正的中有砥柱的工作。

我覺得他們，尤其是Yann比較偉大的一點(diǎn)，就是你可以穿越了這種幾乎是絕望的時(shí)光然后迎來曙光。沒有經(jīng)歷過低谷的人沉淀的可能是不夠的，當(dāng)你經(jīng)過至暗時(shí)刻，用你的眼光和堅(jiān)持穿越短期的這個(gè)時(shí)間，然后證明它是對的，我覺得這個(gè)是挺有意思的一種氣質(zhì)。

《硅谷101》：Yann有哪些在科學(xué)上的看法是你不同意的嗎？

陳羽北：他有的時(shí)候會鐵口直斷。比如最近他就說如果你作為一個(gè)研究者的話，那就不應(yīng)該研究大語言模型。這句話它有很多種理解，從字面上意思的理解的話很多人就會不同意，包括我。我可能會覺得，大語言模型里面有一些結(jié)構(gòu)是值得被理解和研究的。

當(dāng)然Yann可能真正想說的可能是我剛才提到的，不要做a可以做、b也可以做的這種投機(jī)性的工作，希望研究者有自己的一點(diǎn)堅(jiān)持和找到比較原創(chuàng)性的貢獻(xiàn)。如果是這樣的說的話，我其實(shí)覺得我會更同意一些。但他作為大V有時(shí)候這個(gè)話講出來會嚇你一跳，然后引起很多話題討論。是讓我覺得很有意思的一個(gè)地方。

《硅谷101》：你也在 Meta 工作過，你覺得 Yann 對 Meta 最大的貢獻(xiàn)在哪里？

陳羽北：首先應(yīng)該是幫助籌建了Meta AI。當(dāng)時(shí)他籌建 Meta AI 的時(shí)候，首先是 Mark 找到他，另外因?yàn)樗缒晔秦悹枌?shí)驗(yàn)室的，他很向往當(dāng)年的貝爾實(shí)驗(yàn)室的那個(gè)狀態(tài)，所以他也有一個(gè)理想想在 Meta 復(fù)制這樣一個(gè)實(shí)驗(yàn)室。他秉承了這樣的一個(gè)理念，在Meta AI也招募和培養(yǎng)了一批非常不錯的人，給這個(gè)領(lǐng)域做了很大的貢獻(xiàn)，推動了整個(gè)領(lǐng)域的發(fā)展。

《硅谷101》：我覺得開源應(yīng)該也算是他的很重要的一個(gè)貢獻(xiàn)，比如說 Meta llama 之所以走了開源的路線，跟整個(gè) Yarn 的思想應(yīng)該也是非常一致的。

陳羽北：是的，對，開源確實(shí)是Yann所堅(jiān)持。但我也不知道將來 Meta 是不是會一直開源下去，因?yàn)楫吘?Meta 也會面臨競爭，但是我覺得這是Yann的一個(gè)理念，最終能執(zhí)行到多好，能走多遠(yuǎn)，其實(shí)也要看整個(gè)環(huán)境的發(fā)展。

《硅谷101》：你覺得現(xiàn)在整個(gè)大模型的研究必須是由科學(xué)家驅(qū)動嗎？還是它會慢慢變成一個(gè)工程驅(qū)動的事情？

陳羽北：我就覺得它已經(jīng)變成一個(gè)工程驅(qū)動了，早期是科學(xué)家驅(qū)動。這一兩年里面，我覺得主要的這個(gè)進(jìn)展都來自于工程的執(zhí)行，數(shù)據(jù)的質(zhì)量是不是變高了？數(shù)據(jù)是不是變多了？它的 distribution 是不是變豐富了？計(jì)算是不是能夠并行？都是由工程領(lǐng)域非常重要的細(xì)節(jié)導(dǎo)致的。從 0 到1 的發(fā)展它需要科學(xué)的突破性，但從 1 到100，就需要工程的嚴(yán)格性和執(zhí)行能力，在不同階段需要不同角色的人一起來推動。

《硅谷101》：大家現(xiàn)在都在期待 GPT 5，你覺得如果 GPT 5 出來了，它更多是一個(gè)科學(xué)問題，還是一個(gè)工程問題？

陳羽北：我覺得工程上面可走的路是很遠(yuǎn)的，甚至我們可以認(rèn)為 Scaling Law 它還有相當(dāng)長的路可走，完全沒有到盡頭，包括數(shù)據(jù)的質(zhì)量以及算力的擴(kuò)展。但同時(shí)我認(rèn)為即使我們現(xiàn)在找到的最魯棒的一條路就是Scaling Law，但這肯定是不夠的。

那我們還需什么呢？我覺得需要的就是類人的這樣的一些高效率，那如何實(shí)現(xiàn)這樣的一個(gè)效率？有可能是數(shù)據(jù)觸發(fā)的，但也可能是還有其他的一些東西，所以我覺得如果我們說要通向 AGI 的過程中，應(yīng)該還會有這種完全從 0 到 1 的一些比較大的轉(zhuǎn)變。

《硅谷101》：就是既要有科學(xué)上的進(jìn)展，在工程上我們也還有很大的空間可以去提高。

文 | 硅谷101 泓君

以下是部分訪談精選

01 人腦與大模型

《硅谷101》：可以先簡單介紹一下你正在做的“白盒模型”研究嗎？在你的研究過程中有沒有發(fā)現(xiàn)如何能去解釋 GPT 的輸入輸出問題？

《硅谷101》：順著這個(gè)思路，是不是如果我們知道了它部分是怎么運(yùn)作的，就可以從工程上對它有很多優(yōu)化？

OpenAI的研究：讓GPT4去解釋GPT2的神經(jīng)元

《硅谷101》：OpenAI、Anthropic他們現(xiàn)在都在研究大模型的可解釋性，你的研究跟他們之間有什么區(qū)別嗎？

《硅谷101》：所以它會更節(jié)能。

《硅谷101》：去揭開大模型是怎么運(yùn)作的和跟揭開人腦是怎么運(yùn)作的哪個(gè)更難？我聽起來都很難。

陳羽北：這兩者各有各的難法，但在方法上是相似的。不管是人腦還是大語言模型，我們都是嘗試去觀測它，看它對什么產(chǎn)生了響應(yīng)。

D.H.Hubel和T.N.Wiesel, 1981年諾貝爾生理學(xué)或醫(yī)學(xué)獎獲得者

《硅谷101》：所以你會重新去想方法是不是對的？是不是一定要以這種方式來實(shí)現(xiàn)？

02 黑盒模型的“彎道超車”

陳羽北：我覺得這個(gè)說法可以認(rèn)為是對的，以前的這些機(jī)器學(xué)習(xí)的模型相對簡單，相對來講都可以理解。

《硅谷101》：那為什么現(xiàn)在整個(gè)的黑盒模型的研究進(jìn)展對白盒模型實(shí)現(xiàn)了彎道超車，速度可以快這么多？

陳羽北：這個(gè)問題問出來我們就先會是緊張一下，然后再回答。

第二是相對來講被大家所忽視的原因，就是數(shù)據(jù)的逆勢增長，或者說是規(guī)模擴(kuò)大。

所以我認(rèn)為這也是以前大家在研究白盒模型、研究簡單模型時(shí)面臨的一個(gè)困難。我們不僅僅要帶著模型需要工作、同時(shí)還需要它可解釋的包袱，同時(shí)我還需要它簡潔，當(dāng)你把所有的這些東西帶上，就會發(fā)現(xiàn)這個(gè)包袱太重。當(dāng)你做過度簡化的時(shí)候也就引入了錯誤，錯誤會積累，再后來就走不動了?！豆韫?01》：但現(xiàn)在隨著黑盒模型的快速發(fā)展，我們又開始嘗試去解決它。陳羽北：是的。而且這一次我們在解決它的時(shí)候，可能會重新審視這個(gè)問題。就是我們不一定需要讓模型完全的簡化到那個(gè)程度，它還是能夠表示這個(gè)世界比較復(fù)雜的一面。

它對于我們理解學(xué)習(xí)背后的本質(zhì)是有幫助的，同時(shí)這種理解可能反過來又讓我們對大模型的訓(xùn)練提高效率。關(guān)于效率問題我之前跟 Yann 也討論過幾次，就是說如果這背后的理論得到發(fā)展，我們就可能讓工程實(shí)踐效率以數(shù)量級的方式上升?！豆韫?01》：Yann的觀點(diǎn)是更希望發(fā)展白盒模型還是黑盒模型？陳羽北：Yann是一個(gè)以工程方面著稱的科學(xué)家，所以他的很多嘗試還是要讓這個(gè)東西先工作起來。但Yann也是支持白盒模型研究的，在我跟他討論的過程中，他會覺得這條路值得探索，但是一個(gè)過于有野心的目標(biāo)，是否能實(shí)現(xiàn)他也不知道，但總要有人做?！豆韫?01》：感覺黑盒模型是一個(gè)工程問題，白盒模型則必須用科學(xué)解釋它。雖然從商業(yè)化角度，它的投入產(chǎn)出比不是那么高，但如果最終能做出來這個(gè)東西，那么對 AI 的安全性和未來商業(yè)化的應(yīng)用還是很有價(jià)值的。陳羽北：關(guān)于商業(yè)化，其實(shí)我認(rèn)為所有做基礎(chǔ) AI 研究的人工作的初衷不是以任何的應(yīng)用為初衷，而是由對智能這個(gè)問題比較純粹的好奇心所驅(qū)動，緊接著可能會發(fā)現(xiàn)一些規(guī)律反過來可能幫到在工程實(shí)踐。研究本身并不是為某一種應(yīng)用所設(shè)計(jì)的。

另外，當(dāng)我們在追求這種白盒模型、這種極致效率的過程中，我們也會追問一個(gè)問題，就是我們現(xiàn)在做的這個(gè)大語言模型是不是只通過這種規(guī)?；蛘?Scaling Law 這一條路走下去就可以了？我認(rèn)為其實(shí)不是的。因?yàn)槿耸亲霾坏浇邮苓@么大量數(shù)據(jù)的，那如何用少量的數(shù)據(jù)還能獲得比較高的泛化能力，這也是我們在研究的一個(gè)重要的問題?！豆韫?01》：這應(yīng)該也是黑盒模型的學(xué)者在研究的一個(gè)問題。目前白盒模型有哪些學(xué)者跟流派在研究這個(gè)事情呢？

Anthropic的研究：從神經(jīng)網(wǎng)絡(luò)Claude 3 Sonnet提取可解釋的特征

第二就是計(jì)算神經(jīng)科學(xué)嘗試對人腦進(jìn)行理解，找到一些記憶可能存在的方式。

還有一種流派就是從數(shù)學(xué)和統(tǒng)計(jì)的角度出發(fā)，看信號的基本的結(jié)構(gòu)是什么樣的。當(dāng)然這三種之間還會產(chǎn)生很多的交叉?！豆韫?01》：你屬于哪一流派？陳羽北：其實(shí)這三派我都或多或少都有受到一點(diǎn)影響。之前在伯克利的時(shí)候跟我的導(dǎo)師以及馬毅老師他們都屬于偏神經(jīng)科學(xué)和數(shù)學(xué)統(tǒng)計(jì)的這個(gè)流派，然后在Yann 這邊是工程方面訓(xùn)練多一點(diǎn)。這三種方法我也覺得都可以接受，因?yàn)樗罱K都會讓我們向同一個(gè)方向前進(jìn)。《硅谷101》：同樣的方向是哪個(gè)方向？現(xiàn)在有階段性結(jié)果嗎？

ImageNet 使用的 WordNet 的示例

《硅谷101》：ImageNet 的識別算是白盒還是黑盒？

陳羽北：我們還沒有完全發(fā)現(xiàn)它的工作原理。從 Matthew Zeiler 和 Rob Fergus以及很多研究者做的一些早期的可視化中有一定理解，但是沒有人能夠創(chuàng)造出來這樣的一個(gè)模型，每一步我們都可理解且還能工作得不錯?！豆韫?01》：所以可能白盒模型的目標(biāo)就是分階段的。比如第一步先解釋這個(gè) ImageNet 是怎么工作的，這個(gè)謎底揭開以后我們可以再來解釋一些小模型是怎么工作的，就像用GPT 4去解釋GPT 2是怎么工作的，然后再慢慢解釋大模型是怎么工作的。陳羽北：是的。這個(gè)過程我覺得還是有相當(dāng)長的時(shí)間，而且也需要更多的人來投入到這個(gè)方向上。因?yàn)槟壳按蟛糠值墓ぷ鞫技性诠こ填I(lǐng)域。如果我們放到學(xué)校來做的話，那你其實(shí)是需要有一些原創(chuàng)性的想法，而不是說你去scale，我也去scale，那大家都是scale，到最后其實(shí)就沒有區(qū)分度，就看誰的機(jī)器最好和誰的數(shù)據(jù)最多了。

03 我所了解的Yann LeCun

可不可以給我們不懂技術(shù)的朋友稍微解釋一下 Yann 主要的科學(xué)研究成果，以及他為什么這么知名？

A system architecture for autonomous intelligence, Mata AI

《硅谷101》：你覺得Yann的研究方向跟 OpenAI、Anthropic 他們的有什么不一樣嗎？陳羽北：如果說真要說什么不一樣的話，我覺得Yann想要的是模型需要具備有幾個(gè)特點(diǎn)。第一是要有具身的能力，也就說不是只堆數(shù)據(jù)，而是這個(gè)模型最終它可以自己去探索這個(gè)世界?！豆韫?01》：這有什么不一樣呢？似乎大家都希望最終達(dá)到這樣的一個(gè)結(jié)果。陳羽北：執(zhí)行方式有所不同。比如 OpenAI 我認(rèn)為它是 Scaling Law，也就是更多、更好的數(shù)據(jù)，然后更多的計(jì)算和更大的模型。但Yann還是比較科學(xué)化的，他想的是如果我們想真正通向比較類人的這種智能的話，那到底需要什么？他會覺得只是堆數(shù)據(jù)是不夠的?！豆韫?01》：所以Yann其實(shí)是相當(dāng)于黑盒白盒一起研究。

《硅谷101》：讓智能自主學(xué)習(xí)這是Yann研究的第一個(gè)特點(diǎn)，其他還有一些什么特點(diǎn)？

《硅谷101》：這點(diǎn)他跟你在伯克利的馬毅導(dǎo)師觀點(diǎn)是不一樣的嗎？

《硅谷101》：你覺得他們身上有哪些特質(zhì)是特別打動你的？

陳羽北：特別打動我的可能就是他們做事情的那種專注和純粹吧。

所以你在做選擇或做事情的時(shí)候，可能會超出現(xiàn)在所在的這個(gè)位置，可能會想，如果有一天我也像他一樣全都擁有了，我會做什么。

《硅谷101》：他有改變你的哪些決定嗎？

陳羽北：有，它會讓我做很多的選擇的時(shí)候會想到這個(gè)事情。我記得我讀博士的第一天，我的導(dǎo)師跟我講了兩件事情。

《硅谷101》：Yann有哪些在科學(xué)上的看法是你不同意的嗎？

《硅谷101》：你也在 Meta 工作過，你覺得 Yann 對 Meta 最大的貢獻(xiàn)在哪里？

《硅谷101》：你覺得現(xiàn)在整個(gè)大模型的研究必須是由科學(xué)家驅(qū)動嗎？還是它會慢慢變成一個(gè)工程驅(qū)動的事情？

《硅谷101》：大家現(xiàn)在都在期待 GPT 5，你覺得如果 GPT 5 出來了，它更多是一個(gè)科學(xué)問題，還是一個(gè)工程問題？

《硅谷101》：就是既要有科學(xué)上的進(jìn)展，在工程上我們也還有很大的空間可以去提高。

歷史搜索全部刪除

熱門搜索

聊聊大模型如何思考與深度學(xué)習(xí)科學(xué)家Yann LeCun

01 人腦與大模型

02 黑盒模型的“彎道超車”

03 我所了解的Yann LeCun

評論

聊聊大模型如何思考與深度學(xué)習(xí)科學(xué)家Yann LeCun

01 人腦與大模型

02 黑盒模型的“彎道超車”

03 我所了解的Yann LeCun