記者|冉翀 伍洋宇
編輯|劉方遠
2017年夏天,一趟從北京飛往紐約的國際航班上,張林峰正在反復比對兩組幾乎一模一樣的數字,以確認它們真的如此接近。
這兩組數字都代表64個水分子在10皮秒內(10的-11次方秒,比一瞬間還短暫)模擬運動的計算結果。其中一組是在1985年用量子力學原理算出來的,消耗了2億核時,即便在算力發(fā)達的今天,也需要大約2000萬的計算費用才能實現。另一組就來自張林峰手里這臺筆記本,上面正運行著他與合作者完成的某套算法,因為從上飛機就插著電,大概只消耗了一些航空公司的電費——這可能嗎?他甚至覺得自己抄錯了。
下飛機之后,張林峰立刻寫了一封郵件,將模擬的結果發(fā)送給自己在普林斯頓大學的導師、中國科學院院士鄂維南。來自遠方的回復簡潔而有力:“Too good to be true(好得難以置信)。”
人類團隊寫的AI算法讀懂了微觀世界的某種客觀規(guī)律——這像是一顆投向分子模擬領域的普羅米修斯火種,很多事情將就此被永遠改變,但當時沒人清晰預見。
再次回國后,一場老友見面,張林峰將飛機上發(fā)生的故事講給了自己的北大元培校友,一邊從事科技方向投資一邊尋找合適創(chuàng)業(yè)項目的孫偉杰。
孫偉杰關注過市面上絕大多數AI項目,早就發(fā)現這個行業(yè)的共性問題是缺乏Golden Standard(黃金準則)來衡量成果。張林峰帶來的故事是一種認知沖擊——如果AI的核心是發(fā)現并學習某種規(guī)律,其價值等同于它所學到的規(guī)律價值,那當今世界還有什么規(guī)律的價值高于科學規(guī)律?
用AI來學習和發(fā)現科學規(guī)律,沒錯,他們應該做這樣一套東西——達成這一共識之后,張林峰和孫偉杰開始籌劃共同創(chuàng)業(yè),他們?yōu)樾鹿救∶吧顒菘萍肌?,致力于用人工智能深度學習解決微觀尺度的問題。
時間快進到2024年GTC大會,英偉達CEO黃仁勛在演講中談到了AI領域的三個關鍵方向,LLM(大語言模型),具身智能,以及AI for Science(科學智能)。
在前兩個領域,OpenAI和Tesla兩家美國公司已經形成鮮明主導地位,全球范圍內的競爭者均對其亦步亦趨。鮮有人知的是,第三個領域——AI for Science——早在七年前就在鄂維南院士的推動下在東方世界定下根基。
更加反直覺的在于,過去幾年來,AI for Science領域聲名在外的兩家科技巨頭Google DeepMind和微軟并未形成實質上的引領地位,而是一直在與那個年輕東方團隊相互追趕。
2017年,在鄂維南院士的帶領下,張林峰與團隊合作發(fā)布DeePMD,緊接著Google DeepMind完成一套十分相近的技術框架;隨后,張林峰團隊做出了DeePWF,一種電子波函數的AI計算方法,次年,DeepMind發(fā)布相同方向的解決方案FermiNet;2020年,張林峰團隊再度發(fā)布DeePKS,而DeepMind的對標框架DM21在2021年誕生。
2020年底,在鄂維南、張林峰等人因DeePMD相關工作獲得有高性能計算領域“諾貝爾獎”之稱的戈登貝爾獎時,DeepMind AlphaFold-2的工作改變了整個結構生物學領域。而到了2021年底,深勢科技成為了全球首家成功復現AlphaFold-2并完全開源訓練代碼的機構。
大概只因為AI for Science才剛剛起步,人們無從發(fā)現這個前沿科技領域正在上演一場激烈的全球競逐。
AI for Science有多重要?任正非曾指出中國的基礎科學薄弱,在最基礎的科研和工業(yè)問題上被“卡著脖子”。中國實體產業(yè)已經在新能源汽車、光伏等領域誕生多個全球第一,但回到電池研發(fā)層面,仍在基礎科學問題上破繭無門。而大量重要科學問題的終極答案都指向微觀世界。
事實上,AI for Science的重要性已經與大國競爭的新局面掛鉤。大洋彼岸,在美國白宮一份行政命令要求下,PCAST(美國總統(tǒng)科技顧問委員會)近日撰寫了題為《加速研究:利用人工智能應對全球挑戰(zhàn)》的報告。其中,由知名數學家陶哲軒領銜的一份技術報告概述了AI for Science的潛在影響。
報告指出,AI將從根本上改變人類進行科學研究的方式。其闡述了AI在材料、半導體設計、氣候、物理、生命科學等領域已經做出的改變,并高度總結了AI如何通過提供研究工具來加速科學發(fā)現和技術進步,從而革命性地改變人類解決最緊迫問題的能力。
這恰恰是深勢科技決心投入并試圖引領中國產業(yè)去突破的問題。成立近六年時間,深勢科技已經把當初那顆火種衍生為一套完整的產品框架。用多尺度建模、機器學習和高性能計算去解決微觀尺度下的工業(yè)設計難題。這件事天然地適合藥企、材料研發(fā)和科研機構,是真正有可能四兩撥千斤的魔法工具。
但這趟旅程并不完全是一個天之驕子的爽文故事。因為人才難尋,這家AI for Science領域的“中國OpenAI”在創(chuàng)業(yè)之初甚至有一半以上的員工是實習生。深勢科技在天使輪拿到了1600萬人民幣融資,聽上去不少,但去年由谷歌孵化,并由谷歌創(chuàng)始人掛帥的Sandbox AQ首輪單筆公開融資就已達到5億美金。孫偉杰說,當他看到海外對手可能是以每年數十億美?為計在投?的時候,他知道自己還得做到更好。
作為深勢科技創(chuàng)始人兼首席科學家,張林峰判斷,AI for Science領域的科學大模型正處在GPT-2階段,這意味著涌現時刻已經不會太遠。他對未來的終局想象是無論半導體工業(yè)、電池、合金,還是藥物,都能從原子開始生產制造。一個形象的比喻大概就是,原?尺度下的“活字印刷術”。
而作為公司CEO,孫偉杰說,他們的創(chuàng)業(yè)出發(fā)點是做一家真正源自中國、引領世界的科技公司。他認為一代公司有一代公司的使命,中國已經走過了拿來主義的階段,這個時代在呼喚更多有底層創(chuàng)新技術的公司。
以下是界面新聞對孫偉杰、張林峰的采訪實錄(略作編輯):
打開微尺度的大門:看到光照不進的地方
問:你們的官網一打開就寫著"分子模擬未來",為什么要用這句話?什么是分子模擬?
孫偉杰:分子模擬就是基于物理規(guī)律模擬原子、分子這些微觀粒子的排布和運動,就好像我們給分子的運動拍了一個視頻。我們團隊的第一個突破就是在AI助力分子模擬領域,把分子模擬的時間和空間規(guī)模提升了上萬倍。這樣我們就能用分子模擬來研究很多面向未來的新分子、新材料了。
我們覺得在分子模擬里,可以發(fā)現人類的未來,所以就把公司口號定成了這句話。
問:為什么要模擬,而不是直接觀察呢?
孫偉杰:因為原子的尺寸甚至小于可見光的波長了。這意味著我們無法用可見光看到它,必須得借助一些非常昂貴的儀器,像電子顯微鏡,而這些儀器效率又非常低。
另一個問題則是它動的太快了。對于常見的物質來說,原子間振動的常用時間尺度是是十的負十五次方秒,也就是百萬億分之一秒。剛才過去的一秒鐘,它動了一百萬億次。
所以是真的“看不到”它怎么動,只能模擬。
問:看清楚分子原子是怎么運動的很重要嗎?
孫偉杰:當然,現在的重要科學問題其實大部分都是微觀問題。
比如生命和非生命的界限到底在哪?一個細胞可以是一個生命,但是細胞也是由無生命的原子構成的,那為什么它會變成一個生命體呢?如果我們從最小的地方一點點開始模擬,一個原子,兩個原子,三個原子,直到組成蛋白質,組成線粒體,一點點往上加,加到什么樣的時候,它突然就有生命了?這是人類的一個終極問題,生命是“涌現的",你怎么知道那個界限在哪?
再比如說,中國目前在電動車和電池行業(yè)已經世界領先,但是我們仍然不完全了解鋰枝晶的生長原因。鋰枝晶是一種會讓鋰電池失效的機制,它會在負極界面和電解質界面上形成,這個過程涉及至少數十萬個原子在微秒甚至毫秒的時間尺度內發(fā)生變化。
問:模擬分子很難嗎,以前是怎么解決這些問題的?
孫偉杰:主要有兩種方法,第一種是用第一性原理,基于量子力學來算。它的好處是可以算得準,壞處就是算得非常慢,而且它只能算個幾十個幾百個原子。
靠量子力學這樣的算法,隨原子數量的上升,計算量是三次方指數上升。一百個原子和一萬個原子,差的原子數量是一百倍,但是差的計算量是一百萬倍。這就導致我們想要算一個真正感興趣的問題,如果里面有幾十萬個原子,可能把全球的算力加起來都不夠用,這個叫做維數災難。
第二種方法就是經驗力場,靠歸納。我就簡單地把原子間的力抽象成一個化學鍵,像個皮筋一樣。它不那么準,但至少能算,在相當長的歷史階段里面也解決了很多問題。但一旦面臨精度很高的體系,就不管用了。
問:所以說要算得準就算得慢,要算得快就算得不準。
張林峰:對,算得快的就不準,或者使用范圍非常受限。而這是我們用AI能解決的問題,讓精度和效率可以兼得。
問:那算到多大規(guī)模的模擬才算是真正完成了任務呢?
張林峰:要到我們用光學顯微鏡能夠觀察到運動變化的這個尺度。對于生物學來說,可能是到一個細胞層面,我們模擬出來的這個細胞的運動和變化和我們光學上觀察的是一致的,我覺得這個時候分子模擬的任務首先從規(guī)模上解決了。
在分子模擬領域有三個終極問題:第一是否所有的元素和構型,第二就是模擬的規(guī)模,第三就是模擬的時間尺度。在這三個問題上其實我們基本上未來的路已經比較清楚了,未來兩三年之內應該這個領域應該會被顛覆。
問:達到目標對于業(yè)界的影響會是什么,對于人們的日常生活又會有什么影響?
張林峰:比如可以幫助電池企業(yè)發(fā)現讓電池續(xù)航更高的方法,幫助藥物公司研發(fā)出更好的藥物。
我們研究新材料,比如說一塊橡皮泥,為什么它有這種彈性形變?現在是沒有原理能夠解釋的。我們只是觀察到了,它一捏可以這樣,但我們不知道為什么會這樣。
而當我們有了分子模擬,就有可能通過模擬的方式搞明白背后的原理,這樣在我們需要有彈性形變的材料時可以嘗試把這個原理使用上去。
中國團隊扛起AI for Science的大旗
問:你們是怎么發(fā)現AI可以解決分子模擬效率和精度不可兼得的問題的?
張林峰:主要是因為我的兩位導師。其中一位是鄂維南老師,他是應用數學家。鄂老師給我最核心的insight是機器學習能解決維數災難問題。
我本科畢業(yè)剛剛去普林斯頓的時候,其實做了非常多的純理論的探索,量子計算、量子場論等等。在找科研方向的時候有一句話是共振程度最高的,是楊振寧說的"the party is over",找不到令人振奮的方向了。(注:楊振寧在1980年就認為,高能物理的黃金時代已經過去,未來的發(fā)展將不會像過去那樣頻繁地出現重大發(fā)現和理論突破。)
那時候鄂老師直接勸我不要再繼續(xù)上課了,盡管普林斯頓有很多菲爾茲獎、諾貝爾獎得主的課程,重學一遍也挺開心的。但我理解他的意思是:上課只會滿足你的虛榮心,你80%都會了然后上去再會一點,并不是在定義重要問題。
問:不上課干啥?
張林峰:鄂老師勸我關注機器學習。科學界大量的問題,無論是微觀的還是宏觀的,很多都卡在了所謂的維數災難。而機器學習在數學上,恰好給我們提供了高維復雜函數的表示能力。
比如AI處理圖像,以一個32乘32像素的圖像為例,算上RGB的三個值,那有3000多個數字作為輸入,然后輸出的畫面就是貓或者狗或者別的。這個事兒我們現在去看好像挺自然,但事實上從數學建模的角度來講,是非常反直覺的,至少是反一代數值算法科學家的經驗和直觀的。
問:其實非計算機領域的數學家,反而可能對AI有更本質的理解?
張林峰:每個領域的人對AI的認知是不同的,正是因為這些差異,讓我們產生了碰撞,去探索AI為科學計算所帶來的新可能。
世界上本來就不存在學科,以前分學科是為了教育方便。過去因為方法能力的限制,各個尺度下面的不同場景已經被四分五裂到不同的學科。而現在我們有了一個統(tǒng)一的工具,也就是AI,能表示所有的復雜高維函數,那我們可以帶著一個全新的視角把所有的東西都重新審視一遍。
問:話說回來,另一位導師是誰,他又給了你什么啟發(fā)?
張林峰:另一位導師Roberto Car是計算化學家,是第一性原理分子模擬的祖師爺,而第一性原理分子模擬恰好受限于維數災難。比如他在2016年用超算做了一個很簡單的模擬,模擬64個水分子,運動10皮秒(1皮秒是10的-12次方秒),這個模擬用了兩億個核時。即使放到今天成本可能也要一兩千萬人民幣。
而如果我們把這個東西拿AI一學,然后用來做模擬,模擬的分子數大10倍,時間長10倍,用你這個筆記本跑一天就可以了。
64個水分子的模擬,我是在去美國的飛機上跑通的。當時在飛機上用筆記本插著電跑,跑完之后出來的結果跟Roberto Car的模擬互相重疊,我甚至以為抄錯數據了。下飛機以后我發(fā)給鄂老師寫了一個郵件說了這件事情,然后他只回了一句話:"too good to be true。"
問:這個就是后來拿了戈登貝爾獎的的DeePMD算法嗎?聽起來對于分子模擬來說是一個劃時代的突破,一下就能做很多以前不能做的事情。回到那個時間點,學界的反應是什么?
張林峰:對,這套算法后來發(fā)展成了DeePMD。我們相當于是提出了一個新的范式,但AI for Science在那個時候并沒有一個明確的Benchmark。好在以前很多做量子力學計算的人有數據,因為計算的復雜度高,一算就要三個月,他們就在超算那等著。等待的時候他們發(fā)現DeePMD這方法挺好安裝的可以試試,一試發(fā)現一天就能跑很多數據。
同時我們還做了一個開源社區(qū)DeepModelling,很快就有來自非常多不同領域,半導體、電池、合金材料、天文地理的科學家都拿AI for Science的工具做了很多應用。在這個基礎上,它慢慢地形成了一個比較廣泛的影響。
也是從18年開始,我們確定了分子模擬能真正打開微觀工業(yè)研發(fā)的大門,而AI會推動整個工業(yè)研發(fā)新范式的變革。
創(chuàng)業(yè):10億做一個科學大模型,但當時兜里只有20萬
問:那個時候偉杰還在做投資,林峰博士還沒畢業(yè),為什么你們會決定要一起出來創(chuàng)業(yè)?
孫偉杰:我做投資就是為了創(chuàng)業(yè),其實一直在找方向。
當時我看了很多AI相關的方向。我最早對AI的認知是:AI可以從大量數據里面找到背后的規(guī)律,所以說AI的價值是由它學到的規(guī)律的價值決定的。學到的規(guī)律越有價值,它就能解決越多問題。
林峰的工作讓我意識到,世界上最高價值的規(guī)律不就是科學家研究出來的這些科學規(guī)律嗎?它能解釋世界上最復雜最多的現象。能把這么高價值的科學規(guī)律學會的話,那這個AI一定是最有價值的。
問:林峰呢?
張林峰:我在學術方面本來就很迷茫,迷茫在于雖然我特別想做一個科學家,但不知道選擇怎樣的方向探索,并且很長時間以來“理想中學術的樣子”和“我看到很多從事學術研究的人實際展現的樣子”有些不一樣。幸運的是在普林斯頓又找到了AI for Science這條路。
問:所以你想做什么樣的科學家?
張林峰:我希望自己還是回歸好奇心的初心,解決我感興趣的問題,定義有意義的問題,然后去解決有意義的問題。創(chuàng)業(yè)其實也是因為看到了這樣的問題,可以在我們的認知范圍內解決。
問:決定創(chuàng)業(yè)之后,你們有沒有給公司設立一個愿景?
孫偉杰:要做一家源自中國,引領世界的科技公司。
后來發(fā)現這個牛吹出去也還挺難實現的,源自中國、引領世界、科技公司這三點可能是每一個拆出來都還行,合在一起就發(fā)現這樣的公司很少。我們不敢定義自己已經實現了這樣的目標,但我覺得我們確實是照這個目標在前行。
問:我們算了算,去年中國一級市場里拿到10億以上資金的公司,除了那些做大語言模型的就是你們了。你們的融資過程應該比較順利吧?
孫偉杰:其實每輪都遇到過很多困難。
我記得最早我們盤算了一下這個事情大概需要多少錢。當時我們想的是去訓練一個涵蓋宇宙所有物質的萬物模型,我們覺得至少要需要10億個數據點。一個數據點差不多10塊錢,這個成本是可以優(yōu)化的,如果我們優(yōu)化到一個數據點1塊錢,那也要10億。但當時卡里只有20多萬。
問:你們那個時候就想做預訓練模型了嗎?
孫偉杰:對,我們現在的狀態(tài)和我們一開始設想的很像?,F在做的很多東西都是19年就設想好的。當然中間有一些技術的沖擊,比如2020年的AlphaFold2,比如ChatGPT,但我們本身還是很好的利用了所有新技術的浪潮。AI for Science的科學大模型,從分子模擬先是數據庫,然后預訓練模型,這些都是在19年我們已經做好的計劃。
問:說回來,訓練科學大模型要10個億,你們一開始怎么去找錢?
孫偉杰:那個時候林峰還沒畢業(yè),不方便融資,我們就瞄準了參加比賽。
問:什么比賽?
孫偉杰:當時我們參加不少創(chuàng)業(yè)比賽拿到了獎金。其中最大的一筆獎金來自于中關村的顛覆性科技類項目,有1200萬。我們是第一屆最終入選的公司,當時花了挺大的努力,也很驚險?,F場的評委非常資深,有一些評委是從事我們相關領域的,看到了我們的價值,所以說也算是比較幸運。
決賽的最終答辯是在張林峰提前定好的婚禮的第二天,前一天我們還開著車回張林峰的老家山西去舉辦婚禮?;槎Y當天不得不喝酒,張林峰過來說:別喝太多啊,明天還要答辯呢,1200萬!當時我直接就清醒了。
問:一開始反正也沒法融資,所以先打比賽。
孫偉杰:對,獎金是分期到賬的,對應著幾個里程碑,但解決了燃眉之急。我們每個里程碑都double甚至triple完成的。
后來林峰20年初畢業(yè),回來了我就可以融資了。當時BP都寫好了,然后就碰上疫情了。那時候融資確實是摸爬滾打,林峰在線上也參與了很多次投資人的拷問,最后總算在林峰回來之前把第一輪融資搞定了。
問:第一輪拿了多少錢?
孫偉杰:1600萬。第一輪融資完算是正式起步了,疫情期間我們才找了第一個辦公室。后來林峰團隊拿了戈登貝爾獎,把分子模擬的體系從百萬直接推到億級別,再后面的故事就有更多人知道了。
問:你們的第一個核心技術是DeePMD,但做一家公司的話,這個技術要怎么商業(yè)落地呢?
張林峰:我們做的第一件事情其實用偉杰在投資機構的方法論:做行研。那個時候我們有一個不錯的開源社區(qū),社區(qū)里面拿分子模擬技術做啥的都有,那我們就決定把這些行業(yè)都研究一遍。
孫偉杰:我們對電池、材料、半導體和藥物這些領域建立的初步相對完整的認識基本上都是在那段時間。我和另一個同事很高強度的兩天看一個行業(yè),過了差不多有二三十個細分行業(yè),看這些行業(yè)里面現在可能有哪些瓶頸。
問:當時得到了哪些結論?
孫偉杰:當時研究完,發(fā)現我們最適合做的是微尺度的工業(yè)設計和仿真。
19年8月份,我們決定先做FEP(注:FEP是一種用于計算分子A轉變?yōu)榉肿覤過程中自由能變化的計算化學方法。通過模擬分子結構細微變化引起的能量差異,能預測候選藥物分子與蛋白質的結合能力,在藥物研發(fā)中有重要應用。)藥物領域已經有了一個微尺度的軟件叫薛定諤,是一家美國上市公司,而FEP是他最核心的功能,當時也只有他做得好。但我們認為通過機器學習和分子模擬,我們可以做得更好。
張林峰:我印象比較深的結論有兩個:一是很多行業(yè)不一定只有分子模擬計算是瓶頸,它有很多瓶頸,解決分子模擬then what?那這樣的行業(yè)我們就放在之后再考慮。二是我們發(fā)現哪怕是在很合適的行業(yè),要用一個新技術去解決實際問題,第一步并不是把這個新技術搞進去,而是把過去缺的課先補回來。
問:要把哪些缺的課補回來?
張林峰:學界和工業(yè)界要求的東西是不一樣的。
比如前面說的FEP是計算藥物分子與蛋白質結合自由能的變化。由分子A轉變?yōu)榉肿覤的過程可能有多種途徑,學術界只需要關注其中有限的情況并且算準了,就足以成為一篇優(yōu)秀的論文。
然而,在工業(yè)界,重點是確保轉變過程中不會出現重大問題,無論是崩潰還是中斷,都是不可接受的。因此,需要將解決方案提升到工業(yè)級,然后再結合更好的方案,這樣才能充分發(fā)揮新方案的價值。
到2020年,我們才真正把自己定位成一家微尺度工業(yè)軟件公司。現在不光是在藥物領域,我們推出了BDA電池設計自動化平臺Piloteye,這是世界上首個電池設計工業(yè)軟件系統(tǒng),而恰好電池也是我們國家的優(yōu)勢領域。
中國科技缺乏原始創(chuàng)新?一代公司有一代公司的使命
問:過去中國科技企業(yè)一直被詬病說缺乏原始創(chuàng)新,你們怎么看這個問題?
孫偉杰:我的看法是,一代人有一代人的使命,一代公司有一代公司的使命,公司的目標是要創(chuàng)造經濟價值,要有盈利。那在過去的一個歷史階段內,實現最大盈利目標的確可能不是通過原創(chuàng)技術。
國外的這些真正有非常強原創(chuàng)技術的公司,它一定是在實現了超額利潤的基礎之上,在追求下一個時代、下一個增長曲線的布局的時候,才有很多這種原創(chuàng)性的基礎研究。
問:那你認為中國現在處在一個什么樣的時代?
孫偉杰:中國已經走過了拿來主義的階段,以后拿來主義的空間會變得越來越少。中國在很多產業(yè)已經走在世界前列了,這個時代在呼喚更多有底層創(chuàng)新技術的公司出現。但是當大家開始做底層創(chuàng)新,會發(fā)現做原始創(chuàng)新的效率是低的。所以說需要先對創(chuàng)新的方法、創(chuàng)新的手段做創(chuàng)新。
AI for Science就是對研發(fā)手段、研發(fā)能力的革新,讓做底層創(chuàng)新的公司有更高投入產出比、更高效的研發(fā)方式。
問:當下最熱的大語言模型其實我們還是在跟隨國外的步伐,國內公司依然在集體追趕OpenAI。在AI for Science領域也是我們在跟隨國外嗎?
孫偉杰:不是,甚至有時候是反過來的。2017年鄂院士和林峰團隊做出DeePMD之后,Google DeepMind才完成了一套十分相近的技術框架。我們做出用AI計算電子波函數的DeePWF之后,DeepMind又跟進了相同方向的解決方案FermiNet。2020年我們發(fā)布DeePKS,2021年DeepMind又發(fā)布了對標框架DM21。
當然,在2020年DeepMind做出了AlphaFold-2,改變了整個結構生物學領域。我們在21年成功復現了AlphaFold-2,在國內是第一個。
我可以說如果當時不是鄂老師一直在推AI for Science,我們沒有創(chuàng)立深勢科技,現在很有可能這個領域也是國外完全主導的。
問:你們的競爭者主要都有誰?
孫偉杰:主要是DeepMind和微軟等。微軟設置了一個全球四中心的AI for Science center。英偉達更多的聚焦在宏觀、流體、固體的這些方向。國外的很多科研機構、很多高校包括美國能源部也都在這個領域有布局。
創(chuàng)業(yè)公司中比較有名的有SandboxAQ,他的創(chuàng)始人是谷歌的聯(lián)合創(chuàng)始人謝爾蓋·布林。他們也是用AI學習量子力學的方法做藥物設計等方向,第一個應用的是FEP,聽起來有沒有很熟悉?跟我們的路徑一模一樣。但是它們第一輪公開市場的融資單筆已經拿到了5億美金。
所以我說我們選了一個重要的方向,但是把自己丟進了一個地獄模式的難度里。
問:聽起來確實很難,現在這個領域的人才爭奪是不是也很激烈?
孫偉杰:我們近?年時間經歷的“十動然拒”(十分感動,然后拒絕)?過去整個人生的都多。我們的海外的競爭對手每年是以數十億美金為計的在投入這個領域,這個時候你就不會覺得我們融資順了,我們還是深知自己還有很多地方可以做得更好。
問:深勢科技現在有多少人?
孫偉杰:我司統(tǒng)計人數有兩個口徑,一個是全職員工,一個是總員工。
問:差異是?
孫偉杰:總員工接近300人,全職220左右,剩下的其實是實習生。
說到實習生,我們在融資的時候曾經有過一個非?!捌婀帧钡臈l款。在A輪融資的時候,領投方給我們的一個條件是,在完成本輪融資后的18個月內將公司的實習生的人數的比例降低到50%以下,說“你們公司實習生太多了”。
問:為什么會有這么多實習生?
孫偉杰:招不著全職的呀。AI for Science是個很新的領域,要求很強的跨學科能力,你既要懂Science,還要懂AI,我們根本從市場上招不到,最后決定從頭去培養(yǎng)。全球可能最優(yōu)秀的博士生有很多都在海外,但是最優(yōu)秀的本科生都在國內,我們就從本科生大一大二開始培養(yǎng)。
問:實習生有多大比例最后留下來?
孫偉杰:那比例還是挺高的,也舍不得他們走。以前看到硅谷創(chuàng)業(yè)的那些故事,有很多本科就愛各種折騰的年輕人,深勢就是這種人的天堂。
問:林峰怎么看這個領域的人才問題?
張林峰:人才其實不止競爭一個視角。我覺得更關鍵的還得是使命感和tech vision。我們要找的人,不是說希望通過AI的能力刷了個榜,或者發(fā)了篇大paper,或者說在一個技術杠桿沒那么強的地方去做一些模式上的事情。我們希望吸引這些既懂AI又懂Science的人來,一起做一件雖然有挑戰(zhàn),但是也很有價值,有清晰實現路徑的事情。
并且,“地獄模式”還有一個好處是沒有過早的分工,我們可以更加放開想象力去做。我內部經常說,“如果你的反應不是退縮、而是激動”,那就應該一起做最偉大的事情。
提高原子使用率,科學大模型已經走到了GPT-2
問:說說你們的科學大模型吧,偉杰前面說希望做一個萬物模型,這是類似于大語言模型中的GPT嗎?它進展到什么程度了?
張林峰:從技術上發(fā)展的話,我們覺得它跟GPT這樣的大語言模型的相差的周期也就在一個小的技術周期內,也就是在三五年這樣的周期。
問:這個對比結論是怎么得出來的?
張林峰:我們看AI的發(fā)展,在2011年的時候逐漸地證明了神經網絡可以解決很多問題。2014到15年AlphaGo這種現象級應用出現之后,行業(yè)逐漸開始進入到技術基礎設施建設期,這時候出現了TensorFlow、PyTorch這樣的框架。18年出現了預訓練模型,20年有了GPT-3。去年ChatGPT之后就進入到了應用的涌現期。
AI for Science差不多就是晚一個周期,15、16年那個時候人們開始用AI解決一些科學問題,包括AlphaFold最開始出現也是在那時候。然后到了20年有兩個比較關鍵的點,一個是DeePMD拿到了戈登貝爾獎,另一個是AlphaFold2出世,證明AI for Science毫無疑問是可以做出非常牛逼的應用的,行業(yè)進入了技術設施建設期?,F在該有的基礎設施基本也都出現了。
而且我覺得AI for Science由于借鑒了很多過去大模型發(fā)展的路徑,它的速度可能還會比大語言模型要更快一些。
問:這么一比較感覺確實很像。那你們現在找到了AI for Science領域的“GPT”模型架構嗎?
張林峰:我覺得我們找到了GPT,甚至說AI for Science領域的GPT已經處在GPT2的階段了,對應的是我們現在的面向物理世界的 DPA、面向化學世界的 Uni-Mol、面向生物世界的 Uni-RNA,還有其他,這些都是“微觀大模型”的代表,都包含在我們的深勢宇知?大模型體系中。接下來的問題就是Scale,然后再去期待這個上面怎么樣找到更多的應用。
問:這里的Scale,和大語言模型中的Scailling law是一個含義嗎?
張林峰:Scale這塊是一個值得討論的點,技術其實不一樣,語言體系是自回歸的,它天然有一個Scale的特性。
自然法則本來是Scale的,但我們有點像反過來,是anti-scale,這就是為什么要搞到原子級,因為你是scale back然后再重新reconstruct的過程,這個點是不一樣的。
另外一個就是說科學問題的結構更豐富,很多時候不是一個單模態(tài)的擴展,而是這個組合型的scale,這也跟大模型有一些不同。當然訓練模型的邏輯是一致的,有大規(guī)模的數據、大規(guī)模的訓練模型實現更好的遷移創(chuàng)造和生成。
問:你們是怎么看AGI的?AGI和AI for Science是什么關系?
張林峰:與其談我的理解還是不如談大家覺得是啥,看起來大家覺得AGI是一個在計算機上的具有智能的一個系統(tǒng)。AGI在數字世界實現了閉環(huán),更多的是一個具有通識的一個智能體。
而對于AI for Science來說是利用AI去拓寬人們的認知的邊界,拓寬我們的底層構建能力,去重塑整個世界。到最后其實我們會發(fā)現AGI最后的邊界還是物理,無論是物理規(guī)律還是物理的實體,在這一輪數字世界的閉環(huán)的基礎上,下一步可能還是要跟物理世界產生一個有效的連接,這也是AGI和AI for Science產生連接的地方。
問:所以AI for Science其實是精確的模擬了物理世界,這樣數字世界的智能體能更好地跟這個精確模擬的物理世界進行一些交互?
孫偉杰:先認知后模擬。AI學習虛擬世界的文字、圖片的時候也是先認知它,然后才能生成想要的內容。那么AI學習了物質世界的底層的規(guī)律后,它就是理解了世界底層的原理,能生成我們想要的物質。所以我覺得AI for Science是掌握了物質的密碼。以后想要什么物質可以用AI來幫我們設計、幫我們生成。
AGI不可能只認識數字世界的東西,也必須得理解我們的客觀物理世界。所以,AI for Science也一定是通用人工智能其中的一部分。
問:如果給你們一個立馬實現某一個愿望的機會,你們會想要實現一個什么樣的愿望?
孫偉杰:我希望看到原子尺度的打印,你要啥打啥。
問:什么是原子尺度的打印?
張林峰:就是你每一個原子放在哪都是能打印出來的。其實到最后最大的瓶頸還是制造,原子尺度的活字印刷術。
孫偉杰:原子尺度的活字印刷術,這個是終極業(yè)務,這個如果實現的話這是上帝的業(yè)務。
問:如果這是一個終極目標,深勢科技在其中要扮演什么角色?
張林峰:深勢科技希望形成一個技術生態(tài)體系,來幫助人們做微尺度的科學研究和工業(yè)研發(fā)。從底層來說,其實是幫大家如何提高原子的利用率。給定這樣的一個路徑,我們就可以看到一些地方需要更加深入極致的產品打磨,另外一些地方需要非常開放的大規(guī)模反饋迭代。
目前,我們已經有專注軟件的DeepModeling社區(qū)、提供“教學研用”一體化服務的玻爾科研空間站以及涉及數據模型工作流的AIS Sqaure。有了這些基礎設施,科研工作者就能通過新的方式集結和協(xié)作起來,我們今年在推出DPA-2之后,也面向社區(qū)發(fā)起了OpenLAM大原子模型計劃。
問:大原子模型?對標大語言模型嗎?
張林峰:對,我們希望推動的技術不是比特世界的 Foundation Model,而是原子世界的 Foundation Model,并且是通過開源開放的方式來推動。
開源精神其實和我們的文化是一致的,我們想要推動一個向善的、真正做好事的技術體系,并且在生態(tài)共建的過程中持續(xù)成就伙伴。我們給OpenLAM起了個口號叫“征服元素周期表”。我們希望通過OpenLAM進一步打破數據壁壘,讓研究人員可以一鍵獲取任意元素組合體系的勢函數,而不再需要費力生成大量新的第一性原理計算數據。
另一方面,我們一直說重構,發(fā)起這樣一個大規(guī)模的開源協(xié)作本身也是“重構科研協(xié)作”的一個實踐,鄂老師一直強調科研未來要走向“安卓模式”,我們認為未來的平臺化科研和工業(yè)研發(fā)應該就是這個樣子。