亚洲?Ⅴ无码日韩?V无码网站,久久精品A亚洲国产V高清不卡,国产好痛疼轻点好爽的视频

記者｜冉翀伍洋宇
編輯｜劉方遠(yuǎn)

2017年夏天，一趟從北京飛往紐約的國際航班上，張林峰正在反復(fù)比對兩組幾乎一模一樣的數(shù)字，以確認(rèn)它們真的如此接近。

這兩組數(shù)字都代表64個(gè)水分子在10皮秒內(nèi)（10的-11次方秒，比一瞬間還短暫）模擬運(yùn)動(dòng)的計(jì)算結(jié)果。其中一組是在1985年用量子力學(xué)原理算出來的，消耗了2億核時(shí)，即便在算力發(fā)達(dá)的今天，也需要大約2000萬的計(jì)算費(fèi)用才能實(shí)現(xiàn)。另一組就來自張林峰手里這臺(tái)筆記本，上面正運(yùn)行著他與合作者完成的某套算法，因?yàn)閺纳巷w機(jī)就插著電，大概只消耗了一些航空公司的電費(fèi)——這可能嗎？他甚至覺得自己抄錯(cuò)了。

下飛機(jī)之后，張林峰立刻寫了一封郵件，將模擬的結(jié)果發(fā)送給自己在普林斯頓大學(xué)的導(dǎo)師、中國科學(xué)院院士鄂維南。來自遠(yuǎn)方的回復(fù)簡潔而有力：“Too good to be true（好得難以置信）。”

人類團(tuán)隊(duì)寫的AI算法讀懂了微觀世界的某種客觀規(guī)律——這像是一顆投向分子模擬領(lǐng)域的普羅米修斯火種，很多事情將就此被永遠(yuǎn)改變，但當(dāng)時(shí)沒人清晰預(yù)見。

再次回國后，一場老友見面，張林峰將飛機(jī)上發(fā)生的故事講給了自己的北大元培校友，一邊從事科技方向投資一邊尋找合適創(chuàng)業(yè)項(xiàng)目的孫偉杰。

孫偉杰關(guān)注過市面上絕大多數(shù)AI項(xiàng)目，早就發(fā)現(xiàn)這個(gè)行業(yè)的共性問題是缺乏Golden Standard（黃金準(zhǔn)則）來衡量成果。張林峰帶來的故事是一種認(rèn)知沖擊——如果AI的核心是發(fā)現(xiàn)并學(xué)習(xí)某種規(guī)律，其價(jià)值等同于它所學(xué)到的規(guī)律價(jià)值，那當(dāng)今世界還有什么規(guī)律的價(jià)值高于科學(xué)規(guī)律？

用AI來學(xué)習(xí)和發(fā)現(xiàn)科學(xué)規(guī)律，沒錯(cuò)，他們應(yīng)該做這樣一套東西——達(dá)成這一共識(shí)之后，張林峰和孫偉杰開始籌劃共同創(chuàng)業(yè)，他們?yōu)樾鹿救∶吧顒菘萍肌?，致力于用人工智能深度學(xué)習(xí)解決微觀尺度的問題。

時(shí)間快進(jìn)到2024年GTC大會(huì)，英偉達(dá)CEO黃仁勛在演講中談到了AI領(lǐng)域的三個(gè)關(guān)鍵方向，LLM（大語言模型），具身智能，以及AI for Science（科學(xué)智能）。

在前兩個(gè)領(lǐng)域，OpenAI和Tesla兩家美國公司已經(jīng)形成鮮明主導(dǎo)地位，全球范圍內(nèi)的競爭者均對其亦步亦趨。鮮有人知的是，第三個(gè)領(lǐng)域——AI for Science——早在七年前就在鄂維南院士的推動(dòng)下在東方世界定下根基。

更加反直覺的在于，過去幾年來，AI for Science領(lǐng)域聲名在外的兩家科技巨頭Google DeepMind和微軟并未形成實(shí)質(zhì)上的引領(lǐng)地位，而是一直在與那個(gè)年輕東方團(tuán)隊(duì)相互追趕。

2017年，在鄂維南院士的帶領(lǐng)下，張林峰與團(tuán)隊(duì)合作發(fā)布DeePMD，緊接著Google DeepMind完成一套十分相近的技術(shù)框架；隨后，張林峰團(tuán)隊(duì)做出了DeePWF，一種電子波函數(shù)的AI計(jì)算方法，次年，DeepMind發(fā)布相同方向的解決方案FermiNet；2020年，張林峰團(tuán)隊(duì)再度發(fā)布DeePKS，而DeepMind的對標(biāo)框架DM21在2021年誕生。

2020年底，在鄂維南、張林峰等人因DeePMD相關(guān)工作獲得有高性能計(jì)算領(lǐng)域“諾貝爾獎(jiǎng)”之稱的戈登貝爾獎(jiǎng)時(shí)，DeepMind AlphaFold-2的工作改變了整個(gè)結(jié)構(gòu)生物學(xué)領(lǐng)域。而到了2021年底，深勢科技成為了全球首家成功復(fù)現(xiàn)AlphaFold-2并完全開源訓(xùn)練代碼的機(jī)構(gòu)。

大概只因?yàn)锳I for Science才剛剛起步，人們無從發(fā)現(xiàn)這個(gè)前沿科技領(lǐng)域正在上演一場激烈的全球競逐。

AI for Science有多重要？任正非曾指出中國的基礎(chǔ)科學(xué)薄弱，在最基礎(chǔ)的科研和工業(yè)問題上被“卡著脖子”。中國實(shí)體產(chǎn)業(yè)已經(jīng)在新能源汽車、光伏等領(lǐng)域誕生多個(gè)全球第一，但回到電池研發(fā)層面，仍在基礎(chǔ)科學(xué)問題上破繭無門。而大量重要科學(xué)問題的終極答案都指向微觀世界。

事實(shí)上，AI for Science的重要性已經(jīng)與大國競爭的新局面掛鉤。大洋彼岸，在美國白宮一份行政命令要求下，PCAST（美國總統(tǒng)科技顧問委員會(huì)）近日撰寫了題為《加速研究：利用人工智能應(yīng)對全球挑戰(zhàn)》的報(bào)告。其中，由知名數(shù)學(xué)家陶哲軒領(lǐng)銜的一份技術(shù)報(bào)告概述了AI for Science的潛在影響。

報(bào)告指出，AI將從根本上改變?nèi)祟愡M(jìn)行科學(xué)研究的方式。其闡述了AI在材料、半導(dǎo)體設(shè)計(jì)、氣候、物理、生命科學(xué)等領(lǐng)域已經(jīng)做出的改變，并高度總結(jié)了AI如何通過提供研究工具來加速科學(xué)發(fā)現(xiàn)和技術(shù)進(jìn)步，從而革命性地改變?nèi)祟惤鉀Q最緊迫問題的能力。

這恰恰是深勢科技決心投入并試圖引領(lǐng)中國產(chǎn)業(yè)去突破的問題。成立近六年時(shí)間，深勢科技已經(jīng)把當(dāng)初那顆火種衍生為一套完整的產(chǎn)品框架。用多尺度建模、機(jī)器學(xué)習(xí)和高性能計(jì)算去解決微觀尺度下的工業(yè)設(shè)計(jì)難題。這件事天然地適合藥企、材料研發(fā)和科研機(jī)構(gòu)，是真正有可能四兩撥千斤的魔法工具。

但這趟旅程并不完全是一個(gè)天之驕子的爽文故事。因?yàn)槿瞬烹y尋，這家AI for Science領(lǐng)域的“中國OpenAI”在創(chuàng)業(yè)之初甚至有一半以上的員工是實(shí)習(xí)生。深勢科技在天使輪拿到了1600萬人民幣融資，聽上去不少，但去年由谷歌孵化，并由谷歌創(chuàng)始人掛帥的Sandbox AQ首輪單筆公開融資就已達(dá)到5億美金。孫偉杰說，當(dāng)他看到海外對手可能是以每年數(shù)十億美?為計(jì)在投?的時(shí)候，他知道自己還得做到更好。

作為深勢科技創(chuàng)始人兼首席科學(xué)家，張林峰判斷，AI for Science領(lǐng)域的科學(xué)大模型正處在GPT-2階段，這意味著涌現(xiàn)時(shí)刻已經(jīng)不會(huì)太遠(yuǎn)。他對未來的終局想象是無論半導(dǎo)體工業(yè)、電池、合金，還是藥物，都能從原子開始生產(chǎn)制造。一個(gè)形象的比喻大概就是，原?尺度下的“活字印刷術(shù)”。

而作為公司CEO，孫偉杰說，他們的創(chuàng)業(yè)出發(fā)點(diǎn)是做一家真正源自中國、引領(lǐng)世界的科技公司。他認(rèn)為一代公司有一代公司的使命，中國已經(jīng)走過了拿來主義的階段，這個(gè)時(shí)代在呼喚更多有底層創(chuàng)新技術(shù)的公司。

以下是界面新聞對孫偉杰、張林峰的采訪實(shí)錄（略作編輯）：

打開微尺度的大門：看到光照不進(jìn)的地方

問：你們的官網(wǎng)一打開就寫著"分子模擬未來"，為什么要用這句話？什么是分子模擬？

孫偉杰：分子模擬就是基于物理規(guī)律模擬原子、分子這些微觀粒子的排布和運(yùn)動(dòng)，就好像我們給分子的運(yùn)動(dòng)拍了一個(gè)視頻。我們團(tuán)隊(duì)的第一個(gè)突破就是在AI助力分子模擬領(lǐng)域，把分子模擬的時(shí)間和空間規(guī)模提升了上萬倍。這樣我們就能用分子模擬來研究很多面向未來的新分子、新材料了。

我們覺得在分子模擬里，可以發(fā)現(xiàn)人類的未來，所以就把公司口號(hào)定成了這句話。

問：為什么要模擬，而不是直接觀察呢？

孫偉杰：因?yàn)樵拥某叽缟踔列∮诳梢姽獾牟ㄩL了。這意味著我們無法用可見光看到它，必須得借助一些非常昂貴的儀器，像電子顯微鏡，而這些儀器效率又非常低。

另一個(gè)問題則是它動(dòng)的太快了。對于常見的物質(zhì)來說，原子間振動(dòng)的常用時(shí)間尺度是是十的負(fù)十五次方秒，也就是百萬億分之一秒。剛才過去的一秒鐘，它動(dòng)了一百萬億次。

所以是真的“看不到”它怎么動(dòng)，只能模擬。

問：看清楚分子原子是怎么運(yùn)動(dòng)的很重要嗎？

孫偉杰：當(dāng)然，現(xiàn)在的重要科學(xué)問題其實(shí)大部分都是微觀問題。

比如生命和非生命的界限到底在哪？一個(gè)細(xì)胞可以是一個(gè)生命，但是細(xì)胞也是由無生命的原子構(gòu)成的，那為什么它會(huì)變成一個(gè)生命體呢？如果我們從最小的地方一點(diǎn)點(diǎn)開始模擬，一個(gè)原子，兩個(gè)原子，三個(gè)原子，直到組成蛋白質(zhì)，組成線粒體，一點(diǎn)點(diǎn)往上加，加到什么樣的時(shí)候，它突然就有生命了？這是人類的一個(gè)終極問題，生命是“涌現(xiàn)的"，你怎么知道那個(gè)界限在哪？

再比如說，中國目前在電動(dòng)車和電池行業(yè)已經(jīng)世界領(lǐng)先，但是我們?nèi)匀徊煌耆私怃囍У纳L原因。鋰枝晶是一種會(huì)讓鋰電池失效的機(jī)制，它會(huì)在負(fù)極界面和電解質(zhì)界面上形成，這個(gè)過程涉及至少數(shù)十萬個(gè)原子在微秒甚至毫秒的時(shí)間尺度內(nèi)發(fā)生變化。

問：模擬分子很難嗎，以前是怎么解決這些問題的？

孫偉杰：主要有兩種方法，第一種是用第一性原理，基于量子力學(xué)來算。它的好處是可以算得準(zhǔn)，壞處就是算得非常慢，而且它只能算個(gè)幾十個(gè)幾百個(gè)原子。

靠量子力學(xué)這樣的算法，隨原子數(shù)量的上升，計(jì)算量是三次方指數(shù)上升。一百個(gè)原子和一萬個(gè)原子，差的原子數(shù)量是一百倍，但是差的計(jì)算量是一百萬倍。這就導(dǎo)致我們想要算一個(gè)真正感興趣的問題，如果里面有幾十萬個(gè)原子，可能把全球的算力加起來都不夠用，這個(gè)叫做維數(shù)災(zāi)難。

第二種方法就是經(jīng)驗(yàn)力場，靠歸納。我就簡單地把原子間的力抽象成一個(gè)化學(xué)鍵，像個(gè)皮筋一樣。它不那么準(zhǔn)，但至少能算，在相當(dāng)長的歷史階段里面也解決了很多問題。但一旦面臨精度很高的體系，就不管用了。

問：所以說要算得準(zhǔn)就算得慢，要算得快就算得不準(zhǔn)。

張林峰：對，算得快的就不準(zhǔn)，或者使用范圍非常受限。而這是我們用AI能解決的問題，讓精度和效率可以兼得。

問：那算到多大規(guī)模的模擬才算是真正完成了任務(wù)呢？

張林峰：要到我們用光學(xué)顯微鏡能夠觀察到運(yùn)動(dòng)變化的這個(gè)尺度。對于生物學(xué)來說，可能是到一個(gè)細(xì)胞層面，我們模擬出來的這個(gè)細(xì)胞的運(yùn)動(dòng)和變化和我們光學(xué)上觀察的是一致的，我覺得這個(gè)時(shí)候分子模擬的任務(wù)首先從規(guī)模上解決了。

在分子模擬領(lǐng)域有三個(gè)終極問題：第一是否所有的元素和構(gòu)型，第二就是模擬的規(guī)模，第三就是模擬的時(shí)間尺度。在這三個(gè)問題上其實(shí)我們基本上未來的路已經(jīng)比較清楚了，未來兩三年之內(nèi)應(yīng)該這個(gè)領(lǐng)域應(yīng)該會(huì)被顛覆。

問：達(dá)到目標(biāo)對于業(yè)界的影響會(huì)是什么，對于人們的日常生活又會(huì)有什么影響？

張林峰：比如可以幫助電池企業(yè)發(fā)現(xiàn)讓電池續(xù)航更高的方法，幫助藥物公司研發(fā)出更好的藥物。

我們研究新材料，比如說一塊橡皮泥，為什么它有這種彈性形變？現(xiàn)在是沒有原理能夠解釋的。我們只是觀察到了，它一捏可以這樣，但我們不知道為什么會(huì)這樣。

而當(dāng)我們有了分子模擬，就有可能通過模擬的方式搞明白背后的原理，這樣在我們需要有彈性形變的材料時(shí)可以嘗試把這個(gè)原理使用上去。

中國團(tuán)隊(duì)扛起AI for Science的大旗

問：你們是怎么發(fā)現(xiàn)AI可以解決分子模擬效率和精度不可兼得的問題的？

張林峰：主要是因?yàn)槲业膬晌粚?dǎo)師。其中一位是鄂維南老師，他是應(yīng)用數(shù)學(xué)家。鄂老師給我最核心的insight是機(jī)器學(xué)習(xí)能解決維數(shù)災(zāi)難問題。

我本科畢業(yè)剛剛?cè)テ樟炙诡D的時(shí)候，其實(shí)做了非常多的純理論的探索，量子計(jì)算、量子場論等等。在找科研方向的時(shí)候有一句話是共振程度最高的，是楊振寧說的"the party is over"，找不到令人振奮的方向了。（注：楊振寧在1980年就認(rèn)為，高能物理的黃金時(shí)代已經(jīng)過去，未來的發(fā)展將不會(huì)像過去那樣頻繁地出現(xiàn)重大發(fā)現(xiàn)和理論突破。）

那時(shí)候鄂老師直接勸我不要再繼續(xù)上課了，盡管普林斯頓有很多菲爾茲獎(jiǎng)、諾貝爾獎(jiǎng)得主的課程，重學(xué)一遍也挺開心的。但我理解他的意思是：上課只會(huì)滿足你的虛榮心，你80%都會(huì)了然后上去再會(huì)一點(diǎn)，并不是在定義重要問題。

問：不上課干啥？

張林峰：鄂老師勸我關(guān)注機(jī)器學(xué)習(xí)?？茖W(xué)界大量的問題，無論是微觀的還是宏觀的，很多都卡在了所謂的維數(shù)災(zāi)難。而機(jī)器學(xué)習(xí)在數(shù)學(xué)上，恰好給我們提供了高維復(fù)雜函數(shù)的表示能力。

比如AI處理圖像，以一個(gè)32乘32像素的圖像為例，算上RGB的三個(gè)值，那有3000多個(gè)數(shù)字作為輸入，然后輸出的畫面就是貓或者狗或者別的。這個(gè)事兒我們現(xiàn)在去看好像挺自然，但事實(shí)上從數(shù)學(xué)建模的角度來講，是非常反直覺的，至少是反一代數(shù)值算法科學(xué)家的經(jīng)驗(yàn)和直觀的。

問：其實(shí)非計(jì)算機(jī)領(lǐng)域的數(shù)學(xué)家，反而可能對AI有更本質(zhì)的理解？

張林峰：每個(gè)領(lǐng)域的人對AI的認(rèn)知是不同的，正是因?yàn)檫@些差異，讓我們產(chǎn)生了碰撞，去探索AI為科學(xué)計(jì)算所帶來的新可能。

世界上本來就不存在學(xué)科，以前分學(xué)科是為了教育方便。過去因?yàn)榉椒芰Φ南拗?，各個(gè)尺度下面的不同場景已經(jīng)被四分五裂到不同的學(xué)科。而現(xiàn)在我們有了一個(gè)統(tǒng)一的工具，也就是AI，能表示所有的復(fù)雜高維函數(shù)，那我們可以帶著一個(gè)全新的視角把所有的東西都重新審視一遍。

問：話說回來，另一位導(dǎo)師是誰，他又給了你什么啟發(fā)？

張林峰：另一位導(dǎo)師Roberto Car是計(jì)算化學(xué)家，是第一性原理分子模擬的祖師爺，而第一性原理分子模擬恰好受限于維數(shù)災(zāi)難。比如他在2016年用超算做了一個(gè)很簡單的模擬，模擬64個(gè)水分子，運(yùn)動(dòng)10皮秒（1皮秒是10的-12次方秒），這個(gè)模擬用了兩億個(gè)核時(shí)。即使放到今天成本可能也要一兩千萬人民幣。

而如果我們把這個(gè)東西拿AI一學(xué)，然后用來做模擬，模擬的分子數(shù)大10倍，時(shí)間長10倍，用你這個(gè)筆記本跑一天就可以了。

64個(gè)水分子的模擬，我是在去美國的飛機(jī)上跑通的。當(dāng)時(shí)在飛機(jī)上用筆記本插著電跑，跑完之后出來的結(jié)果跟Roberto Car的模擬互相重疊，我甚至以為抄錯(cuò)數(shù)據(jù)了。下飛機(jī)以后我發(fā)給鄂老師寫了一個(gè)郵件說了這件事情，然后他只回了一句話："too good to be true。"

問：這個(gè)就是后來拿了戈登貝爾獎(jiǎng)的的DeePMD算法嗎？聽起來對于分子模擬來說是一個(gè)劃時(shí)代的突破，一下就能做很多以前不能做的事情。回到那個(gè)時(shí)間點(diǎn)，學(xué)界的反應(yīng)是什么？

張林峰：對，這套算法后來發(fā)展成了DeePMD。我們相當(dāng)于是提出了一個(gè)新的范式，但AI for Science在那個(gè)時(shí)候并沒有一個(gè)明確的Benchmark。好在以前很多做量子力學(xué)計(jì)算的人有數(shù)據(jù)，因?yàn)橛?jì)算的復(fù)雜度高，一算就要三個(gè)月，他們就在超算那等著。等待的時(shí)候他們發(fā)現(xiàn)DeePMD這方法挺好安裝的可以試試，一試發(fā)現(xiàn)一天就能跑很多數(shù)據(jù)。

同時(shí)我們還做了一個(gè)開源社區(qū)DeepModelling，很快就有來自非常多不同領(lǐng)域，半導(dǎo)體、電池、合金材料、天文地理的科學(xué)家都拿AI for Science的工具做了很多應(yīng)用。在這個(gè)基礎(chǔ)上，它慢慢地形成了一個(gè)比較廣泛的影響。

也是從18年開始，我們確定了分子模擬能真正打開微觀工業(yè)研發(fā)的大門，而AI會(huì)推動(dòng)整個(gè)工業(yè)研發(fā)新范式的變革。

創(chuàng)業(yè)：10億做一個(gè)科學(xué)大模型，但當(dāng)時(shí)兜里只有20萬

問：那個(gè)時(shí)候偉杰還在做投資，林峰博士還沒畢業(yè)，為什么你們會(huì)決定要一起出來創(chuàng)業(yè)？

孫偉杰：我做投資就是為了創(chuàng)業(yè)，其實(shí)一直在找方向。

當(dāng)時(shí)我看了很多AI相關(guān)的方向。我最早對AI的認(rèn)知是：AI可以從大量數(shù)據(jù)里面找到背后的規(guī)律，所以說AI的價(jià)值是由它學(xué)到的規(guī)律的價(jià)值決定的。學(xué)到的規(guī)律越有價(jià)值，它就能解決越多問題。

林峰的工作讓我意識(shí)到，世界上最高價(jià)值的規(guī)律不就是科學(xué)家研究出來的這些科學(xué)規(guī)律嗎？它能解釋世界上最復(fù)雜最多的現(xiàn)象。能把這么高價(jià)值的科學(xué)規(guī)律學(xué)會(huì)的話，那這個(gè)AI一定是最有價(jià)值的。

問：林峰呢？

張林峰：我在學(xué)術(shù)方面本來就很迷茫，迷茫在于雖然我特別想做一個(gè)科學(xué)家，但不知道選擇怎樣的方向探索，并且很長時(shí)間以來“理想中學(xué)術(shù)的樣子”和“我看到很多從事學(xué)術(shù)研究的人實(shí)際展現(xiàn)的樣子”有些不一樣。幸運(yùn)的是在普林斯頓又找到了AI for Science這條路。

問：所以你想做什么樣的科學(xué)家？

張林峰：我希望自己還是回歸好奇心的初心，解決我感興趣的問題，定義有意義的問題，然后去解決有意義的問題。創(chuàng)業(yè)其實(shí)也是因?yàn)榭吹搅诉@樣的問題，可以在我們的認(rèn)知范圍內(nèi)解決。

問：決定創(chuàng)業(yè)之后，你們有沒有給公司設(shè)立一個(gè)愿景？

孫偉杰：要做一家源自中國，引領(lǐng)世界的科技公司。

后來發(fā)現(xiàn)這個(gè)牛吹出去也還挺難實(shí)現(xiàn)的，源自中國、引領(lǐng)世界、科技公司這三點(diǎn)可能是每一個(gè)拆出來都還行，合在一起就發(fā)現(xiàn)這樣的公司很少。我們不敢定義自己已經(jīng)實(shí)現(xiàn)了這樣的目標(biāo)，但我覺得我們確實(shí)是照這個(gè)目標(biāo)在前行。

問：我們算了算，去年中國一級市場里拿到10億以上資金的公司，除了那些做大語言模型的就是你們了。你們的融資過程應(yīng)該比較順利吧？

孫偉杰：其實(shí)每輪都遇到過很多困難。

我記得最早我們盤算了一下這個(gè)事情大概需要多少錢。當(dāng)時(shí)我們想的是去訓(xùn)練一個(gè)涵蓋宇宙所有物質(zhì)的萬物模型，我們覺得至少要需要10億個(gè)數(shù)據(jù)點(diǎn)。一個(gè)數(shù)據(jù)點(diǎn)差不多10塊錢，這個(gè)成本是可以優(yōu)化的，如果我們優(yōu)化到一個(gè)數(shù)據(jù)點(diǎn)1塊錢，那也要10億。但當(dāng)時(shí)卡里只有20多萬。

問：你們那個(gè)時(shí)候就想做預(yù)訓(xùn)練模型了嗎？

孫偉杰：對，我們現(xiàn)在的狀態(tài)和我們一開始設(shè)想的很像。現(xiàn)在做的很多東西都是19年就設(shè)想好的。當(dāng)然中間有一些技術(shù)的沖擊，比如2020年的AlphaFold2，比如ChatGPT，但我們本身還是很好的利用了所有新技術(shù)的浪潮。AI for Science的科學(xué)大模型，從分子模擬先是數(shù)據(jù)庫，然后預(yù)訓(xùn)練模型，這些都是在19年我們已經(jīng)做好的計(jì)劃。

問：說回來，訓(xùn)練科學(xué)大模型要10個(gè)億，你們一開始怎么去找錢？

孫偉杰：那個(gè)時(shí)候林峰還沒畢業(yè)，不方便融資，我們就瞄準(zhǔn)了參加比賽。

問：什么比賽？

孫偉杰：當(dāng)時(shí)我們參加不少創(chuàng)業(yè)比賽拿到了獎(jiǎng)金。其中最大的一筆獎(jiǎng)金來自于中關(guān)村的顛覆性科技類項(xiàng)目，有1200萬。我們是第一屆最終入選的公司，當(dāng)時(shí)花了挺大的努力，也很驚險(xiǎn)。現(xiàn)場的評委非常資深，有一些評委是從事我們相關(guān)領(lǐng)域的，看到了我們的價(jià)值，所以說也算是比較幸運(yùn)。

決賽的最終答辯是在張林峰提前定好的婚禮的第二天，前一天我們還開著車回張林峰的老家山西去舉辦婚禮?；槎Y當(dāng)天不得不喝酒，張林峰過來說：別喝太多啊，明天還要答辯呢，1200萬！當(dāng)時(shí)我直接就清醒了。

問：一開始反正也沒法融資，所以先打比賽。

孫偉杰：對，獎(jiǎng)金是分期到賬的，對應(yīng)著幾個(gè)里程碑，但解決了燃眉之急。我們每個(gè)里程碑都double甚至triple完成的。

后來林峰20年初畢業(yè)，回來了我就可以融資了。當(dāng)時(shí)BP都寫好了，然后就碰上疫情了。那時(shí)候融資確實(shí)是摸爬滾打，林峰在線上也參與了很多次投資人的拷問，最后總算在林峰回來之前把第一輪融資搞定了。

問：第一輪拿了多少錢？

孫偉杰：1600萬。第一輪融資完算是正式起步了，疫情期間我們才找了第一個(gè)辦公室。后來林峰團(tuán)隊(duì)拿了戈登貝爾獎(jiǎng)，把分子模擬的體系從百萬直接推到億級別，再后面的故事就有更多人知道了。

問：你們的第一個(gè)核心技術(shù)是DeePMD，但做一家公司的話，這個(gè)技術(shù)要怎么商業(yè)落地呢？

張林峰：我們做的第一件事情其實(shí)用偉杰在投資機(jī)構(gòu)的方法論：做行研。那個(gè)時(shí)候我們有一個(gè)不錯(cuò)的開源社區(qū)，社區(qū)里面拿分子模擬技術(shù)做啥的都有，那我們就決定把這些行業(yè)都研究一遍。

孫偉杰：我們對電池、材料、半導(dǎo)體和藥物這些領(lǐng)域建立的初步相對完整的認(rèn)識(shí)基本上都是在那段時(shí)間。我和另一個(gè)同事很高強(qiáng)度的兩天看一個(gè)行業(yè)，過了差不多有二三十個(gè)細(xì)分行業(yè)，看這些行業(yè)里面現(xiàn)在可能有哪些瓶頸。

問：當(dāng)時(shí)得到了哪些結(jié)論？

孫偉杰：當(dāng)時(shí)研究完，發(fā)現(xiàn)我們最適合做的是微尺度的工業(yè)設(shè)計(jì)和仿真。

19年8月份，我們決定先做FEP（注：FEP是一種用于計(jì)算分子A轉(zhuǎn)變?yōu)榉肿覤過程中自由能變化的計(jì)算化學(xué)方法。通過模擬分子結(jié)構(gòu)細(xì)微變化引起的能量差異，能預(yù)測候選藥物分子與蛋白質(zhì)的結(jié)合能力,在藥物研發(fā)中有重要應(yīng)用。）藥物領(lǐng)域已經(jīng)有了一個(gè)微尺度的軟件叫薛定諤，是一家美國上市公司，而FEP是他最核心的功能，當(dāng)時(shí)也只有他做得好。但我們認(rèn)為通過機(jī)器學(xué)習(xí)和分子模擬，我們可以做得更好。

張林峰：我印象比較深的結(jié)論有兩個(gè)：一是很多行業(yè)不一定只有分子模擬計(jì)算是瓶頸，它有很多瓶頸，解決分子模擬then what？那這樣的行業(yè)我們就放在之后再考慮。二是我們發(fā)現(xiàn)哪怕是在很合適的行業(yè)，要用一個(gè)新技術(shù)去解決實(shí)際問題，第一步并不是把這個(gè)新技術(shù)搞進(jìn)去，而是把過去缺的課先補(bǔ)回來。

問：要把哪些缺的課補(bǔ)回來？

張林峰：學(xué)界和工業(yè)界要求的東西是不一樣的。

比如前面說的FEP是計(jì)算藥物分子與蛋白質(zhì)結(jié)合自由能的變化。由分子A轉(zhuǎn)變?yōu)榉肿覤的過程可能有多種途徑，學(xué)術(shù)界只需要關(guān)注其中有限的情況并且算準(zhǔn)了，就足以成為一篇優(yōu)秀的論文。

然而，在工業(yè)界，重點(diǎn)是確保轉(zhuǎn)變過程中不會(huì)出現(xiàn)重大問題，無論是崩潰還是中斷，都是不可接受的。因此，需要將解決方案提升到工業(yè)級，然后再結(jié)合更好的方案，這樣才能充分發(fā)揮新方案的價(jià)值。

到2020年，我們才真正把自己定位成一家微尺度工業(yè)軟件公司?，F(xiàn)在不光是在藥物領(lǐng)域，我們推出了BDA電池設(shè)計(jì)自動(dòng)化平臺(tái)Piloteye，這是世界上首個(gè)電池設(shè)計(jì)工業(yè)軟件系統(tǒng)，而恰好電池也是我們國家的優(yōu)勢領(lǐng)域。

中國科技缺乏原始創(chuàng)新？一代公司有一代公司的使命

問：過去中國科技企業(yè)一直被詬病說缺乏原始創(chuàng)新，你們怎么看這個(gè)問題？

孫偉杰：我的看法是，一代人有一代人的使命，一代公司有一代公司的使命，公司的目標(biāo)是要?jiǎng)?chuàng)造經(jīng)濟(jì)價(jià)值，要有盈利。那在過去的一個(gè)歷史階段內(nèi)，實(shí)現(xiàn)最大盈利目標(biāo)的確可能不是通過原創(chuàng)技術(shù)。

國外的這些真正有非常強(qiáng)原創(chuàng)技術(shù)的公司，它一定是在實(shí)現(xiàn)了超額利潤的基礎(chǔ)之上，在追求下一個(gè)時(shí)代、下一個(gè)增長曲線的布局的時(shí)候，才有很多這種原創(chuàng)性的基礎(chǔ)研究。

問：那你認(rèn)為中國現(xiàn)在處在一個(gè)什么樣的時(shí)代？

孫偉杰：中國已經(jīng)走過了拿來主義的階段，以后拿來主義的空間會(huì)變得越來越少。中國在很多產(chǎn)業(yè)已經(jīng)走在世界前列了，這個(gè)時(shí)代在呼喚更多有底層創(chuàng)新技術(shù)的公司出現(xiàn)。但是當(dāng)大家開始做底層創(chuàng)新，會(huì)發(fā)現(xiàn)做原始創(chuàng)新的效率是低的。所以說需要先對創(chuàng)新的方法、創(chuàng)新的手段做創(chuàng)新。

AI for Science就是對研發(fā)手段、研發(fā)能力的革新，讓做底層創(chuàng)新的公司有更高投入產(chǎn)出比、更高效的研發(fā)方式。

問：當(dāng)下最熱的大語言模型其實(shí)我們還是在跟隨國外的步伐，國內(nèi)公司依然在集體追趕OpenAI。在AI for Science領(lǐng)域也是我們在跟隨國外嗎？

孫偉杰：不是，甚至有時(shí)候是反過來的。2017年鄂院士和林峰團(tuán)隊(duì)做出DeePMD之后，Google DeepMind才完成了一套十分相近的技術(shù)框架。我們做出用AI計(jì)算電子波函數(shù)的DeePWF之后，DeepMind又跟進(jìn)了相同方向的解決方案FermiNet。2020年我們發(fā)布DeePKS，2021年DeepMind又發(fā)布了對標(biāo)框架DM21。

當(dāng)然，在2020年DeepMind做出了AlphaFold-2，改變了整個(gè)結(jié)構(gòu)生物學(xué)領(lǐng)域。我們在21年成功復(fù)現(xiàn)了AlphaFold-2，在國內(nèi)是第一個(gè)。

我可以說如果當(dāng)時(shí)不是鄂老師一直在推AI for Science，我們沒有創(chuàng)立深勢科技，現(xiàn)在很有可能這個(gè)領(lǐng)域也是國外完全主導(dǎo)的。

問：你們的競爭者主要都有誰？

孫偉杰：主要是DeepMind和微軟等。微軟設(shè)置了一個(gè)全球四中心的AI for Science center。英偉達(dá)更多的聚焦在宏觀、流體、固體的這些方向。國外的很多科研機(jī)構(gòu)、很多高校包括美國能源部也都在這個(gè)領(lǐng)域有布局。

創(chuàng)業(yè)公司中比較有名的有SandboxAQ，他的創(chuàng)始人是谷歌的聯(lián)合創(chuàng)始人謝爾蓋·布林。他們也是用AI學(xué)習(xí)量子力學(xué)的方法做藥物設(shè)計(jì)等方向，第一個(gè)應(yīng)用的是FEP，聽起來有沒有很熟悉？跟我們的路徑一模一樣。但是它們第一輪公開市場的融資單筆已經(jīng)拿到了5億美金。

所以我說我們選了一個(gè)重要的方向，但是把自己丟進(jìn)了一個(gè)地獄模式的難度里。

問：聽起來確實(shí)很難，現(xiàn)在這個(gè)領(lǐng)域的人才爭奪是不是也很激烈？

孫偉杰：我們近?年時(shí)間經(jīng)歷的“十動(dòng)然拒”（十分感動(dòng)，然后拒絕）?過去整個(gè)人生的都多。我們的海外的競爭對手每年是以數(shù)十億美金為計(jì)的在投入這個(gè)領(lǐng)域，這個(gè)時(shí)候你就不會(huì)覺得我們?nèi)谫Y順了，我們還是深知自己還有很多地方可以做得更好。

問：深勢科技現(xiàn)在有多少人？

孫偉杰：我司統(tǒng)計(jì)人數(shù)有兩個(gè)口徑，一個(gè)是全職員工，一個(gè)是總員工。

問：差異是？

孫偉杰：總員工接近300人，全職220左右，剩下的其實(shí)是實(shí)習(xí)生。

說到實(shí)習(xí)生，我們在融資的時(shí)候曾經(jīng)有過一個(gè)非常“奇怪”的條款。在A輪融資的時(shí)候，領(lǐng)投方給我們的一個(gè)條件是，在完成本輪融資后的18個(gè)月內(nèi)將公司的實(shí)習(xí)生的人數(shù)的比例降低到50%以下，說“你們公司實(shí)習(xí)生太多了”。

問：為什么會(huì)有這么多實(shí)習(xí)生？

孫偉杰：招不著全職的呀。AI for Science是個(gè)很新的領(lǐng)域，要求很強(qiáng)的跨學(xué)科能力，你既要懂Science，還要懂AI，我們根本從市場上招不到，最后決定從頭去培養(yǎng)。全球可能最優(yōu)秀的博士生有很多都在海外，但是最優(yōu)秀的本科生都在國內(nèi)，我們就從本科生大一大二開始培養(yǎng)。

問：實(shí)習(xí)生有多大比例最后留下來？

孫偉杰：那比例還是挺高的，也舍不得他們走。以前看到硅谷創(chuàng)業(yè)的那些故事，有很多本科就愛各種折騰的年輕人，深勢就是這種人的天堂。

問：林峰怎么看這個(gè)領(lǐng)域的人才問題？

張林峰：人才其實(shí)不止競爭一個(gè)視角。我覺得更關(guān)鍵的還得是使命感和tech vision。我們要找的人，不是說希望通過AI的能力刷了個(gè)榜，或者發(fā)了篇大paper，或者說在一個(gè)技術(shù)杠桿沒那么強(qiáng)的地方去做一些模式上的事情。我們希望吸引這些既懂AI又懂Science的人來，一起做一件雖然有挑戰(zhàn)，但是也很有價(jià)值，有清晰實(shí)現(xiàn)路徑的事情。

并且，“地獄模式”還有一個(gè)好處是沒有過早的分工，我們可以更加放開想象力去做。我內(nèi)部經(jīng)常說，“如果你的反應(yīng)不是退縮、而是激動(dòng)”，那就應(yīng)該一起做最偉大的事情。

提高原子使用率，科學(xué)大模型已經(jīng)走到了GPT-2

問：說說你們的科學(xué)大模型吧，偉杰前面說希望做一個(gè)萬物模型，這是類似于大語言模型中的GPT嗎？它進(jìn)展到什么程度了？

張林峰：從技術(shù)上發(fā)展的話，我們覺得它跟GPT這樣的大語言模型的相差的周期也就在一個(gè)小的技術(shù)周期內(nèi)，也就是在三五年這樣的周期。

問：這個(gè)對比結(jié)論是怎么得出來的？

張林峰：我們看AI的發(fā)展，在2011年的時(shí)候逐漸地證明了神經(jīng)網(wǎng)絡(luò)可以解決很多問題。2014到15年AlphaGo這種現(xiàn)象級應(yīng)用出現(xiàn)之后，行業(yè)逐漸開始進(jìn)入到技術(shù)基礎(chǔ)設(shè)施建設(shè)期，這時(shí)候出現(xiàn)了TensorFlow、PyTorch這樣的框架。18年出現(xiàn)了預(yù)訓(xùn)練模型，20年有了GPT-3。去年ChatGPT之后就進(jìn)入到了應(yīng)用的涌現(xiàn)期。

AI for Science差不多就是晚一個(gè)周期，15、16年那個(gè)時(shí)候人們開始用AI解決一些科學(xué)問題，包括AlphaFold最開始出現(xiàn)也是在那時(shí)候。然后到了20年有兩個(gè)比較關(guān)鍵的點(diǎn)，一個(gè)是DeePMD拿到了戈登貝爾獎(jiǎng)，另一個(gè)是AlphaFold2出世，證明AI for Science毫無疑問是可以做出非常牛逼的應(yīng)用的，行業(yè)進(jìn)入了技術(shù)設(shè)施建設(shè)期。現(xiàn)在該有的基礎(chǔ)設(shè)施基本也都出現(xiàn)了。

而且我覺得AI for Science由于借鑒了很多過去大模型發(fā)展的路徑，它的速度可能還會(huì)比大語言模型要更快一些。

問：這么一比較感覺確實(shí)很像。那你們現(xiàn)在找到了AI for Science領(lǐng)域的“GPT”模型架構(gòu)嗎？

張林峰：我覺得我們找到了GPT，甚至說AI for Science領(lǐng)域的GPT已經(jīng)處在GPT2的階段了，對應(yīng)的是我們現(xiàn)在的面向物理世界的 DPA、面向化學(xué)世界的 Uni-Mol、面向生物世界的 Uni-RNA，還有其他，這些都是“微觀大模型”的代表，都包含在我們的深勢宇知?大模型體系中。接下來的問題就是Scale，然后再去期待這個(gè)上面怎么樣找到更多的應(yīng)用。

問：這里的Scale，和大語言模型中的Scailling law是一個(gè)含義嗎？

張林峰：Scale這塊是一個(gè)值得討論的點(diǎn)，技術(shù)其實(shí)不一樣，語言體系是自回歸的，它天然有一個(gè)Scale的特性。

自然法則本來是Scale的，但我們有點(diǎn)像反過來，是anti-scale，這就是為什么要搞到原子級，因?yàn)槟闶莝cale back然后再重新reconstruct的過程，這個(gè)點(diǎn)是不一樣的。

另外一個(gè)就是說科學(xué)問題的結(jié)構(gòu)更豐富，很多時(shí)候不是一個(gè)單模態(tài)的擴(kuò)展，而是這個(gè)組合型的scale，這也跟大模型有一些不同。當(dāng)然訓(xùn)練模型的邏輯是一致的，有大規(guī)模的數(shù)據(jù)、大規(guī)模的訓(xùn)練模型實(shí)現(xiàn)更好的遷移創(chuàng)造和生成。

問：你們是怎么看AGI的？AGI和AI for Science是什么關(guān)系？

張林峰：與其談我的理解還是不如談大家覺得是啥，看起來大家覺得AGI是一個(gè)在計(jì)算機(jī)上的具有智能的一個(gè)系統(tǒng)。AGI在數(shù)字世界實(shí)現(xiàn)了閉環(huán)，更多的是一個(gè)具有通識(shí)的一個(gè)智能體。

而對于AI for Science來說是利用AI去拓寬人們的認(rèn)知的邊界，拓寬我們的底層構(gòu)建能力，去重塑整個(gè)世界。到最后其實(shí)我們會(huì)發(fā)現(xiàn)AGI最后的邊界還是物理，無論是物理規(guī)律還是物理的實(shí)體，在這一輪數(shù)字世界的閉環(huán)的基礎(chǔ)上，下一步可能還是要跟物理世界產(chǎn)生一個(gè)有效的連接，這也是AGI和AI for Science產(chǎn)生連接的地方。

問：所以AI for Science其實(shí)是精確的模擬了物理世界，這樣數(shù)字世界的智能體能更好地跟這個(gè)精確模擬的物理世界進(jìn)行一些交互？

孫偉杰：先認(rèn)知后模擬。AI學(xué)習(xí)虛擬世界的文字、圖片的時(shí)候也是先認(rèn)知它，然后才能生成想要的內(nèi)容。那么AI學(xué)習(xí)了物質(zhì)世界的底層的規(guī)律后，它就是理解了世界底層的原理，能生成我們想要的物質(zhì)。所以我覺得AI for Science是掌握了物質(zhì)的密碼。以后想要什么物質(zhì)可以用AI來幫我們設(shè)計(jì)、幫我們生成。

AGI不可能只認(rèn)識(shí)數(shù)字世界的東西，也必須得理解我們的客觀物理世界。所以，AI for Science也一定是通用人工智能其中的一部分。

問：如果給你們一個(gè)立馬實(shí)現(xiàn)某一個(gè)愿望的機(jī)會(huì)，你們會(huì)想要實(shí)現(xiàn)一個(gè)什么樣的愿望？

孫偉杰：我希望看到原子尺度的打印，你要啥打啥。

問：什么是原子尺度的打?。?/strong>

張林峰：就是你每一個(gè)原子放在哪都是能打印出來的。其實(shí)到最后最大的瓶頸還是制造，原子尺度的活字印刷術(shù)。

孫偉杰：原子尺度的活字印刷術(shù)，這個(gè)是終極業(yè)務(wù)，這個(gè)如果實(shí)現(xiàn)的話這是上帝的業(yè)務(wù)。

問：如果這是一個(gè)終極目標(biāo)，深勢科技在其中要扮演什么角色？

張林峰：深勢科技希望形成一個(gè)技術(shù)生態(tài)體系，來幫助人們做微尺度的科學(xué)研究和工業(yè)研發(fā)。從底層來說，其實(shí)是幫大家如何提高原子的利用率。給定這樣的一個(gè)路徑，我們就可以看到一些地方需要更加深入極致的產(chǎn)品打磨，另外一些地方需要非常開放的大規(guī)模反饋迭代。

目前，我們已經(jīng)有專注軟件的DeepModeling社區(qū)、提供“教學(xué)研用”一體化服務(wù)的玻爾科研空間站以及涉及數(shù)據(jù)模型工作流的AIS Sqaure。有了這些基礎(chǔ)設(shè)施，科研工作者就能通過新的方式集結(jié)和協(xié)作起來，我們今年在推出DPA-2之后，也面向社區(qū)發(fā)起了OpenLAM大原子模型計(jì)劃。

問：大原子模型？對標(biāo)大語言模型嗎？

張林峰：對，我們希望推動(dòng)的技術(shù)不是比特世界的 Foundation Model，而是原子世界的 Foundation Model，并且是通過開源開放的方式來推動(dòng)。

開源精神其實(shí)和我們的文化是一致的，我們想要推動(dòng)一個(gè)向善的、真正做好事的技術(shù)體系，并且在生態(tài)共建的過程中持續(xù)成就伙伴。我們給OpenLAM起了個(gè)口號(hào)叫“征服元素周期表”。我們希望通過OpenLAM進(jìn)一步打破數(shù)據(jù)壁壘，讓研究人員可以一鍵獲取任意元素組合體系的勢函數(shù)，而不再需要費(fèi)力生成大量新的第一性原理計(jì)算數(shù)據(jù)。

另一方面，我們一直說重構(gòu)，發(fā)起這樣一個(gè)大規(guī)模的開源協(xié)作本身也是“重構(gòu)科研協(xié)作”的一個(gè)實(shí)踐，鄂老師一直強(qiáng)調(diào)科研未來要走向“安卓模式”，我們認(rèn)為未來的平臺(tái)化科研和工業(yè)研發(fā)應(yīng)該就是這個(gè)樣子。

記者｜冉翀伍洋宇
編輯｜劉方遠(yuǎn)

2017年夏天，一趟從北京飛往紐約的國際航班上，張林峰正在反復(fù)比對兩組幾乎一模一樣的數(shù)字，以確認(rèn)它們真的如此接近。

下飛機(jī)之后，張林峰立刻寫了一封郵件，將模擬的結(jié)果發(fā)送給自己在普林斯頓大學(xué)的導(dǎo)師、中國科學(xué)院院士鄂維南。來自遠(yuǎn)方的回復(fù)簡潔而有力：“Too good to be true（好得難以置信）?！?/p>

用AI來學(xué)習(xí)和發(fā)現(xiàn)科學(xué)規(guī)律，沒錯(cuò)，他們應(yīng)該做這樣一套東西——達(dá)成這一共識(shí)之后，張林峰和孫偉杰開始籌劃共同創(chuàng)業(yè)，他們?yōu)樾鹿救∶吧顒菘萍肌保铝τ谟萌斯ぶ悄苌疃葘W(xué)習(xí)解決微觀尺度的問題。

大概只因?yàn)锳I for Science才剛剛起步，人們無從發(fā)現(xiàn)這個(gè)前沿科技領(lǐng)域正在上演一場激烈的全球競逐。

以下是界面新聞對孫偉杰、張林峰的采訪實(shí)錄（略作編輯）：