文|硅谷101
AI正在入侵科學(xué)界,特別是生物科技方向。
瑞典皇家科學(xué)院在2024年10月宣布了當(dāng)年諾貝爾化學(xué)獎的獲獎?wù)?,出乎意料的是—?AI又是大贏家。
2024年的諾貝爾化學(xué)獎被授予了Google旗下DeepMind人工智能實驗室的首席執(zhí)行官Demis Hassabis和總監(jiān)John Jumper ,以及華盛頓大學(xué)蛋白質(zhì)設(shè)計研究所所長David Baker。
其中,Hassabis和Jumper因“蛋白質(zhì)結(jié)構(gòu)預(yù)測”研究獲獎,而Baker則因“計算蛋白質(zhì)設(shè)計”研究獲獎。而此前一天,人工智能先驅(qū)Geoffrey Hinton和John Hopfield剛剛榮獲諾貝爾物理學(xué)獎。
如果說諾貝爾物理學(xué)獎授予人工智能領(lǐng)域的兩位先驅(qū)是眾望所歸,諾貝爾化學(xué)獎也花落AI及生物醫(yī)療的跨界領(lǐng)域則有些出人意料。因為即便對AI而言,該領(lǐng)域也是最難啃的骨頭之一。
然而隨著人工智能技術(shù)的迅速發(fā)展,生物科技行業(yè)迎來了新的希望。
這篇文章我們將講述:AlphaFold究竟是何方神圣?AI和生物醫(yī)療行業(yè)擦出了什么火花?人類如何靠AI推動生物醫(yī)藥技術(shù)更快地向前更迭?
01 AlphaFold與新紀(jì)元
2020年末,一場看似平常的線上會議,悄然揭開了人工智能與生物學(xué)深度融合的新時代。
當(dāng)時,全世界正在經(jīng)歷疫情挑戰(zhàn),但沒有人預(yù)料到,一個困擾科學(xué)界數(shù)十年的難題,會在這樣一個特殊的時刻被攻克。就在那個冬日,人工智能向我們展示了AI與生物學(xué)深度融合時代的開端。
Chapter 1.1 線上會議的意外之喜
CASP大會是生物學(xué)界備受矚目的盛會,每兩年舉辦一次,被稱為“蛋白質(zhì)折疊界的奧運會”。
會議聚集世界各地的頂尖科學(xué)家,共同探討一個看似簡單卻極其復(fù)雜的問題:如何僅憑一維的分子代碼,準(zhǔn)確預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)?
多年來,科學(xué)家們在這個問題上進展緩慢,有些研究者甚至將近幾十年的職業(yè)生涯都奉獻給了這項事業(yè),然而距離真正的突破遙不可及。
直到2020年11月底、12月初,這個局面被徹底改變。由于全球疫情的影響,這次CASP大會首次以線上形式舉行,與會者們聚集在屏幕前,原本期待著又一次漸進式的進步,然而一場意想不到的驚喜在等著他們。
在這次線上會議上,一位名叫John Jumper的新面孔引起了所有人的注意。他來自谷歌旗下的人工智能部門DeepMind,帶來了一款革命性的工具——AlphaFold2。
Chapter 1.2 AlphaFold2的驚人表現(xiàn)
2020年11月30日,當(dāng)Jumper通過Zoom展示AlphaFold2的成果時,整個會議室陷入了震驚的沉默。
AlphaFold2在3D蛋白質(zhì)結(jié)構(gòu)預(yù)測方面展現(xiàn)出了前所未有的準(zhǔn)確性,其精確度超過90%,遠遠甩開了其他競爭對手,領(lǐng)先優(yōu)勢高達五倍之多。
具體來說,AlphaFold2預(yù)測了數(shù)十種蛋白質(zhì)的結(jié)構(gòu),誤差幅度僅為1.6埃(0.16 納米),差不多原子大小。這遠遠超過了所有其他計算方法,并首次與實驗室中使用的技術(shù)(如低溫電子顯微鏡、核磁共振和X射線晶體學(xué))的精度相匹配。
此前,這些技術(shù)昂貴且緩慢:每種蛋白質(zhì)可能需要數(shù)十萬美元和數(shù)年的反復(fù)試驗;而AlphaFold卻可以在幾天內(nèi)找到蛋白質(zhì)的形狀。
這個突破性的成果在整個科學(xué)界引起了巨大的轟動,并立即成為了各大媒體的頭條新聞,因為它幾乎一舉解決了困擾科學(xué)界近50年來的蛋白質(zhì)折疊問題。《自然》雜志在標(biāo)題里引用科學(xué)家的話說,“它會改變一切”。
AlphaFold2的成功不僅標(biāo)志著人工智能在生物學(xué)領(lǐng)域的重大突破,更預(yù)示著跨學(xué)科研究的無限可能。我們邀請到的采訪嘉賓也同樣用“震驚”表達了她和同行們看到AlphaFold2時的感受。
Janice
N-1 Life創(chuàng)始人:
AlphaFold2出現(xiàn)就一騎絕塵,把其他對手都甩在了后面。我覺得對大家是一種徹底震驚的感覺,完全沒有想到AlphaFold2已經(jīng)可以達到這樣一個高度。
這是生物技術(shù)屆第一次如此直觀得感受到,人工智能帶來的顛覆進步。
我們先來解釋一下蛋白質(zhì)折疊問題為什么如此重要。
Chapter 1.3 蛋白質(zhì)折疊
蛋白質(zhì)是生命的基石,維持著生命活動的正常運轉(zhuǎn)。
蛋白質(zhì)的功能與它的三維結(jié)構(gòu)密切相關(guān):就像一把鑰匙必須有正確的形狀才能打開特定的鎖,蛋白質(zhì)也必須折疊成正確的形狀才能執(zhí)行其特定的功能。
因此,準(zhǔn)確預(yù)測蛋白質(zhì)的三維結(jié)構(gòu),對于我們理解疾病機理、開發(fā)新藥物,以及深入洞察生命運作的奧秘都具有深遠的影響。
長期以來,科學(xué)家們一直在試圖從蛋白質(zhì)的一維氨基酸序列(可以看作是蛋白質(zhì)的"源代碼")推斷出最終的三維結(jié)構(gòu)。但這個過程,就像是要從一串字母中預(yù)測出一個復(fù)雜折紙的最終形狀,難度可想而知。
正是因為這個問題的重要性和復(fù)雜性,CASP大會才會每兩年舉辦一次,吸引眾多科學(xué)家前來展示他們最新的蛋白質(zhì)折疊預(yù)測工具。AlphaFold2的突破,正是在這個背景下顯得尤為重要和令人振奮。
Chapter 1.4 科學(xué)界的失落與肯定
AlphaFold2的驚人成果在科學(xué)界引起了巨大的反響,反應(yīng)可謂是喜憂參半。許多科學(xué)家對這一突破感到興奮和鼓舞,但也有一些人表現(xiàn)出了謹慎和懷疑的態(tài)度。
這并不是AlphaFold的第一次亮相,在2018年12月舉行的第13屆CASP大會上,Deepmind就首次推出了AlphaFold。
它在98個參賽隊伍中名列前茅,預(yù)測了43種蛋白質(zhì)中25種的最準(zhǔn)確結(jié)構(gòu),而同一類別中排名第二的團隊,僅預(yù)測了43種蛋白質(zhì)中的3種最準(zhǔn)確結(jié)構(gòu)。
盡管AlphaFold1表現(xiàn)出色,但它的準(zhǔn)確性并未達到足以徹底改變整個領(lǐng)域的水平,在某些情況下仍然無法很好地預(yù)測復(fù)雜蛋白質(zhì)的三維結(jié)構(gòu),因此其影響力相對有限。
然而兩年后的AlphaFold2,出現(xiàn)了巨大的飛躍:其預(yù)測準(zhǔn)確性,在大多數(shù)測試蛋白上達到了接近實驗結(jié)構(gòu)的水平,相較于實驗方法和其他計算方法,它大大縮短了預(yù)測時間,使得大規(guī)模應(yīng)用成為可能。
這讓一些研究者拒絕相信,一個AI系統(tǒng)能夠在短時間內(nèi)解決困擾人類數(shù)十年的難題。畢竟有些科學(xué)家已經(jīng)將近三十年的職業(yè)生涯都奉獻給了這個問題,突然間看到一個"外來者"取得如此巨大的成功,難免會感到些許失落和不安。
然而在會議的總結(jié)發(fā)言中,CASP大會的組織者John Moult卻表現(xiàn)出了堅定的信心,他毫不猶豫地宣布:AlphaFold2"在很大程度上解決了"蛋白質(zhì)折疊問題。這個聲明無疑給這次突破蓋上了權(quán)威的印章。
John Jumper
DeepMind人工智能實驗室總監(jiān):
十年后,AlphaFold將被視為打開機器學(xué)習(xí)洪流的時刻,它將真正改變我們對結(jié)構(gòu)生物學(xué)和更廣泛的生物學(xué)問題的思考方式。
如今距離AlphaFold2給業(yè)界帶來震撼已過去了4年,在這個期間DeepMind也在不斷發(fā)展。
2021年與歐洲生物信息學(xué)研究所(EMBL-EBI)合作,啟動AlphaFold數(shù)據(jù)庫,納入35萬個蛋白質(zhì)預(yù)測結(jié)構(gòu),涵蓋了人類、小鼠和其他19種被廣泛研究的生物體產(chǎn)生的幾乎每種蛋白質(zhì)。
2023年,更是公布了從細菌到人類的幾乎所有已知2億多個蛋白質(zhì)的可能結(jié)構(gòu),并將其納入相關(guān)數(shù)據(jù)庫。研究人員說,“可以像在谷歌通過關(guān)鍵詞搜索信息一樣輕松地查找蛋白質(zhì)三維結(jié)構(gòu)”。
AlphaFold 2的代碼也已開源,Hassabis非常驕傲地稱,“我們發(fā)布了整個蛋白質(zhì)宇宙的結(jié)構(gòu)?!?/p>
據(jù)歐洲生物信息學(xué)研究所(EMBL-EBI)估計,在現(xiàn)有的超2.14億個預(yù)測的蛋白質(zhì)結(jié)構(gòu)中,大約35%是高度準(zhǔn)確的(高度準(zhǔn)確意味著它們與實驗確定的結(jié)構(gòu)質(zhì)量一樣高);有45%的結(jié)構(gòu)足以在許多應(yīng)用程序中使用。
2024年5月,谷歌進一步在 《自然》雜志上發(fā)表了關(guān)于AlphaFold 3的突破性研究,這一最新版本的AI模型,在生物分子結(jié)構(gòu)預(yù)測領(lǐng)域掀起了一場新的風(fēng)暴。
Chapter 1.5 AlphaFold3
AlphaFold 3由DeepMind和一家名為Isomorphic Labs的初創(chuàng)公司開發(fā)。Isomorphic Labs公司其實是DeepMind分拆出來的團隊,甚至還是由Hassabis親自領(lǐng)導(dǎo)。
AlphaFold 3厲害的地方在于它是一個生成式神經(jīng)網(wǎng)絡(luò)模型,可以生成蛋白質(zhì)、核酸(DNA/RNA)和更小分子的3D結(jié)構(gòu),并揭示它們?nèi)绾谓M合在一起,即史上最強的AI組合架構(gòu):Transformer+Diffusion。
這兩個模型我們之前介紹過,而Transformer+Diffusion這個架構(gòu)也讓它成為了一個單一AI模型?;谶@種組合架構(gòu),AlphaFold 3的核心突破主要體現(xiàn)在以下幾個方面:
1.全面預(yù)測能力:它不僅能生成蛋白質(zhì)的3D結(jié)構(gòu),還能預(yù)測DNA、RNA和小分子的結(jié)構(gòu),更重要的是,它能揭示這些分子之間是如何相互作用的。
2.細胞過程模擬:AlphaFold 3可以模擬控制細胞正常運轉(zhuǎn)的化學(xué)變化,為我們理解和預(yù)防疾病提供了新的視角。
3.驚人的精度提升:在預(yù)測分子相互作用方面,即使在沒有任何結(jié)構(gòu)信息輸入的情況下,它的準(zhǔn)確性也比傳統(tǒng)的最先進方法提高了50%。
這使得AlphaFold 3成為生物分子結(jié)構(gòu)預(yù)測領(lǐng)域中,首個超越物理基礎(chǔ)工具的AI系統(tǒng)。
Demis Hassabis將AlphaFold 3的發(fā)布稱為一個重要的里程碑,標(biāo)志著AI在理解和建模生物學(xué)領(lǐng)域又邁出了關(guān)鍵性的一步。
AlphaFold 3超越蛋白質(zhì),進入廣泛的生物分子領(lǐng)域,這一飛躍可以開啟更多變革性科學(xué),從開發(fā)生物可再生材料和更具彈性的作物,到加速藥物設(shè)計和基因組學(xué)研究。
而在藥物研發(fā)領(lǐng)域,AlphaFold 3的潛力尤為突出:它不僅能提高藥物設(shè)計的成功率,還為探索新的疾病靶點提供了可能。
Hassabis甚至預(yù)測,這可能會發(fā)展成一個價值千億美元的產(chǎn)業(yè)。
此外,谷歌推出了免費研究平臺「AlphaFold Server」,供全球科學(xué)家非商業(yè)化研究,可以利用AlphaFold 3在10分鐘內(nèi)預(yù)測分子,并測試假設(shè)。
當(dāng)然,并不是用了Transformer + Diffusion架構(gòu)所有問題都能迎刃而解。在專業(yè)人士看來,即使是Transformer加Diffusion這對強力組合,應(yīng)用在制藥領(lǐng)域,也還是有一些挑戰(zhàn)。
車興
YDS Pharmatech創(chuàng)始人兼CEO:
所有AI在制藥領(lǐng)域應(yīng)用的最大障礙,還是對實驗需求和對科學(xué)問題的理解。
因為我們領(lǐng)域沒有開發(fā)自己新的架構(gòu),這些LM、Transformer、 Diffusion 其實都是NLP、 CV等領(lǐng)域開發(fā)出來的,最終應(yīng)用取決于我們要在實驗上達到的目標(biāo),再去配合合適的技術(shù)來實現(xiàn)。
值得一提的好消息是:谷歌把AlphaFold 3開源了。
此前,AlphaFold3使用上有不少限制:比如研究者無法運行自己的AlphaFold3版本或訪問其底層代碼、每日預(yù)測次數(shù)也有限制,這也令部分科學(xué)家反而認為AlphaFold3的影響力反而會不如AlphaFold2。
或許是諾貝爾化學(xué)獎的“刺激”,谷歌在11月11日悄悄地把它給開源了!“悄悄”是因為,谷歌甚至都沒有發(fā)布一篇新聞,只是在原來的博客文章上進行了一段很小的文字更新:
“2024年11月11日更新,我們已發(fā)布了AlphaFold3的模型代碼和權(quán)重作為學(xué)術(shù)用途,以幫助前沿研究。”
也就是說,現(xiàn)在任何人都可以下載AlphaFold3軟件代碼并將其用于非商業(yè)用途了。雖然目前只有具有學(xué)術(shù)背景的科學(xué)家才能訪問訓(xùn)練權(quán)重,而且只能在提出請求后才能訪問,但對于學(xué)術(shù)界,這仍然是個巨大的進步。
Demis Hassabis
谷歌DeepMind首席執(zhí)行官:
我認為AlphaFold是我們迄今為止構(gòu)建的最復(fù)雜且可能最有意義的系統(tǒng),我們建立AlphaGo和Alpha Zero的初衷,就是為通用學(xué)習(xí)系統(tǒng)奠定基礎(chǔ),并將其應(yīng)用于現(xiàn)實世界的挑戰(zhàn),我熱衷于科學(xué)挑戰(zhàn),比如蛋白質(zhì)折疊,而AlphaFold當(dāng)然是我們在這方面的第一個重要成果。
硅谷的華源2024年會上,我們采訪到了諾貝爾生理學(xué)或醫(yī)學(xué)獎得主Randy Schekman,他認為AlphaFold會持續(xù)顛覆傳統(tǒng)科研的范式。
Randy Schekman
2013年諾貝爾生理學(xué)或醫(yī)學(xué)獎得主:
它會對傳統(tǒng)研究產(chǎn)生顛覆性的影響,但進步的本質(zhì)就是顛覆,所以這并不可怕。相反,我們需要擁抱這種創(chuàng)新。
AlphaFold的影響是巨大的,唯一的限制就在于人的想象力——如何實現(xiàn)它、如何部署它。
但我并不認為從此我們就不需要做實驗,實驗仍然是推動科學(xué)進步的基礎(chǔ),但AlphaFold肯定會幫助我們更好地所有生成的數(shù)據(jù)。
02 AI結(jié)合生物領(lǐng)域的其他玩家
Chapter 2.1 ESMFold
2022年,Meta AI研究團隊推出了ESMFold,這是一個強大的蛋白質(zhì)結(jié)構(gòu)預(yù)測模型,并且還公布了6億多種蛋白結(jié)構(gòu)預(yù)測結(jié)果。
這個龐大的數(shù)據(jù)庫涵蓋了地球環(huán)境樣本中鮮為人知的蛋白質(zhì),包括土壤、海洋和人體中的微生物。
Meta表示,在ESMFold預(yù)測的蛋白質(zhì)中,約有三分之一可以以高置信度完成預(yù)測。也就是說,當(dāng)時ESMFold預(yù)測出來的蛋白結(jié)構(gòu)數(shù)量,相當(dāng)于AlphaFold2的3倍左右。
ESMFold還在計算效率方面取得了顯著進展。Meta AI研究科學(xué)家表示,ESMFold能夠在幾秒鐘內(nèi)完成單個蛋白質(zhì)結(jié)構(gòu)的預(yù)測。這比之前的方法快了幾個數(shù)量級:用ESMFold預(yù)測超過6.17億個蛋白質(zhì)的結(jié)構(gòu),只花了2周時間。
另外,在單個英偉達V100 GPU上,ESMFold可以在14.2秒內(nèi)對含有384個殘基的蛋白質(zhì)進行預(yù)測,比AlphaFold2快6倍,而對于較短的序列,它甚至比AlphaFold2快了60倍。
Janice
N-1 Life創(chuàng)始人:
ESMFold在早期的時候有非常多的優(yōu)點,比如計算速度比較快。另外,它的數(shù)據(jù)庫早期非常開源。
ESMFold的核心是一個創(chuàng)新的AI模型,由大約十幾名科學(xué)家共同打造,它借鑒了類似于ChatGPT的語言預(yù)測技術(shù)。
Meta的科學(xué)家們?yōu)镋SMFold提供了代表蛋白質(zhì)遺傳密碼的氨基酸序列,讓AI模型學(xué)習(xí)如何填補序列中的空白部分。
通過學(xué)習(xí)已知蛋白質(zhì)序列與結(jié)構(gòu)之間的關(guān)系,ESMFold能夠預(yù)測新蛋白質(zhì)的三維結(jié)構(gòu)。
這項技術(shù)的一個顯著優(yōu)勢是其驚人的速度。
此外,盡管功能強大,ESMFold的設(shè)計卻相對輕量,這意味著它可以在普通的GPU上運行,使得更多研究者能夠使用這個工具。
不過,它的缺點也很明顯:準(zhǔn)確度較低。不少生物技術(shù)業(yè)內(nèi)人士表示,他們更喜歡 AlphaFold,而不是ESMFold,因為它更準(zhǔn)確。
由于在AI賦能生物醫(yī)藥這件事上,瓶頸不是計算,所以更快并不意味著更好,準(zhǔn)確才更重要。
然而,ESMFold項目卻沒有得到扎克伯格的支持:2023年春季,作為Meta公司大范圍裁員的一部分,ESMFold部門被解散。這一舉措使學(xué)術(shù)界擔(dān)憂Meta是否能長期維持數(shù)據(jù)庫的運行和相關(guān)服務(wù),盡管如此,ESMFold的影響力依然顯著。
自2022年發(fā)布以來,ESMFold模型每月的下載量約為25萬次,每小時可預(yù)測1000種蛋白質(zhì)結(jié)構(gòu),多個學(xué)術(shù)研究團體和生物科技公司已經(jīng)開始使用這一工具。
相比之下,DeepMind的AlphaFold自2021年首次發(fā)布以來,已有來自190多個國家的100多萬研究人員和生物學(xué)家使用,查看了300萬種蛋白質(zhì)結(jié)構(gòu)。
雖然AlphaFold在準(zhǔn)確性上仍占優(yōu)勢,但ESMFold的速度優(yōu)勢和更大的數(shù)據(jù)庫為科研人員提供了另一種選擇。只是不知道,遭遇了裁員危機的ESMFold的未來命運如何。
Chapter 2.2 RoseTTAFold
這次諾獎的另外一名獲獎?wù)逥avid Baker帶領(lǐng)團隊開發(fā)的蛋白質(zhì)分析工具系列Rosetta,是生物醫(yī)藥界人士的最愛。
2021年,看到AlphaFold2大殺四方,David Baker教授和他的研究團隊,開發(fā)出了一種名為RoseTTAFold的新型蛋白質(zhì)結(jié)構(gòu)預(yù)測工具,這一突破性成果為解決長期以來困擾科學(xué)界的蛋白質(zhì)折疊問題提供了新的思路和方法。
車興
YDS Pharmatech創(chuàng)始人兼CEO:
David Baker組之前出過很多Diffusion做蛋白設(shè)計的,對于計算領(lǐng)域來說特別ground breaking(開創(chuàng)性的)。
因為以前計算領(lǐng)域沒有這些工具,現(xiàn)在不但有了,還能有一定的成功率,所以我們都認為非常好。
Randy Schekman
2013年諾貝爾生理學(xué)或醫(yī)學(xué)獎得主:
這尤其體現(xiàn)在David Baker取得進展的領(lǐng)域:他正在使用人工智能設(shè)計自然界中從未存在過的蛋白質(zhì),通過設(shè)計它們來催化制藥行業(yè)。
之前,但這些反應(yīng)通常效率低下且涉及有毒物質(zhì),而通過設(shè)計蛋白質(zhì)來催化這些反應(yīng),或者設(shè)計用于疫苗研發(fā)的新分子,或應(yīng)用于藥物開發(fā)的新藥分子。
這種基于人工智能算法的設(shè)計原則,在生產(chǎn)蛋白質(zhì)或其他分子中的應(yīng)用,無疑是未來的發(fā)展方向,其重要性將不斷提高。
RoseTTAFold的核心是一種創(chuàng)新的深度學(xué)習(xí)算法。它采用了三軌神經(jīng)網(wǎng)絡(luò)架構(gòu),可以同時處理蛋白質(zhì)的一維序列信息、二維距離信息和三維結(jié)構(gòu)信息。
這種多維度的信息整合使得RoseTTAFold能夠更準(zhǔn)確地模擬蛋白質(zhì)的折疊過程,從而實現(xiàn)高精度的結(jié)構(gòu)預(yù)測。與傳統(tǒng)的實驗方法相比,RoseTTAFold具有幾個顯著的優(yōu)勢:
1.速度快:通常只需幾個小時就能完成一個蛋白質(zhì)的結(jié)構(gòu)預(yù)測,大大縮短了研究周期。
2.成本低:不需要昂貴的實驗設(shè)備和試劑,降低了研究門檻。
3.適用范圍廣:可以預(yù)測各種類型的蛋白質(zhì)結(jié)構(gòu),包括一些難以通過實驗方法解析的蛋白質(zhì)。
然而RoseTTAFold也存在一些局限性,比如對于一些特殊的蛋白質(zhì)結(jié)構(gòu),其預(yù)測準(zhǔn)確度還有待提高。此外,如何將預(yù)測結(jié)果與實驗數(shù)據(jù)有機結(jié)合,也是未來需要解決的問題。
不過,在生物醫(yī)藥業(yè)內(nèi)人士的眼里,RoseTTAFold比起Google的AlphaFold和ESMFold,最大的優(yōu)勢是對生物學(xué)的理解。
Janice
N-1 Life創(chuàng)始人:
因為David Baker團隊是科學(xué)家而非工程師出身,所以模型里面融入的生物學(xué)的理解和對于結(jié)構(gòu)的理解是更深入的。
這是獨一無二的,而且可能是全世界最好的。
也就是說,RoseTTAFold模型提出了一種全新的思路和底層架構(gòu)。
我們提到的AlphaFold和OpenAI的GPT-4等語言模型,其實都是從AI技術(shù)出發(fā),然后將其應(yīng)用到生物醫(yī)藥等領(lǐng)域。而RoseTTAFold則從根本上突破了這一傳統(tǒng)路徑,提供了與以往AI驅(qū)動模型截然不同的創(chuàng)新方向。
正是這種對生物學(xué)多維度、多尺度的理解,使得RoseTTAFold具備天然優(yōu)勢——它對生物學(xué)的理解和輸出更為準(zhǔn)確。
在與AlphaFold 2的對比中可以發(fā)現(xiàn),RoseTTAFold計算速度更快,且所需算力更少。這可能是因為它融入了更深入的生物學(xué)理解,從而減少了計算時間和資源消耗。
Janice
N-1 Life創(chuàng)始人:
RoseTTAFold甚至可以在普通的GPU上進行計算,但是AlphaFold必須用最好的A100來做。
接下來我們總結(jié)下AI入侵生物醫(yī)藥行業(yè)的三個階段。
03 AI+生物醫(yī)藥進化的三階段
Chapter 3.1 早期階段
第一階段:機器學(xué)習(xí)的簡單應(yīng)用。
制藥公司在早期嘗試使用機器學(xué)習(xí)建模來預(yù)測藥物效果和生物學(xué)反應(yīng),但成效甚微,主要因為數(shù)據(jù)量不足和模型的局限性。
AI技術(shù)的起源可以追溯到20世紀(jì)60年代,盡管當(dāng)時還不叫“AI”。
早期的研究主要是嘗試用計算機和定量數(shù)學(xué)方法,解讀化學(xué)結(jié)構(gòu)及其與藥效之間的關(guān)系。當(dāng)時的著名術(shù)語叫“定量構(gòu)效關(guān)系”(Quantitative Structure-Activity Relationship,QSAR)。
代表人物Corwin Hansch創(chuàng)立了一個方程,用于定量分析化學(xué)分子的結(jié)構(gòu)與其藥效之間的聯(lián)系,然而這些研究在當(dāng)時仍然較為基礎(chǔ)。
70年代和80年代,化學(xué)結(jié)構(gòu)數(shù)據(jù)庫的建立逐漸成為研究的重點。
80年代和90年代,隨著計算機技術(shù)的興起,全球的化學(xué)家和藥物學(xué)家開始將化學(xué)結(jié)構(gòu)及其生物活性的信息匯總到數(shù)據(jù)庫中,通過數(shù)據(jù)庫學(xué)習(xí)結(jié)構(gòu)特征成為主流。
90年代見證了與Docking相關(guān)模型的建立,其中加利福尼亞大學(xué)舊金山分校UCSF和牛津大學(xué)的研究尤為突出。
Docking又叫分子對接,是一種計算生物學(xué)技術(shù),它模擬了小分子(如藥物候選物)與大分子(如蛋白質(zhì)受體)之間的相互作用,以預(yù)測它們?nèi)绾谓Y(jié)合在一起。這項技術(shù)在當(dāng)時是非常先進的,盡管只能在實驗室的大型本地計算機上進行,使用起來也十分受限。
Janice
N-1 Life創(chuàng)始人:
現(xiàn)在在斯坦福的一些實驗室里面還保留著當(dāng)時的計算機——特別大,而且都是本地的計算機,實驗室里有誰需要用這個工具,都只能去那個特定的計算機去嘗試。所以是當(dāng)時那個時代非常先進的成果。
進入21世紀(jì)后,機器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)逐步應(yīng)用于藥物發(fā)現(xiàn)領(lǐng)域。第一代AI藥物發(fā)現(xiàn)公司出現(xiàn),通過機器學(xué)習(xí)分析藥物分子的結(jié)構(gòu)和藥效,嘗試設(shè)計新的藥物分子。
同時,高通量篩選技術(shù)的普及使得數(shù)據(jù)產(chǎn)生的速度和量大幅提升,為機器學(xué)習(xí)提供了大量的數(shù)據(jù)點,推動了AI在藥物研發(fā)中的應(yīng)用。
Chapter 3.2 深度學(xué)習(xí)
第二個階段的技術(shù)突破是:深度學(xué)習(xí)算法的出現(xiàn)。它極大提升了生物醫(yī)藥領(lǐng)域的數(shù)據(jù)處理和分析能力,為復(fù)雜的生物學(xué)問題提供了新的解決方案。
21世紀(jì)初期,生物醫(yī)藥領(lǐng)域主要依賴于大量數(shù)據(jù)的積累,通過機器學(xué)習(xí)方法從中提取規(guī)律。
真正的轉(zhuǎn)折點出現(xiàn)在2010年代初期,深度學(xué)習(xí)的興起為生物醫(yī)藥領(lǐng)域帶來了前所未有的變革。
再往后,就是人工智能時代了。盡管“人工智能”(AI)這一術(shù)語早在計算機領(lǐng)域廣泛應(yīng)用,但直到2020年前后,它才在生物醫(yī)藥領(lǐng)域真正得到重視,這一變革的關(guān)鍵推動力是AlphaFold等突破性模型的問世。
AlphaFold的成功不僅標(biāo)志著AI技術(shù)在生物醫(yī)藥領(lǐng)域的成熟應(yīng)用,更是一次劃時代的分水嶺。這些先進的AI工具超越了傳統(tǒng)的數(shù)據(jù)堆積分析,具備了強大的預(yù)測能力,從而加速了生命科學(xué)和藥物發(fā)現(xiàn)的進程。
Janice
N-1 Life創(chuàng)始人:
AlphaFold出現(xiàn)是一個很重要、劃時代的分水嶺,這個時候大家就開始把所有很相對成熟很多的這些 AI 的工具用到生物醫(yī)藥里面。
它不僅僅是堆疊各種數(shù)據(jù),嘗試在數(shù)據(jù)里面去找到它的規(guī)律,而更多的是有預(yù)測性的功能,所以從2020年開始一直到現(xiàn)在,其實時間并不長,但是現(xiàn)在模型迭代非常快,進入了AI助力生命醫(yī)學(xué)和藥物發(fā)現(xiàn)的新時代。
Chapter 3.3 真正的AI時代
第三階段:生物醫(yī)藥領(lǐng)域進入了端到端學(xué)習(xí)的新時代。
早期的機器學(xué)習(xí)工具在生物醫(yī)藥領(lǐng)域的應(yīng)用主要依賴于龐大的數(shù)據(jù)庫,通過分析已知結(jié)構(gòu)來尋找規(guī)律,然而這種方法在預(yù)測新結(jié)構(gòu)和功能方面存在局限性。而且傳統(tǒng)的結(jié)構(gòu)-活性關(guān)系(SAR)研究需要逐步解析化學(xué)分子從化學(xué)式到三維構(gòu)象,再到與蛋白質(zhì)或藥物靶點的相互作用,每一步都需要明確的關(guān)系。
隨著人工智能技術(shù)的發(fā)展,特別是深度學(xué)習(xí)的引入,生物醫(yī)藥領(lǐng)域進入了端到端學(xué)習(xí)的新時代:這種方法允許從化學(xué)式直接預(yù)測分子的功能,中間過程由模型自動處理,減少了人為干預(yù)。
這得益于強大的計算資源和先進的模型,使得科學(xué)家不再需要關(guān)注每個環(huán)節(jié)的細節(jié),而是直接獲得高準(zhǔn)確率的預(yù)測結(jié)果。
Janice
N-1 Life創(chuàng)始人:
這時候人就已經(jīng)跟不上機器的速度。對于科學(xué)家來講,現(xiàn)在我們要嘗試去理解并不是每個環(huán)節(jié)都要有結(jié)論,因為就算有結(jié)論也不一定是正確的,在化學(xué)生物界很難去證實,大家都是在不斷的證偽,產(chǎn)生了很多假設(shè)。
這些假設(shè)將引導(dǎo)我們走向不同的研究方向,但有時設(shè)計的藥物、采取的途徑可能并不正確,這也是生物醫(yī)藥領(lǐng)域之所以困難的原因之一。
在這種情況下,AI可以不用管中間的過程、直接為我們提供一個結(jié)果,而且準(zhǔn)確率正不斷提升,所以我覺得完全是一個新時代。
AI技術(shù)的演進,我們可以從前面提到的Alpha Fold1、2、3代可以看出來:
為了構(gòu)建AlphaFold1,DeepMind用數(shù)千種已知蛋白質(zhì)訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò),直到它能夠僅從氨基酸就能預(yù)測出3D結(jié)構(gòu)。
當(dāng)給定一種新蛋白質(zhì)時,AlphaFold使用神經(jīng)網(wǎng)絡(luò)來預(yù)測氨基酸對之間的距離,以及連接它們的化學(xué)鍵之間的角度。
在第二步中,AlphaFold調(diào)整了草圖結(jié)構(gòu)以找到最節(jié)能的排列,這個程序剛開始時花了兩周時間預(yù)測其第一個蛋白質(zhì)結(jié)構(gòu),但現(xiàn)在只需幾個小時就能預(yù)測出來。
AlphaFold2,則是運用了深度卷積神經(jīng)網(wǎng)絡(luò)來進行訓(xùn)練。AlphaFold3,就已經(jīng)是Transformer加Difusion模型了。
Janice
N-1 Life創(chuàng)始人:
Alphafold 1的時候,用的還是傳統(tǒng)的解題思路,但是AlphaFold 2就跳過了這一塊,直接去用深度神經(jīng)網(wǎng)絡(luò)預(yù)測了蛋白質(zhì)的結(jié)構(gòu)。
在蛋白質(zhì)預(yù)測領(lǐng)域,除了谷歌外還有其他公司也在構(gòu)建類似的大型模型。例如Meta的ESM Fold、David Baker團隊的Rosetta Fold都是競爭對手。
然而到了AlphaFold 3的時代,其準(zhǔn)確度已經(jīng)遠遠超過了其他模型,所以谷歌給到的那么多資源支持,確實讓他們在領(lǐng)域內(nèi)領(lǐng)先了。
了解了計算機技術(shù)改造生物醫(yī)藥行業(yè)的三個階段,下一個問題是:AI技術(shù)會帶來什么樣的革新?
首先,人工智能(AI)技術(shù)的應(yīng)用顯著加速了藥物研發(fā)進程,進而降低了成本。
傳統(tǒng)藥物開發(fā)通常需要5到10年才能篩選出一個先導(dǎo)化合物(lead candidate),然后再進入臨床試驗階段。AI的引入使這一過程大幅縮短,例如Iambic Therapeutics公司在9個月內(nèi)開發(fā)出一個新分子,并在24個月內(nèi)進入臨床試驗。
其次,AI的優(yōu)勢在于減少了對大量化合物合成和實驗室實驗的依賴,更多地利用計算機模擬進行預(yù)測和驗證。這使得資源分配從傳統(tǒng)的實驗室實驗轉(zhuǎn)向計算能力的投入,隨著計算技術(shù)的不斷革新,預(yù)計成本將持續(xù)下降。
此外,AI在自然語言處理(NLP)領(lǐng)域的成功,如ChatGPT的出現(xiàn),進一步提升了人們對AI在藥物研發(fā)中潛力的認識。這促使研究人員探索將大型語言模型(LLM)等先進AI技術(shù)應(yīng)用于藥物開發(fā),以提高效率和成功率。
車興
YDS Pharmatech創(chuàng)始人兼CEO:
在ChatGPT出來前,我們探索了純用RL和基于圖的方法,發(fā)現(xiàn)成功率較低,且計算成本比較高。
后來ChatGPT太成功了,吸引了大家的注意。加上我們之前嘗試的其他技術(shù)路徑,都存在一些不盡如人意的地方。
我們的AI案例主要關(guān)注自然語言處理(NLP),在了解ChatGPT的方法后,我們就能夠更好地應(yīng)用它,這也是我們技術(shù)傳承和積累的結(jié)果。
04 未來,剛剛開始
毫無疑問的是,AI正在影響生物行業(yè)的方方面面。當(dāng)談到生物科技時,不僅僅是制藥公司,從藥物發(fā)現(xiàn)到開發(fā),再到藥物制造、監(jiān)管、臨床試驗和診斷的各類公司,都在受到AI的影響。
例如,藥企想要進行臨床試驗時,需要向FDA提交數(shù)百頁的文件來證明他們的數(shù)據(jù)有效,申請藥物的批準(zhǔn)。過去,這些工作完全由人來完成,光是準(zhǔn)備這些文件就可能花費100萬美元。
但現(xiàn)在有了AI工具,比如大語言模型和其他用于數(shù)據(jù)總結(jié)和分析的工具,這些時間和費用都可以節(jié)省。但這并不意外,因為文本、數(shù)值數(shù)據(jù)、圖像處理正好是AI擅長處理的。
Randy Schekman
2013年諾貝爾生理學(xué)或醫(yī)學(xué)獎得主:
AI正被用于評估當(dāng)前生成的大量數(shù)據(jù),這還只是開始,因此其中蘊藏著許多機會。
在硅谷101的線下AI論壇上,F(xiàn)usion Fund的聯(lián)合創(chuàng)始人張璐也提到:現(xiàn)在到了AI在醫(yī)療健康領(lǐng)域大顯身手的黃金時期。
AI不僅在醫(yī)療健康行業(yè)中得到各種應(yīng)用,包括數(shù)字診斷、治療到數(shù)字生命科學(xué)和數(shù)字生物學(xué)等。更重要的是,AI也需要醫(yī)療健康行業(yè),這個行業(yè)有大量高質(zhì)量的數(shù)據(jù),能夠展現(xiàn)AI的能力。
張璐
Fusion Fund創(chuàng)始合伙人:
人類社會產(chǎn)生的數(shù)據(jù)大約30%是與醫(yī)療保健相關(guān)的,在這30%的數(shù)據(jù)中,目前只有5%得到了有價值的分析。
這就像一個尚未開發(fā)的金礦,我們還沒挖掘出它的真正價值。現(xiàn)在,人們終于開始嘗試學(xué)習(xí)并應(yīng)用新技術(shù),吸引最優(yōu)秀的人才和資源,推動不同的創(chuàng)新,這些創(chuàng)新會涉及到計算生物學(xué)、數(shù)字生物學(xué)和合成生物學(xué)。
對于AI在生命科學(xué)領(lǐng)域的最具潛力的投資方向,張璐甚至還提到了一點,隨著Space X Starship的成功發(fā)射,意味著未來人類探索宇宙的時間表可能會在五到十年內(nèi)出現(xiàn)。
太空環(huán)境會為數(shù)字治療、數(shù)字生物學(xué)提供哪些新的解決方案、新的結(jié)果呢?這也是一個非常有趣的腦洞。
目前AI的應(yīng)用主要集中在研發(fā)階段,雖然在如何把AI整合進生物醫(yī)藥的整個鏈條、尤其是商業(yè)運營上還在摸索,但已經(jīng)可以看到不少科技公司的頻繁動作:
英偉達開始頻繁在AI制藥領(lǐng)域投資出手,2023年的5月至11月,半年間陸續(xù)投資了9家AI制藥公司,其中有2013年成立的上市公司,也有剛成立、募集種子輪融資的新公司。
亞馬遜云科技宣布與生命科學(xué)行業(yè)商業(yè)服務(wù)提供商EVERSANA合作,共同推廣AI驅(qū)動制藥等應(yīng)用。
谷歌云宣布與生物制藥上市公司Insmed合作,利用AI技術(shù)提高效率,減少新藥開發(fā)和交付的時間
在AI技術(shù)飛速發(fā)展的新周期中,我們迫切地希望看到科技公司和生物醫(yī)藥公司能強強聯(lián)手,加速人類的健康醫(yī)療水平的進步。
而未來,才剛剛開始。