文|動(dòng)脈網(wǎng)
美東時(shí)間5月8日,谷歌DeepMind與 Isomorphic Labs(DeepMind 創(chuàng)始人創(chuàng)立)宣布推出新一代AI生物分子結(jié)構(gòu)模型AlphaFlod 3。
據(jù)悉,新的模型不僅局限于蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè),它還能夠預(yù)測(cè)DNA、RNA、配體等生命分子的結(jié)構(gòu)和相互作用,甚至可以預(yù)測(cè)翻譯后修飾(PTM)和離子對(duì)相應(yīng)分子系統(tǒng)結(jié)構(gòu)的影響。研究人員僅需輸入一個(gè)生物分子復(fù)合體的基本描述,幾秒后便能收獲該復(fù)合體3D結(jié)構(gòu)的準(zhǔn)確預(yù)測(cè)。
被《Nature 》收錄的《Accurate structure prediction of biomolecular interactions with AlphaFlod?3》 對(duì)模型的能力進(jìn)行了詳細(xì)論證。
據(jù)論文數(shù)據(jù)顯示:與現(xiàn)有的預(yù)測(cè)方法相比,AlphaFlod 3無(wú)需輸入任何結(jié)構(gòu)信息的情況下,其準(zhǔn)確性已比PoseBusters基準(zhǔn)上的最佳傳統(tǒng)方法高出50%(一些特殊場(chǎng)景可達(dá)100%),理論上優(yōu)于現(xiàn)有的基于物理的生物分子結(jié)構(gòu)預(yù)測(cè)工具。
不過(guò),任何工具的使用都不能脫離實(shí)際。經(jīng)歷數(shù)天測(cè)試,已有不少專家學(xué)者引入實(shí)際問(wèn)題對(duì)AlphaFlod 3的能力評(píng)估。就目前測(cè)試結(jié)果而言,AlphaFlod 3確實(shí)充滿潛力,但還不足以“顛覆”這一領(lǐng)域。
全生命分子預(yù)測(cè),AlphaFlod 3更接近AIDD了
與過(guò)往的AlphaFlod系列工具類似,AlphaFlod 3也采取了神經(jīng)網(wǎng)絡(luò)架構(gòu),并以蛋白質(zhì)數(shù)據(jù)庫(kù)(PDB)中的全球分子結(jié)構(gòu)數(shù)據(jù)為基礎(chǔ)進(jìn)行訓(xùn)練。不過(guò),AlphaFlod 3的預(yù)測(cè)準(zhǔn)度在大部分場(chǎng)景中都遠(yuǎn)超前代產(chǎn)品,且在預(yù)測(cè)范疇上實(shí)現(xiàn)了大規(guī)模的擴(kuò)充。
這些能力的升級(jí)來(lái)源于AlphaFlod 3新引入的主要組件,包括升級(jí)版的Evoformer模塊(現(xiàn)為Pairformer 模塊)、全新的Diffusion Network等。其中,Diffusion Network從點(diǎn)云通過(guò)概率擴(kuò)散預(yù)測(cè)坐標(biāo),進(jìn)而實(shí)現(xiàn)了更高的預(yù)測(cè)精度。
此外,一些模型上的創(chuàng)新也對(duì)AlphaFlod 3的預(yù)測(cè)結(jié)果進(jìn)行了優(yōu)化。在手性分子等形態(tài)相似結(jié)構(gòu)上,算法常會(huì)發(fā)生預(yù)測(cè)錯(cuò)誤。這類情況下,AlphaFlod 3采用了交叉蒸餾的方式,讓具備Transform模型的AlphaFlod 2先行預(yù)測(cè),再把預(yù)測(cè)數(shù)據(jù)添加到 AlphaFlod 3 的訓(xùn)練中,一定程度提升了預(yù)測(cè)的準(zhǔn)確率。
論文展示了部分AlphaFlod 3的預(yù)測(cè)結(jié)果。例如對(duì)感冒病毒刺突蛋白( 藍(lán)色 )與抗體( 綠松石色 )和單糖( 黃色 )相互作用時(shí)的結(jié)構(gòu)預(yù)測(cè),與真實(shí)結(jié)構(gòu)準(zhǔn)確匹配( 灰色的)中,它與實(shí)驗(yàn)室得到的結(jié)果幾近完全匹配(灰色部分)。
對(duì)蛋白質(zhì)和DNA結(jié)合的分子復(fù)合物(7R6R - DNA 結(jié)合蛋白)進(jìn)行預(yù)測(cè),預(yù)測(cè)模型也與實(shí)驗(yàn)測(cè)定的真實(shí)分子結(jié)構(gòu)( 灰色 )完美匹配,且精度達(dá)到了遠(yuǎn)超其他模型的原子級(jí)。
在生成預(yù)測(cè)結(jié)果后,AlphaFlod3 還會(huì)提供一個(gè)置信度分?jǐn)?shù),評(píng)估該次預(yù)測(cè)結(jié)果的準(zhǔn)確度,為研究人員提供參考。
論文展示的AlphaFlod3 的能力對(duì)于理解人類免疫反應(yīng)的各個(gè)方面和新抗體的設(shè)計(jì)至關(guān)重要。這一新的工具顯然可以通過(guò)幫助研究人員了解如何接近新的疾病靶點(diǎn),進(jìn)而開發(fā)新的方法來(lái)追求以前遙不可及的靶點(diǎn),最終加速藥物設(shè)計(jì)并提高其成功率。
此外,論文提及的RNA的預(yù)測(cè)能力同樣具備極大的想象空間。
以往的藥物靶點(diǎn)大部分都是蛋白質(zhì)靶點(diǎn),但實(shí)際上RNA會(huì)成為一個(gè)比較好的潛在靶點(diǎn)。通過(guò)阻斷RNA表達(dá)或阻斷RNA與蛋白質(zhì)形成復(fù)合物,從而阻斷蛋白質(zhì)形成功能,藥物的療效或許會(huì)比蛋白質(zhì)靶點(diǎn)表現(xiàn)更好。
但在過(guò)去的采用非AlphaFlod工具進(jìn)行的RNA三維結(jié)構(gòu)預(yù)測(cè)中,絕大部分的預(yù)測(cè)誤差超過(guò)了10埃,與物理預(yù)測(cè)方式存在一定差距。理論上要實(shí)現(xiàn)RNA結(jié)構(gòu)計(jì)算相關(guān)的應(yīng)用,精度最好控制在2-3埃左右。
如果AlphaFlod 3能夠攻克RNA結(jié)果預(yù)測(cè),使其預(yù)測(cè)結(jié)果達(dá)到跟蛋白質(zhì)預(yù)測(cè)差不多的水平,那么這一工具或能優(yōu)化mRNA的蛋白表達(dá),優(yōu)化其穩(wěn)定性,加速針對(duì)RNA target的藥物設(shè)計(jì),甚至加速將RNA本身作為新型藥物的藥物研發(fā)。
算法閉源,AlphaFlod 3或?qū)㈤_啟AI分子預(yù)測(cè)付費(fèi)時(shí)代
在理想情況下,原先需要花大量時(shí)間精力和資金才能觀察到的現(xiàn)象,現(xiàn)在只需要在DeepMind的界面中輸入?yún)?shù),便能在數(shù)分鐘內(nèi)得到極高清晰度和準(zhǔn)確度的生物大分子模型,甚至明確該大分子細(xì)胞系統(tǒng)內(nèi)部的生化過(guò)程,展現(xiàn)如何與抗體、核酸進(jìn)行反應(yīng),因而能在行業(yè)之中引起轟動(dòng)。
但在實(shí)際測(cè)試中,AlphaFlod 3的能力或許不如大家期待的那樣理想。
顏寧教授團(tuán)隊(duì)在微博上表示,AlphaFlod針對(duì)一個(gè)糖蛋白的預(yù)測(cè)不如上一代版本?!斑@次的server版本我覺(jué)得是一個(gè)速度和準(zhǔn)確度的平衡,正確率不是最好的。我現(xiàn)在手上有三個(gè)都是比較奇怪的蛋白,之前我自己搭的AF2 multimer可以在很低的ranking position找到一兩個(gè)正確的conformation,這次的server版本測(cè)試全軍覆沒(méi)?!?/p>
也有學(xué)者在試用AlphaFlod 3后發(fā)現(xiàn)DeepMind并沒(méi)有將文章中引以為傲的蛋白-小分子配體預(yù)測(cè)任務(wù)公開,用戶仍然不能自定義配體進(jìn)行復(fù)合物結(jié)構(gòu)預(yù)測(cè)(aka對(duì)接)。
此外,AlphaFlod 3也因尚未開源在學(xué)界引起激烈討論。
目前,DeepMind僅為該模型發(fā)布了一個(gè)名為AlphaFlod Server 的公共接口,該接口對(duì)可以進(jìn)行實(shí)驗(yàn)的分子施加了限制,僅允許每位用戶每天進(jìn)行10次預(yù)測(cè),且不提供可能與藥物結(jié)合的蛋白質(zhì)結(jié)構(gòu)。
在實(shí)際操作中,研究人員為獲得最高精度,需要生成大量預(yù)測(cè)結(jié)構(gòu)并對(duì)其進(jìn)行排名,特別是對(duì)于抗體-抗原復(fù)合物,預(yù)測(cè)質(zhì)量隨著模型種子的數(shù)量增加而顯著提高,因而對(duì)工具的篩選功能提出考量。畢竟制藥公司并不關(guān)心研究人員能找出多少小分子,也不關(guān)心提供的分子是自己生成,還是從數(shù)據(jù)庫(kù)里篩選,他們只在乎能否找到一個(gè)抑制蛋白質(zhì)的最合適的小分子。
但就AlphaFlod Server現(xiàn)階段可以提供的服務(wù)而言,研究人員很難借助這一工具實(shí)現(xiàn)期望中的價(jià)值。AlphaFlod 3的使用限制中明確指出預(yù)測(cè)結(jié)果不準(zhǔn)商用,也不能用于對(duì)接和虛擬篩選,
業(yè)內(nèi)人士認(rèn)為,AlphaFlod 3的開源至少會(huì)等到12月的CASP16結(jié)束后。但考慮到 Isomorphic Labs 參與了AlphaFlod 3的研發(fā)工作,DeepMInd這一次可能不會(huì)向?qū)W界開源它的開源推理代碼或可執(zhí)行文件,也不會(huì)開源算法和原理。畢竟,這些算法已經(jīng)成為 Isomorphic Labs 的核心資產(chǎn)。
今年1月,Isomorphic Labs宣布與禮來(lái)和諾華達(dá)成了兩項(xiàng)價(jià)值30億美元的藥物發(fā)現(xiàn)協(xié)議,合作涉及針對(duì)多種疾病相關(guān)蛋白和途徑的治療方法的發(fā)現(xiàn),正與AlphaFlod 3對(duì)抗原抗體復(fù)合體的預(yù)測(cè)能力、對(duì)蛋白配體復(fù)合體的預(yù)測(cè)能力、對(duì)蛋白核酸復(fù)合體的預(yù)測(cè)能力緊密相關(guān)。
如此來(lái)看,AlphaFlod 3的未來(lái)可能會(huì)像GPT一樣被包裝成一款商用軟件,面向不同的用戶推出不同的版本。譬如,預(yù)測(cè)結(jié)構(gòu)的排序可能會(huì)成為付費(fèi)項(xiàng)目的一部分,需要研究人員有償使用。如今絕大多數(shù)研究人員已經(jīng)習(xí)慣了在論文之中附上AlphaFlod 2的預(yù)測(cè)結(jié)果,但隨著工具閉源,這一習(xí)慣或許也將逐漸改變。
不過(guò),無(wú)論是開源還是閉源,是免費(fèi)還是商用,我們都應(yīng)尊重DeepMind 與 Isomorphic Labs的選擇。畢竟,面對(duì)分子生物學(xué)理解、調(diào)節(jié)生物系統(tǒng)復(fù)雜的原子相互作用這一命題,AlphaFlod 3確實(shí)帶領(lǐng)行業(yè)向前邁出了一大步,有望實(shí)現(xiàn)在統(tǒng)一的框架內(nèi)準(zhǔn)確預(yù)測(cè)各種生物分子系統(tǒng)的結(jié)構(gòu)。
因此,合理的商用或許能夠進(jìn)一步為DeepMind與 Isomorphic Labs提供更多支持,推動(dòng)整個(gè)行業(yè)更快進(jìn)入分子生物學(xué)的下一個(gè)時(shí)代。