文| IT時(shí)報(bào)記者 崔鵬志
編輯|挨踢妹
在生活中,人工智能最有可能率先帶來(lái)的顛覆是什么?自動(dòng)駕駛或是無(wú)人餐廳固然美好,但更像“錦上添花”。事實(shí)上,一個(gè)真正同我們生活息息相關(guān)的領(lǐng)域正在因AI發(fā)生巨變——生物制藥。
一款新藥的誕生往往需要經(jīng)過超十年的研發(fā)周期,數(shù)十億美元的研發(fā)投入,面對(duì)不到十分之一的成功率,過高的付出也使得成品藥售價(jià)高昂——但AI則有可能改變這一切,重塑藥物設(shè)計(jì)的整體生態(tài)。
擊敗人類職業(yè)圍棋選手后,AlphaGo“選擇”了AI制藥的道路。2017年,AlphaGo背后的谷歌子公司DeepMind開始將目光轉(zhuǎn)向藥學(xué)關(guān)鍵問題“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)”。
2020年末的CASP 14(第十四屆蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)技術(shù)評(píng)估大賽)上,DeepMind提出的深度神經(jīng)網(wǎng)絡(luò)蛋白質(zhì)形態(tài)預(yù)測(cè)方法AlphaFold 2在第一代的基礎(chǔ)上再度進(jìn)化,媲美人工實(shí)驗(yàn)結(jié)果,以超越所有傳統(tǒng)計(jì)算方法的精確度徹底改變生物制藥格局,也讓AI制藥走向時(shí)代浪尖。
將近兩年時(shí)間過去,AI制藥走到哪一步?
2022年世界人工智能大會(huì)(WAIC),由上海市生物醫(yī)藥產(chǎn)業(yè)促進(jìn)中心、上海市人工智能行業(yè)協(xié)會(huì)、機(jī)器之心主辦的生物計(jì)算論壇上,高校、機(jī)構(gòu)、企業(yè)等多方面的專家學(xué)者齊聚,讓一幅由AI全面改變的生物制藥圖卷徐徐展開:
人工智能并不是“救世主”,但生物制藥期待一場(chǎng)“工具革命”。
1.AI顛覆蛋白質(zhì)預(yù)測(cè)
AlphaFold 2的“看家本事”蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),也是AI制藥的重要切入點(diǎn)。
蛋白質(zhì)是人體和各種生物構(gòu)成的重要基本大分子,由各種氨基酸形成的肽鏈折疊而成。在生物學(xué)上,蛋白質(zhì)的三維結(jié)構(gòu)直接決定其功能,而現(xiàn)有藥物大多是小分子化學(xué)藥,作用靶點(diǎn)大部分落在蛋白質(zhì)上。如果能精準(zhǔn)繪制出蛋白質(zhì)的三維結(jié)構(gòu),便能針對(duì)性地進(jìn)行藥物設(shè)計(jì)和疾病治療。
1972 年,美國(guó)科學(xué)家Christian Anfinsen曾提出著名推論:理論上,蛋白質(zhì)氨基酸序列可完全決定其三維結(jié)構(gòu)。
但這條從生物學(xué)角度衍化的思路是一條“死路”。在形成三維結(jié)構(gòu)前,蛋白質(zhì)的折疊方式是個(gè)天文數(shù)字?;谛蛄?,以往的實(shí)驗(yàn)技術(shù)大多耗時(shí)、耗資成本巨大,卻收效甚微。人們開始轉(zhuǎn)向其他方法,例如通過計(jì)算機(jī)模擬原子空間坐標(biāo)的方法“預(yù)測(cè)”三維結(jié)構(gòu)。
但蛋白質(zhì)結(jié)構(gòu)復(fù)雜,即使動(dòng)用超級(jí)計(jì)算機(jī),仍無(wú)法確保準(zhǔn)確率,所以AlphaFold 2才被稱譽(yù)“解決了困擾生物學(xué)界50年的難題”。
“AI顛覆了蛋白質(zhì)預(yù)測(cè),基于序列的研究轉(zhuǎn)向基于結(jié)構(gòu)的研究。”分子之心創(chuàng)始人許錦波解釋,而將近30年共14屆CASP的預(yù)測(cè)數(shù)據(jù)列成折線圖,橫坐標(biāo)為測(cè)試蛋白的難易程度,縱坐標(biāo)為得分,在難度逐漸上升的情況下,不難看出AI兩代深度學(xué)習(xí)算法帶來(lái)的“跳躍”。
AlphaFold 2并非沒有局限性,它通過在數(shù)據(jù)庫(kù)中搜尋目標(biāo)氨基酸的相關(guān)序列,提取學(xué)習(xí)相鄰“共進(jìn)化”氨基酸的信息,從而在三維空間對(duì)蛋白質(zhì)結(jié)構(gòu)進(jìn)行預(yù)測(cè)。但這并非Christian Anfinsen所言“僅依靠自身序列推測(cè)蛋白質(zhì)結(jié)構(gòu)”。AlphaFold 2的成功在于有大量實(shí)驗(yàn)數(shù)據(jù)樣本“投喂”訓(xùn)練,但缺點(diǎn)是一旦遇到特殊結(jié)構(gòu),便無(wú)法完成準(zhǔn)確預(yù)測(cè)。
今年7月,Meta推出單序列方法ESMfold,帶起一波完全依靠單序列方法預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的潮流——但事實(shí)證明,這種方法仍不理想。
在以深度學(xué)習(xí)算法預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)上,許錦波的團(tuán)隊(duì)比AlphaFold更早,他們?cè)?016年首度證明深度學(xué)習(xí)在預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)上的作用,為AI 蛋白質(zhì)預(yù)測(cè)完成奠基,對(duì)這條賽道有著深刻認(rèn)知。
“前陣子國(guó)際上火的單序列預(yù)測(cè)方法以及AlphaFold 2,實(shí)際上都無(wú)法脫離對(duì)共進(jìn)化、同源信息的依賴?!痹S錦波分享,針對(duì)沒有“兄弟姐妹”的“孤兒蛋白”,流行的單序列方法最大的優(yōu)勢(shì)在于速度,并沒有解決真正的問題,此外難題還有針對(duì)“蛋白質(zhì)和其他分子相互作用”“點(diǎn)突變影響”“蛋白質(zhì)復(fù)合物”“蛋白質(zhì)優(yōu)化和從頭設(shè)計(jì)”的研究。
攻克難題任重道遠(yuǎn),但另一方面,這些前沿痛點(diǎn)也是生物計(jì)算從業(yè)者的創(chuàng)業(yè)風(fēng)口。天壤 XLab成立于2019年,如今團(tuán)隊(duì)正集中于“蛋白質(zhì)從頭設(shè)計(jì)”。
“蛋白質(zhì)設(shè)計(jì)將引領(lǐng)生命科學(xué)的浪潮?!碧烊?XLab 負(fù)責(zé)人苗洪江指出,100個(gè)氨基酸的蛋白質(zhì)擁有20的100次方可能序列空間,而自然蛋白只是其中一小部分,“從頭設(shè)計(jì)”蛋白質(zhì)便可探索廣闊蛋白質(zhì)空間,解決人類在能源、醫(yī)療等方面難題,以往的方法流程復(fù)雜難以落地,而AI蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)對(duì)上億預(yù)測(cè)信息的開源,使得這一賽道進(jìn)入“新時(shí)代”。
2.作為“解決辦法”的生物計(jì)算
生物制藥是一個(gè)長(zhǎng)長(zhǎng)的鏈條,除蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)外,生物計(jì)算、AI制藥的應(yīng)用涵蓋多個(gè)生物醫(yī)藥研究領(lǐng)域,包括高通量藥物分子篩選、藥物靶點(diǎn)發(fā)掘、藥物分子性質(zhì)預(yù)測(cè)等。
從應(yīng)用端,加拿大皇家科學(xué)院院士李明分享團(tuán)隊(duì)在癌癥治療方面的AI實(shí)踐。
近些年來(lái),癌癥治療逐漸走向個(gè)體化免疫治療,以Neoantigens(新抗原)為基礎(chǔ)的治療方法,被認(rèn)為個(gè)體化治療的革命。當(dāng)細(xì)胞變成癌細(xì)胞后,細(xì)胞表面會(huì)表達(dá)出一段不變異的蛋白質(zhì)作為信號(hào)源,告訴T細(xì)胞來(lái)消滅自己,這便是“新抗原”,也即免疫治療的藥靶。
“《Nature Biotechnology》提出兩個(gè)問題:找到所有癌細(xì)胞表面的peptides(肽鏈);確定它們的免疫原性?!崩蠲鞅硎荆瑸榻鉀Q第一個(gè)問題,團(tuán)隊(duì)用5年時(shí)間開發(fā)出一套用于De novo peptide sequencing(多肽從頭測(cè)序)的深度學(xué)習(xí)算法,將精度提高3倍。
而確定免疫原性的問題要更為復(fù)雜。往往,1000個(gè)肽鏈中只有千分之七左右擁有免疫原性。在驗(yàn)證免疫原性的過程中,癌細(xì)胞上的MHC-1(主要組織相容性復(fù)合物1類分子)以及T細(xì)胞表面的TCR(T細(xì)胞抗原受體)是不可或缺的要素,后者卻無(wú)從尋覓。
李明團(tuán)隊(duì)的辦法是使用人工智能模型模擬人體生成T細(xì)胞的“中心耐受系統(tǒng)”,避開使用真正的人體“濕實(shí)驗(yàn)”,證明面對(duì)特定肽鏈“存在”T細(xì)胞,從而對(duì)免疫原性進(jìn)行檢測(cè)。如今使用這套系統(tǒng),已經(jīng)能夠確保主要新抗原在排序的前1.5%中。
回到AI藥物研發(fā),除去圍繞蛋白質(zhì)的底層設(shè)計(jì)、結(jié)構(gòu)預(yù)測(cè),也有企業(yè)將目光投向制藥產(chǎn)業(yè)鏈條環(huán)節(jié)的優(yōu)化。
“醫(yī)藥研發(fā)前期如果存在一些模型、方法,能夠考慮后面的失敗因素,讓藥物篩選、靶點(diǎn)選擇一次性通過,便能縮短新藥研發(fā)流程?!盉ioMap 首席 AI 科學(xué)家宋樂介紹,團(tuán)隊(duì)致力于在AI模型方面建設(shè),旗下的xTrimo大模型是一個(gè)生物跨模態(tài)預(yù)訓(xùn)練模型,包括從蛋白質(zhì)、蛋白質(zhì)相互作用、細(xì)胞、細(xì)胞系統(tǒng)的“四層嵌套”,通過收集數(shù)據(jù)進(jìn)行大規(guī)模預(yù)訓(xùn)練,可以有效支持靶點(diǎn)發(fā)現(xiàn)和藥物設(shè)計(jì)的驗(yàn)證。
3.落地還需要5~10年
“穩(wěn)定的技術(shù)路線形成要5~10年,為制藥行業(yè)帶來(lái)本質(zhì)性的顛覆還要5~10年?!边@是微軟杰出首席科學(xué)家劉鐵巖對(duì)AI制藥賽道的預(yù)測(cè)。
事實(shí)上,這一預(yù)測(cè)的速度并不慢。5年間,國(guó)產(chǎn)生物醫(yī)藥創(chuàng)新藥起步,人工智能技術(shù)迎來(lái)爆發(fā)性發(fā)展,AI制藥的短暫歷史,是人們拿著人工智能的“錘子”敲生物的“釘子”的歷史。
晶泰科技CEO馬健在2015年闖入AI制藥,是國(guó)內(nèi)最早一批賽道玩家之一。這一年,藥明康德回國(guó),“722”事件使國(guó)產(chǎn)生物藥轉(zhuǎn)向創(chuàng)新,2017年AI和制藥開始逐漸結(jié)合,之后數(shù)年便是在香港“18A”、科創(chuàng)板成立、疫情等因素刺激下的高速增長(zhǎng)期。
“生物計(jì)算的兩個(gè)紅利,一是互聯(lián)網(wǎng)下半場(chǎng)、國(guó)家政策驅(qū)動(dòng)的資本紅利;二是技術(shù)紅利,算法、深度學(xué)習(xí)、3C制造的迅速發(fā)展?!瘪R健總結(jié)道,而從2021年下半年,這段高度發(fā)展的歷史因國(guó)內(nèi)外AI創(chuàng)新藥陸續(xù)進(jìn)入臨床試驗(yàn)階段,迎來(lái)退潮期,重視商業(yè)化。
面對(duì)當(dāng)下,劉鐵巖認(rèn)為還有不少問題。例如,在“靶標(biāo)蛋白的結(jié)構(gòu)預(yù)測(cè)”這類技術(shù)較為成熟的領(lǐng)域,賽道玩家會(huì)更加“扎堆”;傳統(tǒng)的人工智能算法和工具起作用,但針對(duì)生物制藥領(lǐng)域的特異化設(shè)計(jì)仍然不夠;參與者眾多的AI制藥公開比賽、公共數(shù)據(jù)很難反映藥物設(shè)計(jì)的全貌,而藥物數(shù)據(jù)多為藥廠私有,難以形成如同“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)”這一熱門領(lǐng)域的數(shù)據(jù)公開風(fēng)氣。
“希望大家能以更加長(zhǎng)遠(yuǎn)、基礎(chǔ)的視角看待AI制藥研究?!眲㈣F巖呼吁,藥物設(shè)計(jì)本身是個(gè)“搜索的問題”,強(qiáng)化學(xué)習(xí)技術(shù)在生物制藥仍將是有潛力的。
從生物醫(yī)藥行業(yè)角度,上海生物醫(yī)藥促進(jìn)中心副主任唐軍認(rèn)為,AI帶來(lái)的影響等于“重新打開一扇大門”,例如李明教授帶來(lái)的“抗原免疫原性篩選系統(tǒng)”,面對(duì)同樣問題,生物醫(yī)藥的傳統(tǒng)辦法是使用小白鼠免疫系統(tǒng)進(jìn)行動(dòng)物實(shí)驗(yàn),耗資巨大、工作量繁復(fù)但準(zhǔn)確率有限。
同時(shí),唐軍也指出,一款新藥的誕生除去解決科研問題,還有很多流程:在實(shí)驗(yàn)室中做好質(zhì)量、成本控制;金融方面撬動(dòng)股權(quán)融資;監(jiān)管方面完成器械、藥物注冊(cè);臨床階段尋找醫(yī)生、臨床資源;藥物上市后做好銷售工作、協(xié)調(diào)完成醫(yī)保、定價(jià)系統(tǒng)——新藥上市能賺到錢非常困難,而這些環(huán)節(jié)AI同樣無(wú)法“施展拳腳”。
生物制藥產(chǎn)業(yè)“水很深”。
馬健將產(chǎn)業(yè)分為生物學(xué)挑戰(zhàn)和工程技術(shù)挑戰(zhàn)兩大類。從小分子晶體結(jié)構(gòu)預(yù)測(cè)到AI藥物分子設(shè)計(jì),再到搭建干濕實(shí)驗(yàn)室和自動(dòng)化,他“什么都做過”。在馬健眼中,早期生物學(xué)方面的業(yè)務(wù)給藥化學(xué)家?guī)?lái)的是“啟發(fā)”,隨后轉(zhuǎn)向工程技術(shù)方面,在深圳、上海建起數(shù)千平方米的自動(dòng)化化學(xué)合成實(shí)驗(yàn)室,希望解決大分子AI結(jié)合的合成瓶頸、藥物數(shù)據(jù)獲取成本等“工程問題”。
去年回國(guó),創(chuàng)立華深智藥的CEO彭健則感到,制藥行業(yè)是非常長(zhǎng)的鏈條。“這一年我和很多專家討論,大家認(rèn)為成功率最重要?!彼硎荆?017年以后上市的藥臨床、生產(chǎn)考量趨向早期化——從產(chǎn)業(yè)鏈條思考問題,很早注入到AI算法中,能在設(shè)計(jì)預(yù)測(cè)時(shí)起到重要作用。
“我們不要認(rèn)為,拿著AI的大錘到處敲一敲就可以顛覆制藥行業(yè)。”劉鐵巖說(shuō),藥物發(fā)現(xiàn)不是典型的人工智能問題,能通過臨床且具有足夠有效性的藥物便是成功的,AI總是尋求期望意義上的最優(yōu),而對(duì)有限已知數(shù)據(jù)的調(diào)優(yōu)沒有價(jià)值。
在交流中,不少專家、學(xué)者都持有一個(gè)同樣的觀點(diǎn):AI制藥的真正閉環(huán)將大大促進(jìn)行業(yè)的發(fā)展,人們需要臨床數(shù)據(jù)、藥物數(shù)據(jù)的暢通,也需要AI技術(shù)專家,生物、化學(xué)、制藥專家共同反饋,有效、迅速、正確地使AI趨向完善,就如同互聯(lián)網(wǎng)公司輕松完成的個(gè)人偏好內(nèi)容算法推薦。
無(wú)論如何,AI制藥尚且“年輕”,一條長(zhǎng)路待人踏足。5年間,人們逐漸發(fā)現(xiàn),至少在制藥領(lǐng)域,人工智能顯然不會(huì)自動(dòng)將答案遞上。
“有人跟我說(shuō)AI就是個(gè)工具,”馬健說(shuō),“AI確實(shí)就是個(gè)工具,但每一次人類工業(yè)革命,都是工具的革命”。
排版/ 季嘉穎