文|腦極體
AI能制藥,早已不是啥新鮮事了。
尤其是疫情之后,包括輝瑞、羅氏、默克、阿斯利康、葛蘭素史克、賽諾菲、強(qiáng)生等在內(nèi)的頂級(jí)制藥公司,紛紛加速擁抱人工智能,不是與AI公司合作,就是收購(gòu)或自建AI部門。
從分子實(shí)驗(yàn)到制造供應(yīng)鏈甚至市場(chǎng)營(yíng)銷,AI已經(jīng)在整個(gè)制藥價(jià)值鏈上,展現(xiàn)出極大的潛力。
AI與制藥的融合過程,以兩種模式為主:
一種是VIC模式,即“VC(風(fēng)險(xiǎn)投資)+IP(知識(shí)產(chǎn)權(quán))+CRO(研發(fā)外包)”,其中AI公司作為技術(shù)外包,為藥廠提供降本增效的解決方案;
另一種是AI-Driven模式,專門以AI技術(shù)來驅(qū)動(dòng)分析預(yù)測(cè)發(fā)現(xiàn)新的化合物、蛋白質(zhì),自己研發(fā)創(chuàng)新藥。
相比“傳統(tǒng)產(chǎn)業(yè)智能化”的外包服務(wù)商,AI企業(yè)“自立山頭”制藥,有著更大的商業(yè)想象空間,也確實(shí)在過去幾年間,吸引了大規(guī)模的融資和巨頭攜資入場(chǎng),僅2021年中國(guó)該領(lǐng)域的投融資規(guī)模就超過了80億。
其中最具代表性的,就是谷歌母公司Alphabet不久前成立的AI藥物公司Isomorphic Labs,其創(chuàng)始人正是研發(fā)了AlphaFold2算法的AI先鋒DeepMind的CEO。顯然,谷歌也非??春靡约舛薃I技術(shù)在生物學(xué)領(lǐng)域“大展拳腳”的前景。
那么問題來了,生物制藥領(lǐng)域是一個(gè)專業(yè)知識(shí)壁壘極高的領(lǐng)域, AI參與制藥已經(jīng)有15-20年的時(shí)間了,期間機(jī)器學(xué)習(xí)方法一直被用于藥物發(fā)現(xiàn)和臨床試驗(yàn)當(dāng)中。2000年,利用機(jī)器進(jìn)行“高通量篩選”已經(jīng)被應(yīng)用在化合物測(cè)試當(dāng)中。但目前為止,還沒有一個(gè)驗(yàn)證AI可以“獨(dú)立行走”創(chuàng)新藥的成功案例。
制藥這條路,野心勃勃的AI公司該如何走下去?作為AI“優(yōu)等生”和醫(yī)藥“后進(jìn)生”,中國(guó)在AI制藥上的贏面究竟有多大呢?
不是藥神,AI制藥現(xiàn)在究竟幾分熟?
制藥門檻如此之高,AI公司憑什么認(rèn)為自己可以繞過物理學(xué)定律的限制“自立山頭”呢?AI真的能取代傳統(tǒng)實(shí)驗(yàn)手段,成為全村的希望嗎?
正如當(dāng)初深度學(xué)習(xí)爆火之后大眾對(duì)AI不切實(shí)際的想象和懼怕一樣,在制藥這件事上,AI也并非無所不能,我們應(yīng)該對(duì)AI設(shè)定一個(gè)合理預(yù)期:
以深度學(xué)習(xí)為主的AI技術(shù)有其適用范圍,目前主要用在分析處理醫(yī)藥數(shù)據(jù)、預(yù)測(cè)疾病靶點(diǎn)、設(shè)計(jì)和優(yōu)化化合物、實(shí)驗(yàn)自動(dòng)化等領(lǐng)域當(dāng)中,解決制藥場(chǎng)景的實(shí)際問題。
未來,隨著這些細(xì)分場(chǎng)景的不斷成功和數(shù)據(jù)積累,不斷反哺AI模型,可能3-5年才會(huì)有較大的突破。詹姆斯·貝森(James Bessen)在《邊做邊學(xué)》(Learning By Doing)一書中也提出,至少5-10年的時(shí)間AI才會(huì)讓制藥行業(yè)真正轉(zhuǎn)型。
所以,在全球范圍內(nèi),AI制藥都處在較早期的階段,AI公司造的藥,目前可能才只有“一分熟”。指望突然掉下一款由AI主導(dǎo)研發(fā)的石破天驚的創(chuàng)新藥,還是很遙遠(yuǎn)的。
既然隔行如隔山,由藥廠引入AI不是強(qiáng)強(qiáng)聯(lián)合、事半功倍嗎,為什么AI公司還要冒著失敗的風(fēng)險(xiǎn)去“另立山頭”,而資本市場(chǎng)也愿意買賬呢?
另立山頭,誰給AI企業(yè)的自信?
原因之一,是AI的角色變了。
目前,制藥行業(yè)廣泛采用的是基于目標(biāo)靶點(diǎn)的研究模式(Target-centric),即先要找到導(dǎo)致疾病的特定蛋白質(zhì)(有效靶點(diǎn)),通過分析化合物、基因、疾病和蛋白質(zhì)之間的關(guān)系,進(jìn)行有效分子的篩選與設(shè)計(jì)。這個(gè)過程往往靠的是研究人員自身的創(chuàng)造力和經(jīng)驗(yàn),離不開制藥公司大量高質(zhì)量數(shù)據(jù)的支撐。
在這個(gè)過程中,AI的發(fā)揮空間就很大了。
1.更快。隨著基因組學(xué)的發(fā)展,尋找和選擇新藥分子已經(jīng)成為一項(xiàng)數(shù)據(jù)密集型任務(wù),利用AI來自動(dòng)學(xué)習(xí)分析處理數(shù)據(jù),能夠更快地推斷出疾病機(jī)制,發(fā)現(xiàn)新靶點(diǎn),從而加速研發(fā)過程。比如麻省理工學(xué)院團(tuán)隊(duì)推出的生物技術(shù)初創(chuàng)公司ReviveMed,就是基于MIT的代謝物數(shù)據(jù)庫,分析藥物-蛋白質(zhì)、蛋白質(zhì)-蛋白質(zhì)的相互作用,識(shí)別特定的代謝物分子,找到一些有希望的治療靶點(diǎn),這些代謝物分子就有可能是未來的藥物。
2.更早。如果醫(yī)療實(shí)驗(yàn)數(shù)據(jù)是凌亂而未標(biāo)記的,那么后續(xù)的分析處理預(yù)測(cè)都不容易實(shí)現(xiàn),所以在新藥研發(fā)上面向AI的數(shù)據(jù)治理工作要開展得更早,現(xiàn)有的研發(fā)和業(yè)務(wù)流程必須重新設(shè)計(jì),才能充分發(fā)揮AI、大數(shù)據(jù)、高性能計(jì)算等的協(xié)同價(jià)值,這涉及到大規(guī)模的組織轉(zhuǎn)型,也使得數(shù)據(jù)工程師、算法工程師在制藥領(lǐng)域的參與更早、更深。
3.更廣。“靶點(diǎn)-疾病”的研發(fā)范式,使得傳統(tǒng)制藥公司不會(huì)將精力集中在罕見疾病的治療上,因?yàn)镽OI投資回報(bào)比太低,而AI技術(shù)可以通過表型數(shù)據(jù)(圖像)進(jìn)行藥物的篩選和設(shè)計(jì),反過來幫助找到新的治療靶點(diǎn),在計(jì)算機(jī)中合成和測(cè)試分子,這讓罕見病有了治療甚至治愈的希望,對(duì)全人類來說都是好事。
從實(shí)驗(yàn)室助手變成了新藥研發(fā)的主角,AI“獨(dú)立行走”的信心自然也就愈加強(qiáng)烈了。
原因之二,是重建一套新范式更方便。
雖然有一些制藥公司思想開明、態(tài)度開放,但事實(shí)是,制藥公司對(duì)其業(yè)務(wù)和研究方法的保守是出了名的,不愿意接受變革的占多數(shù)。一項(xiàng)研究顯示,2019年和2020年生命科學(xué)領(lǐng)域人工智能相關(guān)專利的申請(qǐng)中,只有不到2%是知名制藥公司提交的。
一些制藥公司甚至都沒有數(shù)字化,很多數(shù)據(jù)都用紙質(zhì)檔案保存,采用AI還需要時(shí)間;有的大型制藥公司還是傳統(tǒng)思維占主導(dǎo),傾向于研發(fā)傳統(tǒng)藥物制劑。還有的則傾向于保留數(shù)據(jù)和技術(shù)作為內(nèi)部商業(yè)機(jī)密,不愿意分享給AI技術(shù)公司……既然如此,開辟一條全新的賽道自己制藥,對(duì)AI公司來說更加靈活,研發(fā)速度也更快。
與此同時(shí),AI技術(shù)的發(fā)展,也讓AI主導(dǎo)的研發(fā)成為可能。
一方面,小樣本學(xué)習(xí)、生成技術(shù)等的應(yīng)用,可以減少研發(fā)過程中的數(shù)據(jù)依賴。比如有公司就開發(fā)了一個(gè)名為Generative TensorialReinforcement Learning(GENTRL)的平臺(tái),讓兩種DL深度學(xué)習(xí)模型來相互作用,一個(gè)生成分子,一個(gè)鑒別真假,解決實(shí)驗(yàn)數(shù)據(jù)不足的問題。而一旦確定了標(biāo)靶,就可以利用算法直接設(shè)計(jì)出所需要的分子結(jié)構(gòu)了。
另外,雖說隔行如隔山,但端到端的深度學(xué)習(xí),不需要算法人員去定義一些特征和規(guī)則,比如蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型能夠直接根據(jù)序列的特征輸出三維結(jié)構(gòu),目前已經(jīng)達(dá)到實(shí)驗(yàn)的精度。所以盡管目前人類科學(xué)對(duì)很多疾病的理解都還處于初級(jí)階段,算法人員也未必對(duì)生命科學(xué)知識(shí)十分精通,但運(yùn)用AI工具來開發(fā)新藥,完全是可行的。
原因之三,就是自己做原研藥,這件事實(shí)在太香了。
目前,抗體藥這類生物藥已經(jīng)逐漸超過了化學(xué)藥的數(shù)量,成為增長(zhǎng)最快的治療藥物。全球已經(jīng)有超過100款抗體藥上市,比如新冠特效藥就是抗體藥,找到能夠中和病毒的活性抗體來發(fā)揮作用。
以前,抗體藥需要從康復(fù)病人中去提取和篩選,這個(gè)過程費(fèi)時(shí)費(fèi)力,還有很大的不確定性。而通過AI直接對(duì)現(xiàn)有抗體進(jìn)行設(shè)計(jì)和優(yōu)化,實(shí)現(xiàn)高效的中和效果,一種新的抗體藥物就誕生了。
原研藥市場(chǎng)廣闊、利潤(rùn)豐厚,自己研發(fā)無疑把握了最具價(jià)值的一環(huán)。所以說,AI公司自己做藥它不香嗎?
中國(guó)制藥,在AI畫布上描繪全新圖景
想必很多讀者通過新聞和行業(yè)報(bào)道都發(fā)現(xiàn)了,在AI制藥這個(gè)領(lǐng)域,美國(guó)在技術(shù)、資本、產(chǎn)業(yè)規(guī)模上都處于領(lǐng)先地位,AI開發(fā)的特效藥、疫苗、療法、平臺(tái)等不斷涌現(xiàn)。
而中國(guó)在AI技術(shù)上并不落后,這是否意味著有希望在制藥領(lǐng)域取得突破呢?在AI這塊技術(shù)畫布上描繪制藥藍(lán)圖,對(duì)于中國(guó)意味著三重價(jià)值:
1.將生命福祉把握在自己手里。
在醫(yī)藥醫(yī)療領(lǐng)域,數(shù)據(jù)都是非常敏感的,比如要針對(duì)個(gè)體的基因序列和新抗原設(shè)計(jì)出對(duì)應(yīng)的藥物,對(duì)患者來說無疑是更有效、更精準(zhǔn)、更普惠的。但是基因數(shù)據(jù)如果只能交給海外科技企業(yè)來分析和生產(chǎn),其中存在的風(fēng)險(xiǎn)不用多說。
前不久《自然》雜志上就發(fā)布了一篇論文,總部位于美國(guó)北卡羅來納州的制藥公司Collaborations Pharmaceuticals,就與倫敦、瑞士的研究人員合作,訓(xùn)練出了一個(gè)藥物開發(fā)工具M(jìn)egaSyn,在短短六個(gè)小時(shí)內(nèi)自動(dòng)生產(chǎn)出40000種有毒的化學(xué)制劑。
利用AI結(jié)合群體基因特質(zhì),針對(duì)性地開發(fā)精準(zhǔn)打擊的生物武器,并非不可能。所以中國(guó)必須將AI制藥的尖端科技掌握在自己手中。
2.在原研藥領(lǐng)域取得較大突破。
大家可能都看到了,最新引進(jìn)的新冠特效藥價(jià)格高達(dá)數(shù)千元,原研藥的銷量高、利潤(rùn)高,已經(jīng)是大眾熟知的事實(shí),而開發(fā)原研藥一直是中國(guó)制藥產(chǎn)業(yè)的老大難問題。必須意識(shí)到,在傳統(tǒng)生命科學(xué)領(lǐng)域,中國(guó)的起步較晚、基礎(chǔ)也相對(duì)薄弱,比如生物實(shí)驗(yàn)中需要的高精度顯微鏡、測(cè)試試劑等也是被國(guó)外“卡脖子”的,在這種情況下,AI提供了一種開發(fā)原研藥的全新思路。
(2017年諾貝爾化學(xué)獎(jiǎng)授予三位冷凍電鏡領(lǐng)域的學(xué)者)
比如通過AI算法來代替冷凍電鏡,也可以解開蛋白質(zhì)結(jié)構(gòu)。目前,AlphaFold預(yù)測(cè)出來的結(jié)果已經(jīng)可以和冷凍電鏡的方法相媲美。隨著中國(guó)在相關(guān)算法上的突破,未來能夠降低對(duì)一些卡脖子實(shí)驗(yàn)技術(shù)的依賴。
在創(chuàng)新藥研發(fā)上,從科研到產(chǎn)業(yè)化之間的距離是非常近的,很多突破性技術(shù)和新分子都是從研究院所實(shí)驗(yàn)室中誕生,再由藥廠進(jìn)行轉(zhuǎn)化、評(píng)估、臨床試驗(yàn)……而在AI研究領(lǐng)域,中國(guó)科研院所的能力已經(jīng)處于一流水平。
AI重新定義制藥流程,有助于中國(guó)變成一個(gè)制藥強(qiáng)國(guó)。
3.進(jìn)一步發(fā)揮中國(guó)的AI產(chǎn)業(yè)優(yōu)勢(shì)。
我們都知道中國(guó)AI產(chǎn)業(yè)化的步伐很快,主要集中在互聯(lián)網(wǎng)、工業(yè)、礦山、城市管理等領(lǐng)域,在生命科學(xué)領(lǐng)域里的AI應(yīng)用,總體還處于初級(jí)階段。
無論是AI公司驅(qū)動(dòng)的創(chuàng)新藥,還是傳統(tǒng)藥廠的AI化,都有很大的發(fā)展空間。目前,幾乎中國(guó)頭部科技企業(yè)如BATH(百度、騰訊、阿里、華為)等都在AI藥物研發(fā)上有所動(dòng)作。
隨著AI制藥的進(jìn)一步發(fā)展,生命科學(xué)領(lǐng)域的數(shù)據(jù)、算力、算法都將進(jìn)一步升級(jí)迭代,工具平臺(tái)生態(tài)也將進(jìn)一步搭建和豐富起來,屆時(shí),中國(guó)在AI領(lǐng)域的優(yōu)勢(shì)也將進(jìn)一步放大。
都說“一張白紙上可以畫出最新最美的圖畫”,AI制藥之于中國(guó),就是在遠(yuǎn)遠(yuǎn)追趕的生命科學(xué)實(shí)驗(yàn)道路之外,新建一條由數(shù)據(jù)鋪成的高速公路,搭乘智能小車跑得更快、更早抵達(dá)新藥研發(fā)的目的地。
盛名之下:AI解鎖制藥的三把鑰匙
AI發(fā)展最不可或缺的,是信心。歷史上的兩次AI寒冬,就與投資者和大眾對(duì)AI回報(bào)預(yù)期的垮掉,有著直接關(guān)系。AI制藥的投融資浪潮,似乎在大鳴大放之后,不得不面對(duì)一個(gè)骨感的現(xiàn)實(shí):一開始想得很美,但突破來得很慢。
曾有一位AI制藥公司的創(chuàng)始人對(duì)媒體透露,第一輪融資時(shí)投資人希望能夠做藥,第二輪就開始建議他們做服務(wù)(也就是藥廠AI技術(shù)外包)了。
資本市場(chǎng)對(duì)AI制藥的疑慮,是高潮之下的正常調(diào)整,但要避免透支信任、解鎖光明的未來,AI制藥企業(yè)恐怕還需要拿到三把鑰匙:數(shù)據(jù)、算力、算法——沒錯(cuò),就是雖然樸實(shí)、但至關(guān)重要的AI“三駕馬車”。
實(shí)際上,大部分AI的問題都是因?yàn)閿?shù)據(jù)不夠、算力不夠、算法不夠好。而解決方法也是從這三點(diǎn)入手。
先說數(shù)據(jù)。
前面提到,目前人類對(duì)生命科學(xué)的理解還非常初級(jí),端到端學(xué)習(xí)也可以減少對(duì)一部分?jǐn)?shù)據(jù)的依賴,但基本的高質(zhì)量數(shù)據(jù)還是AI制藥必不可少的基礎(chǔ)。
受實(shí)驗(yàn)手段、醫(yī)療技術(shù)的限制,目前AI對(duì)蛋白質(zhì)功能的分析還是比較初級(jí)的,對(duì)分子的功能結(jié)構(gòu)、關(guān)系序列等的描述不夠,這顯然會(huì)給AI學(xué)習(xí)帶來困擾,蛋白分子會(huì)不斷地和別的分子進(jìn)行交互,形狀也會(huì)隨之改變,用純數(shù)據(jù)驅(qū)動(dòng)的AI方法去生搬硬套,結(jié)果很可能是“無效設(shè)計(jì)”。
就如化學(xué)家Derek Lowe在《科學(xué)》雜志上指出的,即使兩種蛋白質(zhì)具有物理上結(jié)合在一起的結(jié)構(gòu),也很難說它們實(shí)際上會(huì)粘合得有多好。用在動(dòng)物或人身上的時(shí)候也不一定總是有效。
更深入地理解生物世界,離不開大量?jī)?yōu)質(zhì)的數(shù)據(jù),這些往往通過幾十年的積累和實(shí)驗(yàn)獲得,掌握在藥企自己手里,不會(huì)輕易分享。此外基因數(shù)據(jù)、醫(yī)療數(shù)據(jù)還涉及到隱私倫理問題,需要在嚴(yán)格的數(shù)據(jù)保護(hù)法律法規(guī)之下使用。
所以對(duì)于AI企業(yè)來說,亟需探索一種與藥企合作、分利的模式,解開數(shù)據(jù)的桎梏。
再說算力。
以蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)為例,它往往需要超大規(guī)模的算力支持。因?yàn)樯锵到y(tǒng)中分子之間的相互作用特別多,設(shè)計(jì)出來的模型可能參數(shù)不大,但比較復(fù)雜,比計(jì)算機(jī)視覺、NLP等模型要大很多。
此前曾有中國(guó)AI公司訓(xùn)練出了中國(guó)版AlphaFold2,團(tuán)隊(duì)成員表示遇到最大的困難,就是GPU資源(算力)有限,難以同時(shí)進(jìn)行多次訓(xùn)練來比較效果,所以只好在模型設(shè)計(jì)上下功夫,盡量減少試錯(cuò)次數(shù)。
另一個(gè)科學(xué)家也向腦極體透露,其開發(fā)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)平臺(tái),對(duì)一個(gè)模型的一個(gè)數(shù)據(jù)點(diǎn)(data point)進(jìn)行計(jì)算就需要800G顯存,意味著需要十幾塊頂級(jí)顯卡,如果要做全規(guī)模訓(xùn)練那算力成本簡(jiǎn)直不可想象。
所以,一方面,需要加強(qiáng)AI算力基礎(chǔ)設(shè)施建設(shè),提供更多更普惠的算力資源,通過產(chǎn)業(yè)合作等方式來支撐生命科學(xué)的AI應(yīng)用發(fā)展。另一方面,對(duì)生物AI模型的“瘦身”優(yōu)化成為大勢(shì)所趨,過大的模型即便在實(shí)驗(yàn)室里有充沛的算力支持,在實(shí)際部署落地的時(shí)候也會(huì)對(duì)內(nèi)存存儲(chǔ)等提出挑戰(zhàn)。
這自然就要提到更好的算法。
新藥研發(fā)是個(gè)非常復(fù)雜、探索未知的過程,世界一流的算法和成果,離不開世界一流的科研。目前來看,中國(guó)在AI領(lǐng)域“跟隨”更多,面向底層、有影響力的突破較少。
斯坦福大學(xué)發(fā)布的2022年人工智能指數(shù)報(bào)告(2022 AI Index Report)中也顯示,2021 年,中國(guó)在人工智能期刊、會(huì)議和知識(shí)庫出版物的數(shù)量上繼續(xù)領(lǐng)先世界,比美國(guó)高出 63.2%,但在引用數(shù)量上卻低于美國(guó)、歐盟和英國(guó)。
在一個(gè)全新的領(lǐng)域開發(fā)出新的算法,沒有任何經(jīng)驗(yàn)可循,核心還是在人才。首先需要人才具備尋找問題、提出問題的能力,以及耐心安心解決底層技術(shù)問題的科研環(huán)境,此外還需要具備生物學(xué)、藥劑學(xué)、化學(xué)等交叉知識(shí),這些都給AI學(xué)科建設(shè)和人才培養(yǎng)提出了新的挑戰(zhàn)。
一位AI科學(xué)家告訴我,在她看來,現(xiàn)在對(duì)AI人來說既是最好的時(shí)代,也是最壞的時(shí)代。一方面AI產(chǎn)業(yè)發(fā)展帶來的新機(jī)遇非常多,另一方面從業(yè)者也會(huì)感受到一種沉甸甸的責(zé)任感,技術(shù)迭代速度之快帶來了高強(qiáng)度的研究壓力。
不難看出,AI驅(qū)動(dòng)的研究范式也帶來了全新的挑戰(zhàn),能否在產(chǎn)業(yè)重新分工中占據(jù)優(yōu)勢(shì),中國(guó)AI還有一些關(guān)卡要過,其中很多基礎(chǔ)條件需要長(zhǎng)期的、體系化、科學(xué)的投入。
無論如何,AI必將引領(lǐng)生物制藥領(lǐng)域未來十年甚至更遠(yuǎn)的創(chuàng)新方向。從這個(gè)角度看,AI制藥公司“自立山頭”,邁出了關(guān)鍵的一步,這一選擇是必須肯定且支持的。接下來的重點(diǎn)在于,如何在成果數(shù)量與質(zhì)量上趕超和引領(lǐng)世界一流水平。
就像科學(xué)史家托馬斯·庫恩在《科學(xué)革命的結(jié)構(gòu)》中所寫的那樣,科學(xué)就是通過不斷地轉(zhuǎn)換范式,打破舊有框架束縛,才取得了進(jìn)步。
人類的健康和希望,就隱藏在這樣的“不走尋常路”中。