文|動脈網(wǎng)
2023年以來,圍繞ChatGPT的火熱探討重新燃起了市場對于醫(yī)療AI的興趣。
過去,醫(yī)療健康領(lǐng)域的人工智能模型大多只能處理單一模態(tài)的數(shù)據(jù),解決相對狹窄的醫(yī)學(xué)問題,如識別胸部CT中的黑點(diǎn),而ChatGPT能夠接受多重數(shù)據(jù)類型的訓(xùn)練,使之像一名醫(yī)生一樣提供完整的醫(yī)學(xué)建議。
然而,坊間對于ChatGPT價值認(rèn)可各不相同。一部分觀點(diǎn)相信大型語言模型(LLM)能夠顛覆AI的推理邏輯,優(yōu)化算法對于醫(yī)學(xué)影像、醫(yī)學(xué)文本的推理,另一部分觀點(diǎn)則認(rèn)為這項技術(shù)已經(jīng)出現(xiàn)多年,如今不過是老調(diào)重彈,量變有余,質(zhì)變不足。
為了明晰ChatGPT能否重構(gòu)全球醫(yī)療AI格局,探明行業(yè)的未來發(fā)展前景。動脈網(wǎng)與業(yè)內(nèi)多位專家進(jìn)行了對話,嘗試一一解答上述問題。
過得了審批,進(jìn)不了臨床
IBM Watson的退場曾對整個生命科學(xué)領(lǐng)域予以警示:在面對一種可能的新興技術(shù)時,我們不能單單借助非醫(yī)療行業(yè)的“主觀印象”判斷該技術(shù)的顛覆性及可用性,還需考慮其應(yīng)用于醫(yī)療領(lǐng)域后,如何切入的診療流程、如何面臨的審評審批、如何實(shí)現(xiàn)商業(yè)化等實(shí)際問題。
審評審批是決定AI能否存在于市場的重要環(huán)節(jié),也是ChatGPT切入臨床難以會回避的核心關(guān)卡。我們不妨假設(shè):如果基于ChatGPT的AI要以醫(yī)療器械的方式實(shí)現(xiàn)輔助診斷,需要依賴怎樣的審批路徑?參照怎樣的醫(yī)療器械標(biāo)準(zhǔn)?
MedTech Dive曾對FDA批準(zhǔn)的AI產(chǎn)品進(jìn)行了全面的統(tǒng)計。截至2022年10月5日,F(xiàn)DA總計授權(quán)了521份AI/ML醫(yī)療器械申請,其中絕大部分走的510(k)這一路徑,小部分拿到PMA授權(quán),僅18款器械通過的是de novo審批程序。畢竟,510(k)簡化了醫(yī)療AI的審批流程,尤其是對于不少影像設(shè)備廠商,他們的AI應(yīng)用可能只作用于某一特定模塊,只要開發(fā)人員能夠證明他們的設(shè)備與已經(jīng)上市的設(shè)備“基本等效”,就不需要再重新進(jìn)行臨床試驗。
NMPA對于AI/ML醫(yī)療器械的授權(quán)相對謹(jǐn)慎,沒有類似于510(k)這樣的快速通道可供使用。但隨著審批制度的不斷完善,大量第二類、第三類智能醫(yī)療器械在2018年后涌現(xiàn),尤其是在科亞醫(yī)療“深脈分?jǐn)?shù)”獲得三類證,將“深度學(xué)習(xí)”首次寫入注冊證基礎(chǔ)信息后,醫(yī)療人工智能產(chǎn)品的審批迎來爆發(fā)式增長。
NMPA、FDA歷年批準(zhǔn)的人工智能醫(yī)療器械數(shù)量(NMPA僅統(tǒng)計第三類醫(yī)療器械)
因此,僅談?wù)搶徟窂剑琋MPA、FDA均對有價值的AI技術(shù)張開懷抱。若有企業(yè)將基于ChatGPT的AI植入自身的設(shè)備之中,并能其與已經(jīng)上市的設(shè)備“基本等效”,那么它很有可能借助510(k)成功上市;2022年3月NMPA發(fā)布的《人工智能醫(yī)療器械注冊審查指導(dǎo)原則》擴(kuò)展了人工智能核心算法審批的范圍,如果LLS能夠證明它的價值,亦有可能借助現(xiàn)有框架進(jìn)入審批流程。
再談ChatGPT可能的應(yīng)用場景。NMPA與FDA在審批項目組成上的組成大致相似,截至2022年10月5日,F(xiàn)DA 授權(quán)的521份AI/ML醫(yī)療器械申請中,超過75%是輔助診斷產(chǎn)品,13%是輔助治療產(chǎn)品;NMPA授權(quán)的70份AI/ML醫(yī)療器械申請,超過71%是輔助診斷產(chǎn)品,24%是輔助治療產(chǎn)品。
輔助診斷產(chǎn)品與輔助治療類產(chǎn)品嚴(yán)格依賴于臨床證據(jù),要求算法能夠復(fù)現(xiàn)給出的結(jié)果,并能給出相應(yīng)的證據(jù)。反觀目前ChatGPT模型的應(yīng)用情況,它能夠根據(jù)關(guān)鍵詞輸入給出一個確定的輸出結(jié)果,但同一關(guān)鍵詞的多次輸入并不具備一致性。換句話說,當(dāng)輸入信息過于復(fù)雜且追求精度時,ChatGPT無法精準(zhǔn)復(fù)現(xiàn)給出的答案,因而很難用于上述兩個領(lǐng)域。
新一代臨床輔助決策系統(tǒng)(CDSS)是ChatGPT最有可能顛覆的賽道之一。新一代CDSS依賴于NLP的助力,只能處理文本信息。相較之下,支撐ChatGPT的LLM不僅包含了NLP,還包含眾多其他系統(tǒng),使其具備整合電子病例,圖像,檢查數(shù)據(jù)、基因組,甚至微生物組序列信息的能力。
動脈網(wǎng)對2020-2022年期間FDA批準(zhǔn)的AI項目整理后發(fā)現(xiàn),盡管輔助診斷與輔助治療類AI仍占據(jù)著主流位置,但CDSS類產(chǎn)品的過審數(shù)量較2020年前已顯著上升(國內(nèi)CDSS通常不需要經(jīng)過NMPA審評審批,僅森億智能的VTE風(fēng)險評估軟件醫(yī)療器械獲得了第二類醫(yī)療器械認(rèn)證)。
2020-2022年FDA批準(zhǔn)AI醫(yī)療器械(部分)
對于整個醫(yī)療體系而言,AI帶來的監(jiān)督功能與對于基層醫(yī)療的賦能能夠有效提高疾病預(yù)防的效率,通過推動疾病早治療,從長期之中減少醫(yī)保賬戶支出,從這個角度而言,基于ChatGPT的應(yīng)用或許存在落地的潛力。
誰來為ChatGPT的決策背書?
美國初創(chuàng)公司Ansible Health的研究人員發(fā)布于《PLOS數(shù)字健康》雜志的研究結(jié)果。ChatGPT能夠在執(zhí)照考試中取得"大約60%的通過門檻"。另一項研究利用45個病例對ChatGPT診斷疾病的表現(xiàn)進(jìn)行了評估,實(shí)驗結(jié)果發(fā)現(xiàn),ChatGPT能夠在39個病例中找出正確診斷(準(zhǔn)確率87%),遠(yuǎn)高于以前的癥狀檢測工具,也高于老版ChatGPT的判別能力(82%),因此,在不少專家看來,CDSS是ChatGPT有效的落地路徑。
數(shù)據(jù)支持下,ChatGPT顯然能夠充當(dāng)一個有效的臨床輔助決策工具,但要真正落地于臨床,AI需要拿出手的不單單是一個比率。
“無論是百度還是谷歌,當(dāng)你向它進(jìn)行提問,它會給你大量網(wǎng)頁作為回答,讓你自己進(jìn)行甄別過濾,但ChatGPT不同,它像一個進(jìn)化版的搜索引擎,會給你一個唯一的答案。”惠每科技CTO王實(shí)告訴動脈網(wǎng)。“這是它的優(yōu)點(diǎn),也是它落地的隱患?!?/p>
醫(yī)院目前使用的CDSS主要由人機(jī)交互、推理機(jī)、知識庫三個核心部門組成。機(jī)器借助NLP去理解醫(yī)生的輸入,過程中處理的是交互問題,沒有涉及真正意義上的以AI替代醫(yī)生的決策,這并非在某些特定場景AI 無法超越醫(yī)生,而是AI無法對任何可能的錯誤負(fù)責(zé)。
王實(shí)表示:“我們正在經(jīng)歷智慧型醫(yī)療的發(fā)展,尤其在2018年-2020年間,國家衛(wèi)健委陸續(xù)出臺了電子病歷評級、互聯(lián)互通評級、智慧醫(yī)院評級等政策,以評促建來推動醫(yī)療機(jī)構(gòu)全面向數(shù)字化轉(zhuǎn)型升級,在這個過程中也運(yùn)用到了很多新興技術(shù),其中,CDSS作為高級別評審的核心項目之一,也對CDSS的建設(shè)機(jī)制作出了嚴(yán)苛的規(guī)定,那就是必須是基于循證醫(yī)學(xué)證據(jù)的。
因此,CDSS的提示與建議是在符合診療規(guī)范的前提下,綜合指南參考,輔助醫(yī)生決策。相比之下,ChatGPT在某些問題的回答上可能給出一個更好的答案,但它沒法對自己作出的回答援引資料進(jìn)行背書,沒法對自己可能出現(xiàn)的錯誤負(fù)責(zé),也沒有醫(yī)生愿意為算法的錯誤買單。”
這對于ChatGPT的技術(shù)落地而言是一個致命考驗。和當(dāng)年的IBM Watson相似,ChatGPT的顛覆在于它能夠像醫(yī)生一樣作出決策,而醫(yī)生則希望AI做好份內(nèi)的信息處理工作,自己握住決策權(quán)。
成本,制約ChatGPT的關(guān)鍵所在
從CNN、NLP的發(fā)展路徑看,技術(shù)開發(fā)者總是能在應(yīng)用之中對技術(shù)進(jìn)行取舍,使最終的成品滿足市場的需求,若要全心圍繞LLM技術(shù)開發(fā)醫(yī)療應(yīng)用,取得成果也是必然。只是對于開發(fā)者們,不是哪一家初創(chuàng)企業(yè)都像Open.AI一樣,能在模型的訓(xùn)練上投入海量的金錢。
公開數(shù)據(jù)顯示,OpenAI過去推出的LLM模型GPT-3擁有1750億個參數(shù),與之對應(yīng)的訓(xùn)練費(fèi)用高達(dá)1200萬美元(單次成本約140萬美元),關(guān)于ChatGPT的訓(xùn)練費(fèi)用說法不一,但大致可推測在200萬美元-1200萬美元這一區(qū)間之內(nèi)。
對于需要建立類似模型的醫(yī)療等細(xì)分垂直賽道而言,先是必須擁有GPT級別的基礎(chǔ)模型。然后才是耗費(fèi)大量時間、精力,以及資金對基礎(chǔ)模型進(jìn)行長期且持續(xù)的計算和數(shù)據(jù)訓(xùn)練,以創(chuàng)建新的模型。實(shí)現(xiàn)以上條件,國內(nèi)只有BAT級別的企業(yè)才有資本涉獵其中。
同時,高昂訓(xùn)練費(fèi)用下,即便是大企業(yè)也沒辦法對已經(jīng)完成訓(xùn)練的模型進(jìn)行明確指向的調(diào)整,如果ChatGPT這樣體量的模型在醫(yī)療領(lǐng)域的探索中誤入歧途,相關(guān)的研究者們想要繼續(xù)挖掘LLM的潛力,可能只有等待下一個模型出現(xiàn)。
種種影響因素之下,ChatGPT乃至其他LLM在醫(yī)療臨床中的價值可能都會相當(dāng)有限。僅討論當(dāng)下,與搜索相關(guān)的科普、互聯(lián)網(wǎng)醫(yī)院都場景顯然更有潛力。脫離臨床,ChatGPT的特立獨(dú)行或許能夠為上述場景打開新的增長空間。
總的來說,關(guān)于ChatGPT應(yīng)用于臨床的討論或許讓人有些失望。ChatGPT并非完全為醫(yī)療而生,基于ChatGPT的AI也難以像打磨多年的輔助診斷、輔助治療AI一樣深入臨床環(huán)節(jié)。
但從長遠(yuǎn)來看,LLM仍然具備顛覆現(xiàn)有AI的能力。如果它能跨越電子病例、影像、基因組等多模態(tài)醫(yī)學(xué)數(shù)據(jù),構(gòu)建綜合性的分析能力,它必定能夠打破當(dāng)下AI面臨的局面,重新定義AI的價值。