正在閱讀:

比真實(shí)數(shù)據(jù)還有效?訓(xùn)練AI,硅谷早已用上了合成臨床數(shù)據(jù)

掃一掃下載界面新聞APP

比真實(shí)數(shù)據(jù)還有效?訓(xùn)練AI,硅谷早已用上了合成臨床數(shù)據(jù)

熟稔于繪圖作詞的文藝AI們,能否入駐醫(yī)學(xué)專業(yè),為臨床AI的發(fā)展再注活力?

圖片來(lái)源:pexels-LJ

文|動(dòng)脈網(wǎng)

NFT、Web3.0后,硅谷最近搶起了生成式AI。

當(dāng)大語(yǔ)言模型(LLM)掀起的浪潮波及世界的每一個(gè)角落,越來(lái)越多的人相信,生成式AI賦予我們的不僅僅是單純的交互——它能夠作為一種新式的生產(chǎn)力,逐步顛覆我們的工作與生活。

最先嗅到變革趨勢(shì)的是專注前沿科技的投資者們。硅谷Fusion Fund的創(chuàng)始合伙人張璐已經(jīng)好久沒(méi)有看到如此狂熱的景象。作為最早投資AI在醫(yī)療領(lǐng)域應(yīng)用的硅谷投資機(jī)構(gòu),F(xiàn)usion Fund過(guò)去幾年一直對(duì)生成式AI的醫(yī)療應(yīng)用領(lǐng)域有所布局,投資組合中包括Huma.AI、深透醫(yī)療等優(yōu)質(zhì)醫(yī)療AI企業(yè),有的被投企業(yè)早在兩年前就已經(jīng)與OpenAI有了諸多合作。

“生成式AI的垂直領(lǐng)域應(yīng)用,需要該行業(yè)擁有海量的高質(zhì)量數(shù)據(jù),才能最大化地體現(xiàn)它地技術(shù)實(shí)力。而醫(yī)療領(lǐng)域恰恰擁有海量的高質(zhì)量數(shù)據(jù),人類社會(huì)中大約30%的數(shù)據(jù)與醫(yī)療相關(guān),是最大的品類,在此基礎(chǔ)上生成式AI為醫(yī)療領(lǐng)域帶來(lái)了巨大的機(jī)會(huì)?!睆堣凑f(shuō)。

與諸多熱門賽道不同,醫(yī)療領(lǐng)域表面上沉寂著數(shù)以億計(jì)的大數(shù)據(jù),但若落足于具體的臨床場(chǎng)景,開(kāi)發(fā)者時(shí)常會(huì)為數(shù)據(jù)的數(shù)量、質(zhì)量與數(shù)據(jù)的獲取成本發(fā)愁,尤其是在應(yīng)用級(jí)臨床AI的研發(fā)方向上,限制其發(fā)展的,正是醫(yī)療數(shù)據(jù)的稀缺性。

這一次,熟稔于繪圖作詞的文藝AI們,能否入駐醫(yī)學(xué)專業(yè),為臨床AI的發(fā)展再注活力?

生成式AI賦能臨床的兩條路徑

AI的發(fā)展趨勢(shì)大致可歸納為兩個(gè)方向,一是單任務(wù)辨別式AI模型,單病種AI輔助診療、分類、檢測(cè)等均是這類AI應(yīng)用的典型例子;二是生成式AI應(yīng)用,局域數(shù)據(jù)生成更高維度的信息,例如預(yù)測(cè)醫(yī)學(xué)圖像數(shù)據(jù)、生成健康報(bào)告等。

兩個(gè)方向均依賴于臨床數(shù)據(jù)進(jìn)行模型訓(xùn)練,亦受限于臨床數(shù)據(jù)的缺失。張璐表示:“早在2018年前后,研發(fā)人員便嘗試采用小樣本學(xué)習(xí)、生成對(duì)抗網(wǎng)絡(luò)(GAN)等方式彌補(bǔ)訓(xùn)練樣本量不足的問(wèn)題,也是從那時(shí)開(kāi)始,生成式AI便已應(yīng)用于醫(yī)療之中,只是如今它的定義更明確,強(qiáng)調(diào)在深度學(xué)習(xí)之上搭建Transformer Model?!?/p>

以Fusion Fund投下的深透醫(yī)療為例,該公司的核心業(yè)務(wù)為利用AI加速M(fèi)RI、PET成像速度,并提升成像質(zhì)量,這個(gè)過(guò)程本身就是利用生成式AI處理原始數(shù)據(jù)獲取合成數(shù)據(jù),再根據(jù)合成數(shù)據(jù)重構(gòu)MRI、PET影像。

“MR臨床掃描中的部分序列常常出現(xiàn)信噪比偏低、偽影明顯等情況,影響最終影像的生成。發(fā)布于IEEE的研究“One Model to Synthesize Them All: Multi-contrast Multi-scale Transformer for Missing Data Imputation”結(jié)果顯示:在AI的支持下,通過(guò)T1、T2等現(xiàn)有圖像間接生成新的圖像(例如更高分辨率圖像、其他對(duì)比度、模擬打造影劑的圖像等),其效果甚至可以優(yōu)于直接成像。目前,我們能將MRI、PET的成像過(guò)程提速4-10倍,并減少10倍造影劑的使用,基于更新生成式AI的模型也將不斷提升產(chǎn)品性能”深透醫(yī)療CEO宮恩浩告訴動(dòng)脈網(wǎng)。

“此外,我們也在通過(guò)做一些image degrader 的工作,把一些金標(biāo)準(zhǔn)高質(zhì)量的圖像變至更接近實(shí)際掃描獲取的低質(zhì)量圖像,進(jìn)而訓(xùn)練出新的模型。這種融合了多重?cái)?shù)據(jù)的diffusion model(擴(kuò)散模型),它的效果要明顯優(yōu)于通過(guò)傳統(tǒng)手段訓(xùn)練的模型。”

國(guó)內(nèi)AI企業(yè)數(shù)坤科技則是將生成式AI用在了冠脈CTA的圖像增強(qiáng)上。在與上海市第一人民醫(yī)院的合作中,雙方將GAN用于冠脈CTA圖像后處理中,成功修復(fù)運(yùn)動(dòng)偽影,最終提高冠脈CTA的成像質(zhì)量,使其診斷準(zhǔn)確性達(dá)到冠脈造影的“金標(biāo)準(zhǔn)”水平。

定量分析結(jié)果顯示,使用GAN技術(shù)修復(fù)運(yùn)動(dòng)偽影后的冠脈CTA圖像質(zhì)量顯著高于修復(fù)前的冠脈CTA圖像

通常而言,需要64排及其以上排數(shù)CT才能完成心臟CTA掃描,而生成式AI可以讓32排甚至16排的CT執(zhí)行起CTA的掃描任務(wù),取得滿足醫(yī)生診斷需求的影像。從理論上講,這一技術(shù)賦能可以有效提高基層醫(yī)療服務(wù)能力及服務(wù)質(zhì)量。

MR同理,通過(guò)AI賦能,更普遍的1.5T設(shè)備或者低場(chǎng)便攜設(shè)備大幅提升圖像質(zhì)量,實(shí)現(xiàn)3T等高端設(shè)備的診斷質(zhì)量與掃描效率。

總的來(lái)說(shuō),生成式AI在單任務(wù)辨別式AI應(yīng)用中的作用路徑,均是基于原始數(shù)據(jù)生成合成數(shù)據(jù),并將其應(yīng)用于最終結(jié)果的生成,實(shí)現(xiàn)影像增強(qiáng)。同時(shí),整個(gè)模型訓(xùn)練過(guò)程中,生成式模型可以同來(lái)進(jìn)行數(shù)據(jù)擴(kuò)充(Data Augmentation),從而基于較小數(shù)據(jù)量以更快速度獲取更為優(yōu)質(zhì)的圖像,有利于研發(fā)人員開(kāi)拓更多數(shù)據(jù)量相對(duì)缺失的場(chǎng)景。

相較于主攻分析能力提升的單任務(wù)辨別式AI,生成式AI應(yīng)用的能力則有一些超脫于當(dāng)下醫(yī)療需求之前。舉一個(gè)不那么恰當(dāng)?shù)睦樱罕鎰e式AI應(yīng)用可以評(píng)估患者當(dāng)下的健康狀態(tài),而生成式AI應(yīng)用意在預(yù)測(cè)每一人身體的未來(lái)。

目前國(guó)內(nèi)嘗試生成式AI應(yīng)用探索的項(xiàng)目非常有限。一個(gè)典型的例子是鷹瞳Airdoc與北京大學(xué)臨床研究所、愛(ài)康集團(tuán)開(kāi)展的視網(wǎng)膜研究。通過(guò)觀察40萬(wàn)人的視網(wǎng)膜血管和神經(jīng)的發(fā)展變化,研究人員讓生成式AI自學(xué),去判斷受檢者接下來(lái)的發(fā)展變化,評(píng)估未來(lái)心腦血管病風(fēng)險(xiǎn)有多高。目前相關(guān)研究已發(fā)表在國(guó)際知名期刊《Science Bulletin》之中。

據(jù)鷹瞳科技表示,以生成式AI為基礎(chǔ)的阿爾茨海默病風(fēng)險(xiǎn)預(yù)測(cè)、近視進(jìn)展預(yù)測(cè)、帕金森風(fēng)險(xiǎn)預(yù)測(cè)同樣處于研發(fā)之中。如果上述疾病能通過(guò)AI實(shí)現(xiàn)預(yù)測(cè)或早發(fā)現(xiàn),及時(shí)的防治措施能夠幫助大量患者規(guī)避疾病風(fēng)險(xiǎn),避免后續(xù)漫長(zhǎng)且不可控的治療。

生成式AI能夠生成臨床數(shù)據(jù)嗎?

既然單任務(wù)辨別式AI應(yīng)用與生成式AI應(yīng)用都在運(yùn)算的過(guò)程之中使用了生成數(shù)據(jù),那么我們是否也能像AIGC在金融、藝術(shù)中的應(yīng)用中那樣,直接生成醫(yī)療數(shù)據(jù)呢?

美國(guó)圣路易斯華盛頓大學(xué)醫(yī)學(xué)院信息學(xué)研究所去年開(kāi)啟了一項(xiàng)基于生成式AI生成患者合成數(shù)據(jù)集的研究,意在為廣大科技醫(yī)療研究人員提供更為豐富的數(shù)據(jù),為各類醫(yī)療AI的研發(fā)提速。

該研究使用了以色列公司MDClone研發(fā)的生成式AI模型。MDClone的系統(tǒng)與醫(yī)院的EHR直連,可以抽取患者數(shù)據(jù)進(jìn)行脫敏,把數(shù)據(jù)按照特定維度打散,再利用其自研的生成式AI模型進(jìn)行重新組合。通過(guò)這一路徑,MDClone可以根據(jù)基于少量電子健康記錄中真實(shí)的患者數(shù)據(jù)準(zhǔn)確地生成大量合成數(shù)據(jù),重建真實(shí)患者的特征。

在后續(xù)的研究中,相關(guān)人員將合成數(shù)據(jù)集與真實(shí)數(shù)據(jù)集置于三個(gè)特定任務(wù)下進(jìn)行對(duì)比,分別為分析兒科創(chuàng)傷患者的死亡風(fēng)險(xiǎn);預(yù)測(cè)哪些住院患者最有可能發(fā)生敗血癥;制作圣路易斯地區(qū)一年內(nèi)按郵政編碼劃分的衣原體感染率地圖。

該對(duì)比研究結(jié)果顯示,合成數(shù)據(jù)分析的結(jié)果在統(tǒng)計(jì)上與真實(shí)數(shù)據(jù)的分析相似,各項(xiàng)數(shù)據(jù)集都得出了相同的結(jié)論。在絕大多數(shù)情況下,統(tǒng)計(jì)結(jié)果是相同的,只有在極少數(shù)情況下,真實(shí)數(shù)據(jù)集和合成數(shù)據(jù)集之間存在差異。

這一研究結(jié)果與深透醫(yī)療在影像加速中的研究結(jié)果方向一致。這也意味著,過(guò)去準(zhǔn)備訓(xùn)練數(shù)據(jù)往往需要耗去研究人員數(shù)個(gè)月的時(shí)間,而在生成式AI模型的賦能下,研究人員可以在數(shù)小時(shí)至數(shù)日內(nèi)建立、查詢并下載自己的合成數(shù)據(jù)集。

此外,這一生成合成數(shù)據(jù)的方法還創(chuàng)造了一種嚴(yán)格的患者隱私保密方式。由于合成數(shù)據(jù)無(wú)法與真實(shí)的人和身份聯(lián)系起來(lái),醫(yī)院或能借助這一技術(shù)將數(shù)據(jù)變?yōu)橐环N特定的資產(chǎn),在不侵害患者隱私的前提下,最大化相關(guān)臨床研究。

同樣的邏輯亦可用于影像數(shù)據(jù)中。

在訓(xùn)練輔助診斷類人工智能的過(guò)程中,患者影像數(shù)據(jù)的不均勻分布常常會(huì)影響最終模型在實(shí)際應(yīng)用中的效果。

以皮膚病AI為例,該AI在處理影像時(shí)需要同時(shí)計(jì)算多種皮膚病的概率,但由于人的皮膚膚質(zhì)及患病類型并非均勻分布,僅考慮患病種類一個(gè)維度,濕疹、毛囊炎的數(shù)據(jù)頻率偏高,銀屑病的數(shù)據(jù)頻率則會(huì)相對(duì)偏低。

常規(guī)算法可以雖然可以實(shí)現(xiàn)影像數(shù)據(jù)的合成,但其合成數(shù)據(jù)質(zhì)量與真實(shí)數(shù)據(jù)質(zhì)量存在差異,不能完全替代真實(shí)數(shù)據(jù)的價(jià)值。生成式AI的出現(xiàn)則補(bǔ)全了生成邏輯方面的缺陷,讓生成數(shù)據(jù)不僅保有質(zhì)量,還能加快生成過(guò)程,擴(kuò)大生成數(shù)據(jù)的量級(jí)。

英偉達(dá)在影像類合成數(shù)據(jù)中早有布局。2022年,英偉達(dá)與倫敦國(guó)王學(xué)院使用Cambridge-1超級(jí)計(jì)算機(jī)創(chuàng)建一套包含10萬(wàn)份大腦合成圖像的數(shù)據(jù)集,借此訓(xùn)練AI應(yīng)用以加快對(duì)于癡呆癥、帕金森病及其他腦部疾病的理解。其生成邏輯與文本有相似之處,便是將真實(shí)數(shù)據(jù)拆分為素材,再通過(guò)特定邏輯的AI進(jìn)行組合,進(jìn)而解決數(shù)據(jù)量稀缺的問(wèn)題。

合成數(shù)據(jù)的另一個(gè)潛在應(yīng)用場(chǎng)景在于多病種判別式AI的審評(píng)審批。

多病種AI的臨床試驗(yàn)設(shè)計(jì)是一個(gè)復(fù)雜的過(guò)程。譬如,多病種AI(以N=2為例)在進(jìn)行數(shù)據(jù)集構(gòu)建與算法驗(yàn)證時(shí),不僅需要構(gòu)建病種A數(shù)據(jù)庫(kù)與病種B數(shù)據(jù)庫(kù),還需要構(gòu)建A∩B數(shù)據(jù)庫(kù),并需在模型之中添加醫(yī)學(xué)知識(shí),使其能基于醫(yī)學(xué)原理解釋交集數(shù)據(jù)的概率得出過(guò)程。

當(dāng)病種數(shù)量較少時(shí),構(gòu)建融合數(shù)據(jù)庫(kù)的難度尚且可控。而在當(dāng)前審評(píng)審批邏輯下,病種數(shù)量一旦增多,各病種組合的樣式及需要的數(shù)據(jù)集豐富程度則會(huì)呈指數(shù)趨勢(shì)上升,數(shù)據(jù)不均勻分布導(dǎo)致的障礙也會(huì)進(jìn)一步凸顯。

譬如,糖網(wǎng)病變的0期、6期患者數(shù)據(jù)天然較少,企業(yè)很難在真實(shí)世界中找到足量滿足驗(yàn)證數(shù)據(jù)集要求的數(shù)據(jù)量。若將病種的組合考慮在內(nèi),相關(guān)數(shù)據(jù)收集復(fù)雜程度將急速擴(kuò)增,最終變成一個(gè)現(xiàn)實(shí)之中無(wú)法解決的難題。顯然,應(yīng)用生成式AI對(duì)部分稀缺維度進(jìn)行數(shù)據(jù)擴(kuò)增有希望解決這一問(wèn)題。

深透醫(yī)療已拿到FDA、CE、NMPA等各地認(rèn)證,宮恩浩在采訪中告訴動(dòng)脈網(wǎng):“合成數(shù)據(jù)的應(yīng)用貫穿AI應(yīng)用全流程,F(xiàn)DA有明確要求申報(bào)公司闡述清楚訓(xùn)練和測(cè)試用到的真實(shí)臨床數(shù)據(jù)的數(shù)量和細(xì)節(jié),但FDA沒(méi)有對(duì)合成數(shù)據(jù)的使用量及使用環(huán)節(jié)進(jìn)行明確規(guī)定。另一方面,影像增強(qiáng)過(guò)程中產(chǎn)生合成數(shù)據(jù)并以此重建影像與直接構(gòu)建合成數(shù)據(jù)集進(jìn)行AI訓(xùn)練兩種方式存在差異,后一種方式仍然存在探索空間。”

中國(guó)人工智能醫(yī)療器械標(biāo)準(zhǔn)化技術(shù)單位及NMPA對(duì)于數(shù)據(jù)質(zhì)控的標(biāo)注制定及討論同樣走在全球前列,目標(biāo)是針對(duì)訓(xùn)練數(shù)據(jù)、預(yù)訓(xùn)練、遷移學(xué)習(xí)等方面的建立完善的標(biāo)準(zhǔn)。如今生成式AI的進(jìn)一步拓寬,或能加速相關(guān)法律法規(guī)及審評(píng)審批條款的制定,使多病種AI的審評(píng)審批獲得理論與經(jīng)濟(jì)上的雙重可能。

距離硅谷,我們還有多遠(yuǎn)?

近日,國(guó)家互聯(lián)網(wǎng)信息辦公室發(fā)布了一則關(guān)于《生成式人工智能服務(wù)管理辦法(征求意見(jiàn)稿)》公開(kāi)征求意見(jiàn)的通知,有意將生成式AI盡快納入監(jiān)管范圍。

對(duì)于這項(xiàng)仍處于野蠻生長(zhǎng)中的技術(shù),有效的監(jiān)管將為其帶來(lái)更為良性的發(fā)展空間,也利于企業(yè)及早規(guī)避可能的政策風(fēng)險(xiǎn)。不過(guò),要在國(guó)內(nèi)全面推動(dòng)生成式AI的發(fā)展,需要依靠不能只是監(jiān)管。

“任何技術(shù)創(chuàng)新都是由基礎(chǔ)技術(shù)創(chuàng)新,到技術(shù)應(yīng)用創(chuàng)新,最后帶來(lái)商業(yè)模式的創(chuàng)新。目前國(guó)內(nèi)的生成式AI發(fā)展與硅谷存在一定差距,既存在于模型方面,又存在于數(shù)據(jù)方面。在美國(guó),以O(shè)penAI為代表的科技公司已經(jīng)完成了GPT模型、大語(yǔ)言模型(LLM)等基礎(chǔ)設(shè)施的搭建,這意味著,美國(guó)已經(jīng)進(jìn)入到了創(chuàng)新的第二階段——技術(shù)應(yīng)用創(chuàng)新。”張璐表示。

要追趕硅谷并不簡(jiǎn)單,一方面需要有科技公司完成基礎(chǔ)模型的突破,讓后進(jìn)的創(chuàng)業(yè)公司們能夠通過(guò)API去調(diào)用先進(jìn)的模型;另一方面需要加速多模態(tài)數(shù)據(jù)的治理,為模型的專科化培養(yǎng)提供數(shù)據(jù)支撐。

回到國(guó)內(nèi),哪些企業(yè)能夠承擔(dān)風(fēng)險(xiǎn)扛起AI跨時(shí)代發(fā)展的責(zé)任?還需時(shí)間給出答案。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

比真實(shí)數(shù)據(jù)還有效?訓(xùn)練AI,硅谷早已用上了合成臨床數(shù)據(jù)

熟稔于繪圖作詞的文藝AI們,能否入駐醫(yī)學(xué)專業(yè),為臨床AI的發(fā)展再注活力?

圖片來(lái)源:pexels-LJ

文|動(dòng)脈網(wǎng)

NFT、Web3.0后,硅谷最近搶起了生成式AI。

當(dāng)大語(yǔ)言模型(LLM)掀起的浪潮波及世界的每一個(gè)角落,越來(lái)越多的人相信,生成式AI賦予我們的不僅僅是單純的交互——它能夠作為一種新式的生產(chǎn)力,逐步顛覆我們的工作與生活。

最先嗅到變革趨勢(shì)的是專注前沿科技的投資者們。硅谷Fusion Fund的創(chuàng)始合伙人張璐已經(jīng)好久沒(méi)有看到如此狂熱的景象。作為最早投資AI在醫(yī)療領(lǐng)域應(yīng)用的硅谷投資機(jī)構(gòu),F(xiàn)usion Fund過(guò)去幾年一直對(duì)生成式AI的醫(yī)療應(yīng)用領(lǐng)域有所布局,投資組合中包括Huma.AI、深透醫(yī)療等優(yōu)質(zhì)醫(yī)療AI企業(yè),有的被投企業(yè)早在兩年前就已經(jīng)與OpenAI有了諸多合作。

“生成式AI的垂直領(lǐng)域應(yīng)用,需要該行業(yè)擁有海量的高質(zhì)量數(shù)據(jù),才能最大化地體現(xiàn)它地技術(shù)實(shí)力。而醫(yī)療領(lǐng)域恰恰擁有海量的高質(zhì)量數(shù)據(jù),人類社會(huì)中大約30%的數(shù)據(jù)與醫(yī)療相關(guān),是最大的品類,在此基礎(chǔ)上生成式AI為醫(yī)療領(lǐng)域帶來(lái)了巨大的機(jī)會(huì)?!睆堣凑f(shuō)。

與諸多熱門賽道不同,醫(yī)療領(lǐng)域表面上沉寂著數(shù)以億計(jì)的大數(shù)據(jù),但若落足于具體的臨床場(chǎng)景,開(kāi)發(fā)者時(shí)常會(huì)為數(shù)據(jù)的數(shù)量、質(zhì)量與數(shù)據(jù)的獲取成本發(fā)愁,尤其是在應(yīng)用級(jí)臨床AI的研發(fā)方向上,限制其發(fā)展的,正是醫(yī)療數(shù)據(jù)的稀缺性。

這一次,熟稔于繪圖作詞的文藝AI們,能否入駐醫(yī)學(xué)專業(yè),為臨床AI的發(fā)展再注活力?

生成式AI賦能臨床的兩條路徑

AI的發(fā)展趨勢(shì)大致可歸納為兩個(gè)方向,一是單任務(wù)辨別式AI模型,單病種AI輔助診療、分類、檢測(cè)等均是這類AI應(yīng)用的典型例子;二是生成式AI應(yīng)用,局域數(shù)據(jù)生成更高維度的信息,例如預(yù)測(cè)醫(yī)學(xué)圖像數(shù)據(jù)、生成健康報(bào)告等。

兩個(gè)方向均依賴于臨床數(shù)據(jù)進(jìn)行模型訓(xùn)練,亦受限于臨床數(shù)據(jù)的缺失。張璐表示:“早在2018年前后,研發(fā)人員便嘗試采用小樣本學(xué)習(xí)、生成對(duì)抗網(wǎng)絡(luò)(GAN)等方式彌補(bǔ)訓(xùn)練樣本量不足的問(wèn)題,也是從那時(shí)開(kāi)始,生成式AI便已應(yīng)用于醫(yī)療之中,只是如今它的定義更明確,強(qiáng)調(diào)在深度學(xué)習(xí)之上搭建Transformer Model?!?/p>

以Fusion Fund投下的深透醫(yī)療為例,該公司的核心業(yè)務(wù)為利用AI加速M(fèi)RI、PET成像速度,并提升成像質(zhì)量,這個(gè)過(guò)程本身就是利用生成式AI處理原始數(shù)據(jù)獲取合成數(shù)據(jù),再根據(jù)合成數(shù)據(jù)重構(gòu)MRI、PET影像。

“MR臨床掃描中的部分序列常常出現(xiàn)信噪比偏低、偽影明顯等情況,影響最終影像的生成。發(fā)布于IEEE的研究“One Model to Synthesize Them All: Multi-contrast Multi-scale Transformer for Missing Data Imputation”結(jié)果顯示:在AI的支持下,通過(guò)T1、T2等現(xiàn)有圖像間接生成新的圖像(例如更高分辨率圖像、其他對(duì)比度、模擬打造影劑的圖像等),其效果甚至可以優(yōu)于直接成像。目前,我們能將MRI、PET的成像過(guò)程提速4-10倍,并減少10倍造影劑的使用,基于更新生成式AI的模型也將不斷提升產(chǎn)品性能”深透醫(yī)療CEO宮恩浩告訴動(dòng)脈網(wǎng)。

“此外,我們也在通過(guò)做一些image degrader 的工作,把一些金標(biāo)準(zhǔn)高質(zhì)量的圖像變至更接近實(shí)際掃描獲取的低質(zhì)量圖像,進(jìn)而訓(xùn)練出新的模型。這種融合了多重?cái)?shù)據(jù)的diffusion model(擴(kuò)散模型),它的效果要明顯優(yōu)于通過(guò)傳統(tǒng)手段訓(xùn)練的模型。”

國(guó)內(nèi)AI企業(yè)數(shù)坤科技則是將生成式AI用在了冠脈CTA的圖像增強(qiáng)上。在與上海市第一人民醫(yī)院的合作中,雙方將GAN用于冠脈CTA圖像后處理中,成功修復(fù)運(yùn)動(dòng)偽影,最終提高冠脈CTA的成像質(zhì)量,使其診斷準(zhǔn)確性達(dá)到冠脈造影的“金標(biāo)準(zhǔn)”水平。

定量分析結(jié)果顯示,使用GAN技術(shù)修復(fù)運(yùn)動(dòng)偽影后的冠脈CTA圖像質(zhì)量顯著高于修復(fù)前的冠脈CTA圖像

通常而言,需要64排及其以上排數(shù)CT才能完成心臟CTA掃描,而生成式AI可以讓32排甚至16排的CT執(zhí)行起CTA的掃描任務(wù),取得滿足醫(yī)生診斷需求的影像。從理論上講,這一技術(shù)賦能可以有效提高基層醫(yī)療服務(wù)能力及服務(wù)質(zhì)量。

MR同理,通過(guò)AI賦能,更普遍的1.5T設(shè)備或者低場(chǎng)便攜設(shè)備大幅提升圖像質(zhì)量,實(shí)現(xiàn)3T等高端設(shè)備的診斷質(zhì)量與掃描效率。

總的來(lái)說(shuō),生成式AI在單任務(wù)辨別式AI應(yīng)用中的作用路徑,均是基于原始數(shù)據(jù)生成合成數(shù)據(jù),并將其應(yīng)用于最終結(jié)果的生成,實(shí)現(xiàn)影像增強(qiáng)。同時(shí),整個(gè)模型訓(xùn)練過(guò)程中,生成式模型可以同來(lái)進(jìn)行數(shù)據(jù)擴(kuò)充(Data Augmentation),從而基于較小數(shù)據(jù)量以更快速度獲取更為優(yōu)質(zhì)的圖像,有利于研發(fā)人員開(kāi)拓更多數(shù)據(jù)量相對(duì)缺失的場(chǎng)景。

相較于主攻分析能力提升的單任務(wù)辨別式AI,生成式AI應(yīng)用的能力則有一些超脫于當(dāng)下醫(yī)療需求之前。舉一個(gè)不那么恰當(dāng)?shù)睦樱罕鎰e式AI應(yīng)用可以評(píng)估患者當(dāng)下的健康狀態(tài),而生成式AI應(yīng)用意在預(yù)測(cè)每一人身體的未來(lái)。

目前國(guó)內(nèi)嘗試生成式AI應(yīng)用探索的項(xiàng)目非常有限。一個(gè)典型的例子是鷹瞳Airdoc與北京大學(xué)臨床研究所、愛(ài)康集團(tuán)開(kāi)展的視網(wǎng)膜研究。通過(guò)觀察40萬(wàn)人的視網(wǎng)膜血管和神經(jīng)的發(fā)展變化,研究人員讓生成式AI自學(xué),去判斷受檢者接下來(lái)的發(fā)展變化,評(píng)估未來(lái)心腦血管病風(fēng)險(xiǎn)有多高。目前相關(guān)研究已發(fā)表在國(guó)際知名期刊《Science Bulletin》之中。

據(jù)鷹瞳科技表示,以生成式AI為基礎(chǔ)的阿爾茨海默病風(fēng)險(xiǎn)預(yù)測(cè)、近視進(jìn)展預(yù)測(cè)、帕金森風(fēng)險(xiǎn)預(yù)測(cè)同樣處于研發(fā)之中。如果上述疾病能通過(guò)AI實(shí)現(xiàn)預(yù)測(cè)或早發(fā)現(xiàn),及時(shí)的防治措施能夠幫助大量患者規(guī)避疾病風(fēng)險(xiǎn),避免后續(xù)漫長(zhǎng)且不可控的治療。

生成式AI能夠生成臨床數(shù)據(jù)嗎?

既然單任務(wù)辨別式AI應(yīng)用與生成式AI應(yīng)用都在運(yùn)算的過(guò)程之中使用了生成數(shù)據(jù),那么我們是否也能像AIGC在金融、藝術(shù)中的應(yīng)用中那樣,直接生成醫(yī)療數(shù)據(jù)呢?

美國(guó)圣路易斯華盛頓大學(xué)醫(yī)學(xué)院信息學(xué)研究所去年開(kāi)啟了一項(xiàng)基于生成式AI生成患者合成數(shù)據(jù)集的研究,意在為廣大科技醫(yī)療研究人員提供更為豐富的數(shù)據(jù),為各類醫(yī)療AI的研發(fā)提速。

該研究使用了以色列公司MDClone研發(fā)的生成式AI模型。MDClone的系統(tǒng)與醫(yī)院的EHR直連,可以抽取患者數(shù)據(jù)進(jìn)行脫敏,把數(shù)據(jù)按照特定維度打散,再利用其自研的生成式AI模型進(jìn)行重新組合。通過(guò)這一路徑,MDClone可以根據(jù)基于少量電子健康記錄中真實(shí)的患者數(shù)據(jù)準(zhǔn)確地生成大量合成數(shù)據(jù),重建真實(shí)患者的特征。

在后續(xù)的研究中,相關(guān)人員將合成數(shù)據(jù)集與真實(shí)數(shù)據(jù)集置于三個(gè)特定任務(wù)下進(jìn)行對(duì)比,分別為分析兒科創(chuàng)傷患者的死亡風(fēng)險(xiǎn);預(yù)測(cè)哪些住院患者最有可能發(fā)生敗血癥;制作圣路易斯地區(qū)一年內(nèi)按郵政編碼劃分的衣原體感染率地圖。

該對(duì)比研究結(jié)果顯示,合成數(shù)據(jù)分析的結(jié)果在統(tǒng)計(jì)上與真實(shí)數(shù)據(jù)的分析相似,各項(xiàng)數(shù)據(jù)集都得出了相同的結(jié)論。在絕大多數(shù)情況下,統(tǒng)計(jì)結(jié)果是相同的,只有在極少數(shù)情況下,真實(shí)數(shù)據(jù)集和合成數(shù)據(jù)集之間存在差異。

這一研究結(jié)果與深透醫(yī)療在影像加速中的研究結(jié)果方向一致。這也意味著,過(guò)去準(zhǔn)備訓(xùn)練數(shù)據(jù)往往需要耗去研究人員數(shù)個(gè)月的時(shí)間,而在生成式AI模型的賦能下,研究人員可以在數(shù)小時(shí)至數(shù)日內(nèi)建立、查詢并下載自己的合成數(shù)據(jù)集。

此外,這一生成合成數(shù)據(jù)的方法還創(chuàng)造了一種嚴(yán)格的患者隱私保密方式。由于合成數(shù)據(jù)無(wú)法與真實(shí)的人和身份聯(lián)系起來(lái),醫(yī)院或能借助這一技術(shù)將數(shù)據(jù)變?yōu)橐环N特定的資產(chǎn),在不侵害患者隱私的前提下,最大化相關(guān)臨床研究。

同樣的邏輯亦可用于影像數(shù)據(jù)中。

在訓(xùn)練輔助診斷類人工智能的過(guò)程中,患者影像數(shù)據(jù)的不均勻分布常常會(huì)影響最終模型在實(shí)際應(yīng)用中的效果。

以皮膚病AI為例,該AI在處理影像時(shí)需要同時(shí)計(jì)算多種皮膚病的概率,但由于人的皮膚膚質(zhì)及患病類型并非均勻分布,僅考慮患病種類一個(gè)維度,濕疹、毛囊炎的數(shù)據(jù)頻率偏高,銀屑病的數(shù)據(jù)頻率則會(huì)相對(duì)偏低。

常規(guī)算法可以雖然可以實(shí)現(xiàn)影像數(shù)據(jù)的合成,但其合成數(shù)據(jù)質(zhì)量與真實(shí)數(shù)據(jù)質(zhì)量存在差異,不能完全替代真實(shí)數(shù)據(jù)的價(jià)值。生成式AI的出現(xiàn)則補(bǔ)全了生成邏輯方面的缺陷,讓生成數(shù)據(jù)不僅保有質(zhì)量,還能加快生成過(guò)程,擴(kuò)大生成數(shù)據(jù)的量級(jí)。

英偉達(dá)在影像類合成數(shù)據(jù)中早有布局。2022年,英偉達(dá)與倫敦國(guó)王學(xué)院使用Cambridge-1超級(jí)計(jì)算機(jī)創(chuàng)建一套包含10萬(wàn)份大腦合成圖像的數(shù)據(jù)集,借此訓(xùn)練AI應(yīng)用以加快對(duì)于癡呆癥、帕金森病及其他腦部疾病的理解。其生成邏輯與文本有相似之處,便是將真實(shí)數(shù)據(jù)拆分為素材,再通過(guò)特定邏輯的AI進(jìn)行組合,進(jìn)而解決數(shù)據(jù)量稀缺的問(wèn)題。

合成數(shù)據(jù)的另一個(gè)潛在應(yīng)用場(chǎng)景在于多病種判別式AI的審評(píng)審批。

多病種AI的臨床試驗(yàn)設(shè)計(jì)是一個(gè)復(fù)雜的過(guò)程。譬如,多病種AI(以N=2為例)在進(jìn)行數(shù)據(jù)集構(gòu)建與算法驗(yàn)證時(shí),不僅需要構(gòu)建病種A數(shù)據(jù)庫(kù)與病種B數(shù)據(jù)庫(kù),還需要構(gòu)建A∩B數(shù)據(jù)庫(kù),并需在模型之中添加醫(yī)學(xué)知識(shí),使其能基于醫(yī)學(xué)原理解釋交集數(shù)據(jù)的概率得出過(guò)程。

當(dāng)病種數(shù)量較少時(shí),構(gòu)建融合數(shù)據(jù)庫(kù)的難度尚且可控。而在當(dāng)前審評(píng)審批邏輯下,病種數(shù)量一旦增多,各病種組合的樣式及需要的數(shù)據(jù)集豐富程度則會(huì)呈指數(shù)趨勢(shì)上升,數(shù)據(jù)不均勻分布導(dǎo)致的障礙也會(huì)進(jìn)一步凸顯。

譬如,糖網(wǎng)病變的0期、6期患者數(shù)據(jù)天然較少,企業(yè)很難在真實(shí)世界中找到足量滿足驗(yàn)證數(shù)據(jù)集要求的數(shù)據(jù)量。若將病種的組合考慮在內(nèi),相關(guān)數(shù)據(jù)收集復(fù)雜程度將急速擴(kuò)增,最終變成一個(gè)現(xiàn)實(shí)之中無(wú)法解決的難題。顯然,應(yīng)用生成式AI對(duì)部分稀缺維度進(jìn)行數(shù)據(jù)擴(kuò)增有希望解決這一問(wèn)題。

深透醫(yī)療已拿到FDA、CE、NMPA等各地認(rèn)證,宮恩浩在采訪中告訴動(dòng)脈網(wǎng):“合成數(shù)據(jù)的應(yīng)用貫穿AI應(yīng)用全流程,F(xiàn)DA有明確要求申報(bào)公司闡述清楚訓(xùn)練和測(cè)試用到的真實(shí)臨床數(shù)據(jù)的數(shù)量和細(xì)節(jié),但FDA沒(méi)有對(duì)合成數(shù)據(jù)的使用量及使用環(huán)節(jié)進(jìn)行明確規(guī)定。另一方面,影像增強(qiáng)過(guò)程中產(chǎn)生合成數(shù)據(jù)并以此重建影像與直接構(gòu)建合成數(shù)據(jù)集進(jìn)行AI訓(xùn)練兩種方式存在差異,后一種方式仍然存在探索空間。”

中國(guó)人工智能醫(yī)療器械標(biāo)準(zhǔn)化技術(shù)單位及NMPA對(duì)于數(shù)據(jù)質(zhì)控的標(biāo)注制定及討論同樣走在全球前列,目標(biāo)是針對(duì)訓(xùn)練數(shù)據(jù)、預(yù)訓(xùn)練、遷移學(xué)習(xí)等方面的建立完善的標(biāo)準(zhǔn)。如今生成式AI的進(jìn)一步拓寬,或能加速相關(guān)法律法規(guī)及審評(píng)審批條款的制定,使多病種AI的審評(píng)審批獲得理論與經(jīng)濟(jì)上的雙重可能。

距離硅谷,我們還有多遠(yuǎn)?

近日,國(guó)家互聯(lián)網(wǎng)信息辦公室發(fā)布了一則關(guān)于《生成式人工智能服務(wù)管理辦法(征求意見(jiàn)稿)》公開(kāi)征求意見(jiàn)的通知,有意將生成式AI盡快納入監(jiān)管范圍。

對(duì)于這項(xiàng)仍處于野蠻生長(zhǎng)中的技術(shù),有效的監(jiān)管將為其帶來(lái)更為良性的發(fā)展空間,也利于企業(yè)及早規(guī)避可能的政策風(fēng)險(xiǎn)。不過(guò),要在國(guó)內(nèi)全面推動(dòng)生成式AI的發(fā)展,需要依靠不能只是監(jiān)管。

“任何技術(shù)創(chuàng)新都是由基礎(chǔ)技術(shù)創(chuàng)新,到技術(shù)應(yīng)用創(chuàng)新,最后帶來(lái)商業(yè)模式的創(chuàng)新。目前國(guó)內(nèi)的生成式AI發(fā)展與硅谷存在一定差距,既存在于模型方面,又存在于數(shù)據(jù)方面。在美國(guó),以O(shè)penAI為代表的科技公司已經(jīng)完成了GPT模型、大語(yǔ)言模型(LLM)等基礎(chǔ)設(shè)施的搭建,這意味著,美國(guó)已經(jīng)進(jìn)入到了創(chuàng)新的第二階段——技術(shù)應(yīng)用創(chuàng)新?!睆堣幢硎?。

要追趕硅谷并不簡(jiǎn)單,一方面需要有科技公司完成基礎(chǔ)模型的突破,讓后進(jìn)的創(chuàng)業(yè)公司們能夠通過(guò)API去調(diào)用先進(jìn)的模型;另一方面需要加速多模態(tài)數(shù)據(jù)的治理,為模型的專科化培養(yǎng)提供數(shù)據(jù)支撐。

回到國(guó)內(nèi),哪些企業(yè)能夠承擔(dān)風(fēng)險(xiǎn)扛起AI跨時(shí)代發(fā)展的責(zé)任?還需時(shí)間給出答案。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。