正在閱讀:

谷歌大模型下場,F(xiàn)DA完成首批,這個AI賽道起飛在即

掃一掃下載界面新聞APP

谷歌大模型下場,F(xiàn)DA完成首批,這個AI賽道起飛在即

在解決了硬件的門檻后,聲學標志物的發(fā)展正在進入快車道。

圖片來源:界面圖庫

文 | 動脈網

通過患者體內發(fā)出的聲音“聽音辨病”成為現(xiàn)實又近了一步。

今年初,谷歌(Google)正式宣布生物聲學基礎模型HeAR,并在近日宣布將其用于肺結核早篩。同時,今年稍早時候,Eko Health(簡稱Eko)的人工智能獲得FDA審批,被認為是FDA審批的首個利用聲音輔助醫(yī)生識別心衰的人工智能。

動脈網統(tǒng)計發(fā)現(xiàn),生物聲音標志物近來進展迅速,正迎來重大突破。

谷歌下場,F(xiàn)DA首批,聲學標志物AI進展神速

近幾個月以來,生物聲學標志物這一新興領域頻頻出現(xiàn)在聚光燈下。以該領域最知名的企業(yè)之一Eko為例,在今年迎來了雙豐收——其突破性人工智能算法在3月被FDA批準,隨后便在6月完成了4100萬美元的D輪融資。

另外一家知名企業(yè)TytoCare則在去年8月完成了4900萬美元的融資,其人工智能算法則剛剛在7月底獲得了FDA的額外批準,可用于檢測成人和兩歲以上兒童的肺部濕啰音,以進一步檢測潛在的肺部疾病。

如今,看好這一領域的谷歌也攜大模型入場。

今年初,谷歌發(fā)布了名為HeAR(Health Acoustic Representations)的人工智能模型的研究成果。這個專業(yè)的生物聲學基礎模型使用了超過3億條兩秒長的音頻數(shù)據(jù)集(其中包含約1億條咳嗽的音頻數(shù)據(jù))進行訓練,皆是從30億個公共非版權YouTube音視頻中提取剪輯而來,希望能夠在生物聲學標志物的醫(yī)療應用上取得新的進展。

谷歌的研究團隊在6個數(shù)據(jù)集的13個健康聲學事件檢測任務、14個咳嗽推理任務和6個肺活量測定任務的健康聲學任務上對HeAR進行了基準測試,證明HeAR能夠在廣泛的任務范圍中非常準確地識別與醫(yī)療相關的聲音模式,稱其為目前功能最為強大的生物聲學基礎模型之一絕不為過。

比準確性更讓人興奮的是其對拾音設備極佳的兼容性。研究采用了不同的音頻輸入設備,從高端智能手機到入門智能手機,再到隱藏式麥克風,最終表明HeAR能夠在不同的拾音設備上泛化并以有限的數(shù)據(jù)集訓練以實現(xiàn)高性能。

8月底,谷歌宣布了HeAR的第一個應用項目,將與印度企業(yè)Salcit Technologies合作,將HeAR用于肺結核早篩。

快速發(fā)現(xiàn)結核病人并提供及時治療是避免結核菌傳播的主要途徑,但目前臨床上主流的診斷技術還比較“原始”,應用最廣泛的痰涂片距今已有百年歷史,但這一方法從取樣到出結果往往至少需要一個月時間,且其陽性率只有約30%,準確率、效率和速度均較低。

雖然影像檢查和最新的分子生物學診斷技術的準確性和效率有顯著提高,但受成本和技術的限制導致其很難在基層醫(yī)院推廣。相比之下,通過智能手機對患者咳嗽聲的采集分析實現(xiàn)肺結核早篩為院外提供了一種極具潛力的普適性無創(chuàng)診斷手段,可使基層獲得比以往強得多的篩查能力。

除了肺結核,哮喘和慢阻肺也是生物聲學標志物的目標。澳大利亞的Resapp Health在該領域有較長的積累,并在澳大利亞上市。旗下兩款產品之一——SleepCheckRx用于識別阻塞性睡眠呼吸暫停,已獲FDA批準;另一款產品ResAppDx則可通過咳嗽和呼吸聲幫助診斷肺部疾病,也已獲CE批準。

2022年底,藥企巨頭輝瑞以1.79億美元收購了Resapp Health。

谷歌的這一大模型主要用于呼吸系統(tǒng)疾病的應用,尚處于起步階段。在對聲音標志物的利用上,心臟類疾病的進展最快,并在今年迎來了突破。

今年5月,Eko宣布其與數(shù)字聽診器配套的人工智能軟件——“Eko low ejection fraction tool (eleft)”獲批,被認為是FDA所批準的第一個可輔助心衰早期篩查的人工智能算法,是一項重大的醫(yī)學創(chuàng)新。

借助Eko的這一人工智能,醫(yī)生可以在15秒內僅憑數(shù)字聽診器采集到的心音檢測心臟低射血分數(shù)(或稱心臟低EF值)——這一指標反映了心臟的收縮泵血能力。射血分數(shù)降低類心衰(HFrEF)也是主要的心衰類型,根據(jù)統(tǒng)計,在美國超600萬心衰患者中,有一半屬于射血分數(shù)降低類心衰。

在以往,射血分數(shù)檢測需要應用超聲檢測,不僅成本較高也對操作人員有一定的要求,并不適合基層常規(guī)檢查?;颊咄粫谝延忻黠@癥狀的時候才會做進一步檢查,因此錯過早期黃金干預時機的案例屢見不鮮。

Eko的人工智能算法結合配套數(shù)字聽診器可以識別心臟雜音,有望在最初級的常規(guī)檢查中盡早將射血分數(shù)降低類心衰患者篩查出來。被篩查出來的患者則可以接受進一步的檢查以實現(xiàn)盡早干預。

Eko的進展并非一蹴而就,這家成立于2013年的公司一直專注于將聲學標志物付諸實用。早在2015年,其數(shù)字聽診器就獲得了FDA審批。不過,當時這款產品目的主要在于遠程傳遞,并沒有任何輔助功能,僅僅只是將采集到的心臟聲音通過藍牙傳輸?shù)绞謾C,隨后再通過手機將音頻數(shù)據(jù)上傳到云端供專家進行遠程會診。

然而,這種方式可以將患者的音頻數(shù)據(jù)與電子健康記錄(EHR)集成在一起,以實現(xiàn)無縫轉診、文檔編制和病情實時監(jiān)測。這為Eko之后逐步建立“世界上最大的心音數(shù)據(jù)庫”奠定了基礎。這些心音數(shù)據(jù)之后被Eko用于訓練人工智能,用于識別心臟病早期癥狀,對于心臟疾病的早期診斷及治療具有重要意義。

這些努力終于在近年結出了碩果。2020-2023年間,Eko又獲批了多款醫(yī)療器械,除了升級后的數(shù)字聽診器,更包括可生成心音圖并對其進行分析的人工智能算法。

除了Eko,全球有不少企業(yè)也在這一領域取得了實質性進展。比如,日本AMI(Acute Medical Innovation)旗下可輔助識別瓣膜性心臟病(包括主動脈瓣狹窄)早期征兆的AI聽診器就在2022年10月通過了日本醫(yī)療器械審批。

這一領域的進展,有目共睹。

生物聲學標志物潛力巨大,起飛在即

人體器官的物理結構會隨著生理和病理狀況而改變,從而導致不同疾病患者發(fā)出的聲音以及器官自身發(fā)聲產生特異性變化,這些聲音特征可被作為疾病的“聲音標志物”。一個簡單的例子莫過于得了感冒后聲音會變沙啞,便是這種變化的一種體現(xiàn)。一直致力于研究生物聲學標志物研究的環(huán)宇瑞聲創(chuàng)始人、CEO高政向動脈網介紹了生物聲學標志物的原理:“舉例來說,肺癌患者因主動脈瘤、縱膈腫瘤等壓迫支氣管導致咳嗽金屬音并伴隨聲音嘶啞,肺炎患者則因一側或雙側肺泡發(fā)炎引起的感染導致肺泡充滿液體或膿液,而發(fā)出伴隨痰鳴音的咳嗽音。不同疾病的聲學標志物具有獨特性和差異性,通過梅爾語譜圖(Mel-spectrogram)進行可視化特征鑒別性分析,可以發(fā)現(xiàn)肺癌、肺結核與健康人之間聲音的顯著差異,從而為疾病診斷提供全新的視角和方法?!?/p>

正因為此,聲音數(shù)據(jù)自古以來都是醫(yī)學范疇內必要的醫(yī)療數(shù)據(jù)。中醫(yī)自古強調的“望聞問切”中的“聞”就是指聆聽患者的聲音和氣息,也在幾千年的實踐中被證明的確可以對某些疾病進行診斷。

1816年被發(fā)明,并于1819年被公布聽診器的出現(xiàn)則代表了醫(yī)學界對于生物聲音標志物的進一步探索。因其成本低廉和小巧便攜的特點,聽診器得到了普及。在諸如CT等大型醫(yī)療器械出現(xiàn)之前,通過人體聲音的變化診斷疾病一直都是主要的醫(yī)學檢查手段。

不過,受限于傳統(tǒng)聽診器對聲音的采集精度限制,以及人類聽覺器官的極限,聽診器只實現(xiàn)非常粗淺的判斷,且高度依賴于醫(yī)生經驗。盡管如此,它在基層應用中的作用仍然不能被小視。

數(shù)字時代的到來則為已有兩百多年歷史的聽診器帶來了新生命。數(shù)字聽診器利用電子技術將聲波轉換為高精度的數(shù)字化電信號,然后通過放大和處理,從而獲得清晰度遠比傳統(tǒng)聽診器高得多的聲音。再加上人工智能近年的高速發(fā)展,將生物聲學標志物用于臨床開始從以往的“遙不可及”逐漸向“觸手可及”轉變。

即便如此,這一進程也并不是一條坦途。音頻信號會受到環(huán)境噪聲的干擾,說話聲、戶外噪聲等因素都會影響咳嗽音特征的提取和分析。此前,受制于硬件性能限制,往往難以抓取到高質量的聲音信號。

一個好消息是傳感器技術近年的迅速進步極大地解決了這一短板。以壓電陶瓷傳感器作為拾音部件的新一代電子聽診器相比以往已經具有更好的信號質量和更平穩(wěn)的頻響曲線。能夠獲得更加準確、清晰的心肺音信號,從而準確獲取用戶健康數(shù)據(jù)。

更為重要的是,作為更為普及的聲音標志物拾取設備,智能手機歷經多年激烈競爭和技術進化,普遍在麥克風拾音性能上進步巨大,足以滿足基本的音頻信號采集需要。

“智能手機對聲音頻率的要求實際上已經符合臨床需求了。雖然不同的手機會帶來聲音的一些變化,但是通過領域泛化技術和損失函數(shù)改進可以將這種差異縮小,所以,現(xiàn)在硬件基本不會產生太大的影響了?!备哒騽用}網介紹道。

在解決了硬件的門檻后,聲學標志物的發(fā)展正在進入快車道。

西天取經非坦途,國內進展不輸巨頭

硬件的問題雖然基本解決,但生物聲學標志物的應用并非一條坦途,仍需解決一系列難點。

高政表示,目前生物聲學標志物的應用難點主要集中在軟件方面,即人工智能部分。技術上仍然需要解決人工智能模型有關患者聲學標志物靶點特征分析、復雜環(huán)境及跨設備場景下模型穩(wěn)定性,以及少量精標注數(shù)據(jù)下小樣本的學習方法等難題。

由于病理因素,呼吸系統(tǒng)疾病患者(如肺結核)與健康人之間的咳嗽聲音特征差異較為顯著,較易識別。然而,不同的肺部疾病患者卻可能表現(xiàn)出類似的癥狀,其咳嗽音的特征可能相互重疊,難以辨別是哪種具體的疾病。

如何在通用音頻特征基礎上,針對咳嗽的發(fā)聲特性以及特定疾病(如肺結核)的病理特性及癥狀表現(xiàn),設計精準的特定疾病患者咳嗽音的靶點特征,從而實現(xiàn)將特定疾病患者與健康人群以及其他肺部疾病患者的精準區(qū)分,是一個仍需解決的難點。

復雜環(huán)境及跨設備場景下的模型穩(wěn)定性則是另一個難點。通常,模型訓練所采用的音頻數(shù)據(jù)較為理想,但實際應用中需要識別的音頻信號會受到各種干擾,會影響咳嗽音特征的提取和分析。此外,不同拾音設備的性能差異也可能導致咳嗽音頻質量和特性發(fā)生變化,將會影響模型的診斷結果。

“在模型訓練過程中,如何通過數(shù)據(jù)增強、噪聲抑制等方法減輕噪聲影響,利用領域泛化技術消除設備差異,從而提升診斷模型的魯棒性將是提升生物聲學標志物模型實際可用性的關鍵問題?!?高政表示。

此外,由于音頻數(shù)據(jù)的采集及標注都較為困難,這要求模型在少量精標注數(shù)據(jù)的條件下仍然保持較好的檢測性能。如何解決小樣本數(shù)據(jù)和復雜模型學習之間的矛盾也是一個課題。

“音頻數(shù)據(jù)的獲取是目前最困難的一環(huán)。在目前的醫(yī)學檢測手段中,醫(yī)學影像數(shù)據(jù)占據(jù)了90%的醫(yī)療信息,從而為模型的訓練提供了基礎。但此前沒有醫(yī)院會專門存儲音頻數(shù)據(jù),對于人工智能的訓練來說就成為了無米之炊?!备哒騽用}網介紹道。

“高質量音頻數(shù)據(jù)集非常缺乏。如果用開源數(shù)據(jù)則會涉及到跨信道的問題。以谷歌為例,它的模型訓練所用的數(shù)據(jù)集是從Youtube的音視頻數(shù)據(jù)中剪輯而來,尤其是視頻數(shù)據(jù)轉成音頻數(shù)據(jù)需要多次解碼,會造成數(shù)據(jù)丟失。此外,像微信語音也存在類似數(shù)據(jù)壓縮的問題。我們的模型訓練用了2000萬條聲學數(shù)據(jù),最大的優(yōu)勢就是所有數(shù)據(jù)都是手機錄制,其信道是完全一致的?!彼a充道。

他表示,高質量數(shù)據(jù)的缺乏會對相應產品的研發(fā)帶來難題:“統(tǒng)計來看,目前已獲批的醫(yī)療AI產品都具有較高的敏感性(90%以上)和特異性(85%左右)。但聲音跟影像不太一樣,個體之間是有很大差異的。僅僅用這種少量的標簽數(shù)據(jù)訓練出來的模型在真實環(huán)境中使用,要達到要求的敏感性和特異性并不容易?!?/p>

正因為此,高政認為,大模型可以提升這個模型的穩(wěn)定性和在真實世界的這種泛化性,將成為未來聲學標志物能否投入實用的關鍵。

這種大模型的趨勢已經開始顯現(xiàn)。成立于2016年的Canary Speech主要利用聲音標志物檢測疾病癥狀明顯之前的情緒、壓力和能量水平,但一直沒有引發(fā)太多的關注。去年5月,Canary Speech宣布與微軟合作,導入微軟大模型技術助力研發(fā)。今年6月,這家企業(yè)首次獲得了1300萬美元的A輪融資。

在生物聲學標志物的研究上,國內的進展也頗為可觀,有關生物聲學標志物應用的媒體報道也并不鮮見。中國醫(yī)科大學附屬第一醫(yī)院就在此前開展了基于聲學生物標志物的頸動脈狹窄智能診斷技術研究,目前該項目的頸動脈狹窄輔助診斷準確率已達到97%。此外,首都醫(yī)科大學附屬北京胸科醫(yī)院也正開展將該聲學生物標志物應用于肺癌、肺結核智能診斷的臨床研究。

寫在最后

基于聲學標志物的AI智能診斷技術有著廣闊的應用前景,除了呼吸系統(tǒng)疾病、心腦血管疾病外、神經性疾病(例如阿爾茲海默癥、抑郁癥、創(chuàng)傷后應激障礙等)以及胎心音等更廣泛的醫(yī)療領域都有其用武之地。

隨著硬件和人工智能等相關技術的進步,生物聲學標志物的研究進展正在加速,相信未來將會越來越多地迎來相關領域的突破。動脈網也將對此保持關注,也歡迎行業(yè)人士不吝賜教。

本文為轉載內容,授權事宜請聯(lián)系原著作權人。

谷歌

6k
  • OpenAI據(jù)悉考慮調整公司架構,以提高對投資者的吸引力
  • 谷歌將斥資8.5億美元在烏拉圭建立數(shù)據(jù)中心

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

谷歌大模型下場,F(xiàn)DA完成首批,這個AI賽道起飛在即

在解決了硬件的門檻后,聲學標志物的發(fā)展正在進入快車道。

圖片來源:界面圖庫

文 | 動脈網

通過患者體內發(fā)出的聲音“聽音辨病”成為現(xiàn)實又近了一步。

今年初,谷歌(Google)正式宣布生物聲學基礎模型HeAR,并在近日宣布將其用于肺結核早篩。同時,今年稍早時候,Eko Health(簡稱Eko)的人工智能獲得FDA審批,被認為是FDA審批的首個利用聲音輔助醫(yī)生識別心衰的人工智能。

動脈網統(tǒng)計發(fā)現(xiàn),生物聲音標志物近來進展迅速,正迎來重大突破。

谷歌下場,F(xiàn)DA首批,聲學標志物AI進展神速

近幾個月以來,生物聲學標志物這一新興領域頻頻出現(xiàn)在聚光燈下。以該領域最知名的企業(yè)之一Eko為例,在今年迎來了雙豐收——其突破性人工智能算法在3月被FDA批準,隨后便在6月完成了4100萬美元的D輪融資。

另外一家知名企業(yè)TytoCare則在去年8月完成了4900萬美元的融資,其人工智能算法則剛剛在7月底獲得了FDA的額外批準,可用于檢測成人和兩歲以上兒童的肺部濕啰音,以進一步檢測潛在的肺部疾病。

如今,看好這一領域的谷歌也攜大模型入場。

今年初,谷歌發(fā)布了名為HeAR(Health Acoustic Representations)的人工智能模型的研究成果。這個專業(yè)的生物聲學基礎模型使用了超過3億條兩秒長的音頻數(shù)據(jù)集(其中包含約1億條咳嗽的音頻數(shù)據(jù))進行訓練,皆是從30億個公共非版權YouTube音視頻中提取剪輯而來,希望能夠在生物聲學標志物的醫(yī)療應用上取得新的進展。

谷歌的研究團隊在6個數(shù)據(jù)集的13個健康聲學事件檢測任務、14個咳嗽推理任務和6個肺活量測定任務的健康聲學任務上對HeAR進行了基準測試,證明HeAR能夠在廣泛的任務范圍中非常準確地識別與醫(yī)療相關的聲音模式,稱其為目前功能最為強大的生物聲學基礎模型之一絕不為過。

比準確性更讓人興奮的是其對拾音設備極佳的兼容性。研究采用了不同的音頻輸入設備,從高端智能手機到入門智能手機,再到隱藏式麥克風,最終表明HeAR能夠在不同的拾音設備上泛化并以有限的數(shù)據(jù)集訓練以實現(xiàn)高性能。

8月底,谷歌宣布了HeAR的第一個應用項目,將與印度企業(yè)Salcit Technologies合作,將HeAR用于肺結核早篩。

快速發(fā)現(xiàn)結核病人并提供及時治療是避免結核菌傳播的主要途徑,但目前臨床上主流的診斷技術還比較“原始”,應用最廣泛的痰涂片距今已有百年歷史,但這一方法從取樣到出結果往往至少需要一個月時間,且其陽性率只有約30%,準確率、效率和速度均較低。

雖然影像檢查和最新的分子生物學診斷技術的準確性和效率有顯著提高,但受成本和技術的限制導致其很難在基層醫(yī)院推廣。相比之下,通過智能手機對患者咳嗽聲的采集分析實現(xiàn)肺結核早篩為院外提供了一種極具潛力的普適性無創(chuàng)診斷手段,可使基層獲得比以往強得多的篩查能力。

除了肺結核,哮喘和慢阻肺也是生物聲學標志物的目標。澳大利亞的Resapp Health在該領域有較長的積累,并在澳大利亞上市。旗下兩款產品之一——SleepCheckRx用于識別阻塞性睡眠呼吸暫停,已獲FDA批準;另一款產品ResAppDx則可通過咳嗽和呼吸聲幫助診斷肺部疾病,也已獲CE批準。

2022年底,藥企巨頭輝瑞以1.79億美元收購了Resapp Health。

谷歌的這一大模型主要用于呼吸系統(tǒng)疾病的應用,尚處于起步階段。在對聲音標志物的利用上,心臟類疾病的進展最快,并在今年迎來了突破。

今年5月,Eko宣布其與數(shù)字聽診器配套的人工智能軟件——“Eko low ejection fraction tool (eleft)”獲批,被認為是FDA所批準的第一個可輔助心衰早期篩查的人工智能算法,是一項重大的醫(yī)學創(chuàng)新。

借助Eko的這一人工智能,醫(yī)生可以在15秒內僅憑數(shù)字聽診器采集到的心音檢測心臟低射血分數(shù)(或稱心臟低EF值)——這一指標反映了心臟的收縮泵血能力。射血分數(shù)降低類心衰(HFrEF)也是主要的心衰類型,根據(jù)統(tǒng)計,在美國超600萬心衰患者中,有一半屬于射血分數(shù)降低類心衰。

在以往,射血分數(shù)檢測需要應用超聲檢測,不僅成本較高也對操作人員有一定的要求,并不適合基層常規(guī)檢查。患者往往只會在已有明顯癥狀的時候才會做進一步檢查,因此錯過早期黃金干預時機的案例屢見不鮮。

Eko的人工智能算法結合配套數(shù)字聽診器可以識別心臟雜音,有望在最初級的常規(guī)檢查中盡早將射血分數(shù)降低類心衰患者篩查出來。被篩查出來的患者則可以接受進一步的檢查以實現(xiàn)盡早干預。

Eko的進展并非一蹴而就,這家成立于2013年的公司一直專注于將聲學標志物付諸實用。早在2015年,其數(shù)字聽診器就獲得了FDA審批。不過,當時這款產品目的主要在于遠程傳遞,并沒有任何輔助功能,僅僅只是將采集到的心臟聲音通過藍牙傳輸?shù)绞謾C,隨后再通過手機將音頻數(shù)據(jù)上傳到云端供專家進行遠程會診。

然而,這種方式可以將患者的音頻數(shù)據(jù)與電子健康記錄(EHR)集成在一起,以實現(xiàn)無縫轉診、文檔編制和病情實時監(jiān)測。這為Eko之后逐步建立“世界上最大的心音數(shù)據(jù)庫”奠定了基礎。這些心音數(shù)據(jù)之后被Eko用于訓練人工智能,用于識別心臟病早期癥狀,對于心臟疾病的早期診斷及治療具有重要意義。

這些努力終于在近年結出了碩果。2020-2023年間,Eko又獲批了多款醫(yī)療器械,除了升級后的數(shù)字聽診器,更包括可生成心音圖并對其進行分析的人工智能算法。

除了Eko,全球有不少企業(yè)也在這一領域取得了實質性進展。比如,日本AMI(Acute Medical Innovation)旗下可輔助識別瓣膜性心臟?。òㄖ鲃用}瓣狹窄)早期征兆的AI聽診器就在2022年10月通過了日本醫(yī)療器械審批。

這一領域的進展,有目共睹。

生物聲學標志物潛力巨大,起飛在即

人體器官的物理結構會隨著生理和病理狀況而改變,從而導致不同疾病患者發(fā)出的聲音以及器官自身發(fā)聲產生特異性變化,這些聲音特征可被作為疾病的“聲音標志物”。一個簡單的例子莫過于得了感冒后聲音會變沙啞,便是這種變化的一種體現(xiàn)。一直致力于研究生物聲學標志物研究的環(huán)宇瑞聲創(chuàng)始人、CEO高政向動脈網介紹了生物聲學標志物的原理:“舉例來說,肺癌患者因主動脈瘤、縱膈腫瘤等壓迫支氣管導致咳嗽金屬音并伴隨聲音嘶啞,肺炎患者則因一側或雙側肺泡發(fā)炎引起的感染導致肺泡充滿液體或膿液,而發(fā)出伴隨痰鳴音的咳嗽音。不同疾病的聲學標志物具有獨特性和差異性,通過梅爾語譜圖(Mel-spectrogram)進行可視化特征鑒別性分析,可以發(fā)現(xiàn)肺癌、肺結核與健康人之間聲音的顯著差異,從而為疾病診斷提供全新的視角和方法?!?/p>

正因為此,聲音數(shù)據(jù)自古以來都是醫(yī)學范疇內必要的醫(yī)療數(shù)據(jù)。中醫(yī)自古強調的“望聞問切”中的“聞”就是指聆聽患者的聲音和氣息,也在幾千年的實踐中被證明的確可以對某些疾病進行診斷。

1816年被發(fā)明,并于1819年被公布聽診器的出現(xiàn)則代表了醫(yī)學界對于生物聲音標志物的進一步探索。因其成本低廉和小巧便攜的特點,聽診器得到了普及。在諸如CT等大型醫(yī)療器械出現(xiàn)之前,通過人體聲音的變化診斷疾病一直都是主要的醫(yī)學檢查手段。

不過,受限于傳統(tǒng)聽診器對聲音的采集精度限制,以及人類聽覺器官的極限,聽診器只實現(xiàn)非常粗淺的判斷,且高度依賴于醫(yī)生經驗。盡管如此,它在基層應用中的作用仍然不能被小視。

數(shù)字時代的到來則為已有兩百多年歷史的聽診器帶來了新生命。數(shù)字聽診器利用電子技術將聲波轉換為高精度的數(shù)字化電信號,然后通過放大和處理,從而獲得清晰度遠比傳統(tǒng)聽診器高得多的聲音。再加上人工智能近年的高速發(fā)展,將生物聲學標志物用于臨床開始從以往的“遙不可及”逐漸向“觸手可及”轉變。

即便如此,這一進程也并不是一條坦途。音頻信號會受到環(huán)境噪聲的干擾,說話聲、戶外噪聲等因素都會影響咳嗽音特征的提取和分析。此前,受制于硬件性能限制,往往難以抓取到高質量的聲音信號。

一個好消息是傳感器技術近年的迅速進步極大地解決了這一短板。以壓電陶瓷傳感器作為拾音部件的新一代電子聽診器相比以往已經具有更好的信號質量和更平穩(wěn)的頻響曲線。能夠獲得更加準確、清晰的心肺音信號,從而準確獲取用戶健康數(shù)據(jù)。

更為重要的是,作為更為普及的聲音標志物拾取設備,智能手機歷經多年激烈競爭和技術進化,普遍在麥克風拾音性能上進步巨大,足以滿足基本的音頻信號采集需要。

“智能手機對聲音頻率的要求實際上已經符合臨床需求了。雖然不同的手機會帶來聲音的一些變化,但是通過領域泛化技術和損失函數(shù)改進可以將這種差異縮小,所以,現(xiàn)在硬件基本不會產生太大的影響了?!备哒騽用}網介紹道。

在解決了硬件的門檻后,聲學標志物的發(fā)展正在進入快車道。

西天取經非坦途,國內進展不輸巨頭

硬件的問題雖然基本解決,但生物聲學標志物的應用并非一條坦途,仍需解決一系列難點。

高政表示,目前生物聲學標志物的應用難點主要集中在軟件方面,即人工智能部分。技術上仍然需要解決人工智能模型有關患者聲學標志物靶點特征分析、復雜環(huán)境及跨設備場景下模型穩(wěn)定性,以及少量精標注數(shù)據(jù)下小樣本的學習方法等難題。

由于病理因素,呼吸系統(tǒng)疾病患者(如肺結核)與健康人之間的咳嗽聲音特征差異較為顯著,較易識別。然而,不同的肺部疾病患者卻可能表現(xiàn)出類似的癥狀,其咳嗽音的特征可能相互重疊,難以辨別是哪種具體的疾病。

如何在通用音頻特征基礎上,針對咳嗽的發(fā)聲特性以及特定疾?。ㄈ绶谓Y核)的病理特性及癥狀表現(xiàn),設計精準的特定疾病患者咳嗽音的靶點特征,從而實現(xiàn)將特定疾病患者與健康人群以及其他肺部疾病患者的精準區(qū)分,是一個仍需解決的難點。

復雜環(huán)境及跨設備場景下的模型穩(wěn)定性則是另一個難點。通常,模型訓練所采用的音頻數(shù)據(jù)較為理想,但實際應用中需要識別的音頻信號會受到各種干擾,會影響咳嗽音特征的提取和分析。此外,不同拾音設備的性能差異也可能導致咳嗽音頻質量和特性發(fā)生變化,將會影響模型的診斷結果。

“在模型訓練過程中,如何通過數(shù)據(jù)增強、噪聲抑制等方法減輕噪聲影響,利用領域泛化技術消除設備差異,從而提升診斷模型的魯棒性將是提升生物聲學標志物模型實際可用性的關鍵問題?!?高政表示。

此外,由于音頻數(shù)據(jù)的采集及標注都較為困難,這要求模型在少量精標注數(shù)據(jù)的條件下仍然保持較好的檢測性能。如何解決小樣本數(shù)據(jù)和復雜模型學習之間的矛盾也是一個課題。

“音頻數(shù)據(jù)的獲取是目前最困難的一環(huán)。在目前的醫(yī)學檢測手段中,醫(yī)學影像數(shù)據(jù)占據(jù)了90%的醫(yī)療信息,從而為模型的訓練提供了基礎。但此前沒有醫(yī)院會專門存儲音頻數(shù)據(jù),對于人工智能的訓練來說就成為了無米之炊?!备哒騽用}網介紹道。

“高質量音頻數(shù)據(jù)集非常缺乏。如果用開源數(shù)據(jù)則會涉及到跨信道的問題。以谷歌為例,它的模型訓練所用的數(shù)據(jù)集是從Youtube的音視頻數(shù)據(jù)中剪輯而來,尤其是視頻數(shù)據(jù)轉成音頻數(shù)據(jù)需要多次解碼,會造成數(shù)據(jù)丟失。此外,像微信語音也存在類似數(shù)據(jù)壓縮的問題。我們的模型訓練用了2000萬條聲學數(shù)據(jù),最大的優(yōu)勢就是所有數(shù)據(jù)都是手機錄制,其信道是完全一致的?!彼a充道。

他表示,高質量數(shù)據(jù)的缺乏會對相應產品的研發(fā)帶來難題:“統(tǒng)計來看,目前已獲批的醫(yī)療AI產品都具有較高的敏感性(90%以上)和特異性(85%左右)。但聲音跟影像不太一樣,個體之間是有很大差異的。僅僅用這種少量的標簽數(shù)據(jù)訓練出來的模型在真實環(huán)境中使用,要達到要求的敏感性和特異性并不容易?!?/p>

正因為此,高政認為,大模型可以提升這個模型的穩(wěn)定性和在真實世界的這種泛化性,將成為未來聲學標志物能否投入實用的關鍵。

這種大模型的趨勢已經開始顯現(xiàn)。成立于2016年的Canary Speech主要利用聲音標志物檢測疾病癥狀明顯之前的情緒、壓力和能量水平,但一直沒有引發(fā)太多的關注。去年5月,Canary Speech宣布與微軟合作,導入微軟大模型技術助力研發(fā)。今年6月,這家企業(yè)首次獲得了1300萬美元的A輪融資。

在生物聲學標志物的研究上,國內的進展也頗為可觀,有關生物聲學標志物應用的媒體報道也并不鮮見。中國醫(yī)科大學附屬第一醫(yī)院就在此前開展了基于聲學生物標志物的頸動脈狹窄智能診斷技術研究,目前該項目的頸動脈狹窄輔助診斷準確率已達到97%。此外,首都醫(yī)科大學附屬北京胸科醫(yī)院也正開展將該聲學生物標志物應用于肺癌、肺結核智能診斷的臨床研究。

寫在最后

基于聲學標志物的AI智能診斷技術有著廣闊的應用前景,除了呼吸系統(tǒng)疾病、心腦血管疾病外、神經性疾?。ɡ绨柶澓DY、抑郁癥、創(chuàng)傷后應激障礙等)以及胎心音等更廣泛的醫(yī)療領域都有其用武之地。

隨著硬件和人工智能等相關技術的進步,生物聲學標志物的研究進展正在加速,相信未來將會越來越多地迎來相關領域的突破。動脈網也將對此保持關注,也歡迎行業(yè)人士不吝賜教。

本文為轉載內容,授權事宜請聯(lián)系原著作權人。