《柳葉刀》子刊:王洛偉團隊在AI篩查食管癌領(lǐng)域取得重要進展!
近期,以ChatGPT為代表的通用人工智能(AGI)的發(fā)展,著實讓大家有了一種「奇點臨近」的感覺。當(dāng)然,在AGI面世之前,科學(xué)家已經(jīng)用機器學(xué)習(xí)和深度學(xué)習(xí)解決了很多醫(yī)學(xué)領(lǐng)域的實際問題。
近期,上海市第一人民醫(yī)院、海軍軍醫(yī)大學(xué)附屬長海醫(yī)院、上海國家消化系統(tǒng)疾病臨床醫(yī)學(xué)研究中心等多家機構(gòu)的研究人員,在《柳葉刀·胃腸肝病學(xué)》雜志上發(fā)表了一項重要研究,利用機器學(xué)習(xí)技術(shù)讓更經(jīng)濟、更可及的大規(guī)模食管癌篩查成為可能。機器學(xué)習(xí)模型AUROC達0.964,并可避免92.8%的內(nèi)窺鏡檢查【1】。
論文首頁截圖
食管癌的兇猛想必不用多言。在全球范圍內(nèi),食管癌在癌癥相關(guān)死亡原因排行榜中位居第六,僅2020年就造成了超過50萬人死亡【2】。需要特別強調(diào)的是,全球超過50%的食管癌死亡來自中國【3】,可見我國疾病負擔(dān)之沉重。
在食管癌高發(fā)的區(qū)域,食管鱗狀細胞癌占所有食管癌的90%【3】。由于食管鱗狀細胞癌癥狀出現(xiàn)較晚,大多數(shù)患者確診已是晚期,因此預(yù)后非常不佳,在非洲地區(qū)5年總生存率不到5%,中國則為30%。
和大多數(shù)癌癥一樣,早診早治也是降低食管癌死亡率的重要手段。如果可以在疾病的早期階段,如高級別鱗狀上皮增生(前期病變)和早期浸潤性食管鱗狀細胞癌時進行早期檢測和干預(yù),則可以有效減少食管鱗狀細胞癌的死亡率。
事實上,中國已經(jīng)開展的早篩計劃證明,40~69歲之間進行一次內(nèi)窺鏡篩查,可以在未來10年內(nèi)將食管鱗狀細胞癌的死亡率降低30~60%【4】。
有效篩查是降低食管癌病死率的“中國經(jīng)驗”
不過,雖然內(nèi)窺鏡篩查是食管癌早診的金標(biāo)準(zhǔn),但受侵入性和資源密集型限制,很難在我國高風(fēng)險地區(qū)廣泛開展。替代的方法主要有兩種,一種是基于流行病學(xué)的問卷調(diào)查,另一種是對非內(nèi)窺鏡氣球或膠囊海綿采樣器采集的細胞進行病理分析。但前者預(yù)測效果有限,后者則需要大量有經(jīng)驗的細胞病理學(xué)家。
那么有沒有可能開發(fā)一種對資源占有量小,不需要大量細胞病理學(xué)家介入,成本可控,準(zhǔn)確率又高的篩查方法呢?是時候呼喚AI了!
由研究團隊發(fā)起的這項名為EAST的研究,在全國39家醫(yī)院招募了14597名40-75歲之間的成年人,其中7899例數(shù)據(jù)進入訓(xùn)練集,6698例數(shù)據(jù)進入測試集,除此之外,還有2901名社區(qū)參與者,這些數(shù)據(jù)進入了驗證數(shù)據(jù)集。
人群基線特征
研究的流程可謂行云流水。首先,所有參與者都完成了一份結(jié)構(gòu)化的在線問卷調(diào)查,包括人口統(tǒng)計學(xué)和風(fēng)險因素,如性別、年齡、身體質(zhì)量指數(shù)、居住地、教育水平、吸煙和飲酒習(xí)慣等。其次,由當(dāng)?shù)氐淖o士進行膠囊海綿細胞采樣,收集的細胞被送往中央實驗室處理,并使用研究團隊的AI掃描儀進行病理片的掃描,并進一步提取數(shù)字化的細胞學(xué)特征。
在測試和驗證集中,被AI識別異常的細胞將交給兩位細胞學(xué)家進行獨立盲法診斷。所有參與者在細胞學(xué)檢查后的10天內(nèi)接受上消化道內(nèi)窺鏡檢查,并由醫(yī)生獨立診斷。
基于這些數(shù)據(jù),研究團隊希望訓(xùn)練一個機器學(xué)習(xí)模型,通過流行病學(xué)問卷調(diào)查+膠囊海綿細胞樣本AI特征提取數(shù)據(jù),來預(yù)測食管癌的風(fēng)險。
研究的主要預(yù)測結(jié)果是高級別病變,包括食管和食管-胃交界處的組織學(xué)證實的癌癥和高級別上皮內(nèi)瘤變。結(jié)果指標(biāo)包括模型的受試者工作特征曲線下面積(AUROC)和平均精度,以及靈敏度、特異度、陽性預(yù)測值、陰性預(yù)測值和需要內(nèi)窺鏡檢查的人數(shù)。
研究團隊訓(xùn)練了LR、AdaBoost、LightGBM 等6個常用的機器學(xué)習(xí)模型。在測試集中,LightGBM模型表現(xiàn)較佳,AUROC達到0.960(95% CI 0.937 to 0.977),平均精度為0.482(95% CI 0.470 to 0.494),并且與AI輔助的細胞學(xué)家表現(xiàn)相似(AUROC 0.955 [95% CI 0.933 to 0.975])。因此被選為進一步分析的終模型。
各分析模型準(zhǔn)確性
如果將模型定義的中度風(fēng)險和高風(fēng)險組轉(zhuǎn)介到內(nèi)窺鏡檢查,其敏感性為94.5%(95% CI 88.8 to 97.5),特異性為91.9%(95% CI 91.2 to 92.5),預(yù)測陽性值為18.4%(95% CI 15.6 to 21.6)。
研究團隊根據(jù)測試集ROC曲線的操作點,將預(yù)測風(fēng)險得分(PRS)小于0.25的參與者定義為低風(fēng)險組,PRS為0.25~0.5的參與者定義為中等風(fēng)險組,PRS為0.5或更高的參與者定義為高風(fēng)險組。
這里簡單科普一下,在機器學(xué)習(xí)中,PRS可以理解為一個分類閾值,將預(yù)測分數(shù)轉(zhuǎn)換為相應(yīng)的分類標(biāo)簽。比如,將預(yù)測分數(shù)大于等于閾值的樣本判定為陽性(positive),小于閾值的樣本判定為陰性(negative)。分類閾值是預(yù)測模型終決策的關(guān)鍵因素之一。
按照這個分類閾值,在測試組6698名參與者中, 6045(90.3%)為低風(fēng)險組, 189(2.8%)為中等風(fēng)險組, 464(6.9%)為高風(fēng)險組。
此前的內(nèi)窺鏡檢查診斷結(jié)果的顯示,在測試人群中,高級別病變的患病率為1.9%(6698人中的127人),也就是說,需要用內(nèi)窺鏡篩查52.7人,才能篩出一位高級別病變的患者。而如果將機器學(xué)習(xí)預(yù)測的中等風(fēng)險和高風(fēng)險組參與者納入內(nèi)窺鏡篩查,則使用內(nèi)窺鏡篩查5.4人,就可以篩出一位高級別病變患者,可以避免90.3%的內(nèi)窺鏡檢查。
準(zhǔn)不準(zhǔn)確?好不好用?
最后,使用社區(qū)2901例參與者的數(shù)據(jù)對模型進行驗證。在這個驗證集中,1.2%(36 of 2901) 的參與者經(jīng)內(nèi)窺鏡診斷為陽性。經(jīng)驗證,LightGBM模型的AUROC為0.964(95% CI 0.920 to 0.990)。使用預(yù)定義的PRS,92.8%的參與者被分類為低風(fēng)險,2.1%被分類為中風(fēng)險,5.0%被分類為高風(fēng)險。
如果將中等風(fēng)險和高風(fēng)險視為陽性預(yù)測,需要進一步使用內(nèi)窺鏡檢查,則可以避免92.8%的內(nèi)窺鏡檢查。也就是說,如果驗證集的參與者全部采用內(nèi)窺鏡篩查,篩查80.6人才能找到一個陽性患者;但對經(jīng)機器學(xué)習(xí)判定為陽性預(yù)測的參與者進行內(nèi)窺鏡篩查,則篩查5.9人,就可以找到一個陽性患者。篩查效率可謂大幅提升!
最后總結(jié)一下,這項由中國多家機構(gòu)發(fā)起了食管癌AI輔助篩查研究發(fā)現(xiàn),他們訓(xùn)練的機器學(xué)習(xí)模型可以使用「流行病學(xué)調(diào)查問卷+AI處理的海綿細胞采樣數(shù)據(jù)」,實現(xiàn)食管癌的高效篩查,AUROC達0.964,并可避免92.8%的內(nèi)窺鏡檢查,極大減少了篩查中內(nèi)窺鏡的使用密度。
聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息,如作者信息標(biāo)記有誤,或侵犯您的版權(quán),請聯(lián)系我們,我們將在及時修改或刪除內(nèi)容,聯(lián)系郵箱:marketing@360worldcare.com