您現在的位置是:首頁 > 動作武俠首頁動作武俠

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

簡介‘view-wise’image-and-heatmaps整合模型在結構上與預訓練階段使用的BI-RADS模型最為相似,在預測惡性非惡性方面表現最佳,在篩查人群的AUC為0.895,活檢人群的AUC為0.850

yr代表女性什麼意思

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

2020年的第一天,谷歌就在醫療領域曝出了一個大新聞:谷歌健康部門聯手DeepMind在頂尖學術期刊《Nature》上釋出人工智慧乳腺癌檢測系統。

這個系統的核心亮點是,與之前的模型相比,該模型有效減少了乳腺癌被錯誤識別或遺漏的情況,將乳腺癌檢測的假陽性率降低了5。7%,假陰性率也降低了9。4%。

作者稱,該系統檢測乳腺癌的能力超過專業放射科醫生,或有助提高乳腺癌篩查的準確性和效率。

但是過了一天之後,深度學習“三巨頭”之一的LeCun就對這項成果開炮。雷鋒網對此事也進行了報道:《剛過一天就被拆臺?LeCun公開質疑谷歌《Nature》的乳腺癌AI研究成果》

他表示,谷歌這篇論文的結果,紐約大學的團隊在2019年10月就已經做過了,谷歌應當引用紐約大學的研究,因為這個研究效果還更好。

效果有多好?

谷歌論文AI系統中的AUC是0.889(UK)和0.8107(US),紐約大學的AUC達到了0.895。

另外一位學者Hugh Harvey也為LeCun打call。他表示,谷歌的研究中包含了6名放射科醫生,而NYU的研究則用了14名。

圍繞這一次小小的學術“風波”,雷鋒網AI掘金志學術組對紐約大學的這篇論文進行了編譯和編輯,看看這篇“先人一步”的論文有何可取之處?

以下為論文詳細內容,關注AI掘金志公眾號,在對話方塊回覆關鍵詞“紐約大學”,即可獲取原文PDF。

摘要

我們提出了一個用於乳腺癌篩查檢查分類的深度卷積神經網路,基於超過200000個乳腺檢查(超過1000000個影象)上進行訓練和評估。對人群進行篩查檢測時,我們的網路在預測乳腺癌存在方面的AUC達到0。895。

我們把高準確率歸因於以下技術進步:

一、網路創新性地分為兩個不同階段的架構和訓練過程,我們在使用高容量patch-level網路從pixel-level標籤學習的同時,設定另一個網路從整體上學習乳房級標籤。

二、基於ResNet的自定義網路,用作我們模型的構建塊,其深度和寬度方面的平衡針對高解析度醫學影象進行了最佳化。

三、在BI-RADS分類上對網路進行預訓練,這是一項標籤噪音較大的相關任務。

四、在許多可能的選擇中以最佳方式組合多個輸入檢視。為了驗證我們的模型,我們組織14位放射科醫師進行了閱片,每位醫師檢視720份乳腺鉬靶篩查影象。結果表明,我們的模型與有經驗的放射科醫生的判斷結果一樣準確。

此外,將放射科醫生對惡性腫瘤的判斷結果和我們神經網路的預測結果平均起來的混合模型更加準確。我們將模型在https://github。com/nyukat/breast_cancer_classifier上公開發布。

介紹

乳腺癌是美國女性第二大癌症相關死亡原因。2014年,美國進行了3900多萬次篩查和乳腺鉬靶診斷檢查。據估計,在2015有232000名婦女被診斷為乳腺癌,約有40000人死於乳腺癌。

儘管乳腺鉬靶是唯一一種可以降低乳腺癌死亡率的影像學檢查方法,但大家一直在討論該篩查的潛在危害,包括假陽性和假陽性導致的活檢。10-15%的女性在做了未確定的乳房X光檢查後被要求再次接受檢查和/或超聲波檢查以進一步明確。經過額外的影像檢查後,許多女性被確定為良性,只有10-20%被推薦接受針活檢。其中,只有20-40%的人診斷出癌症。

顯然,我們還需要讓常規乳腺癌篩查更加準確,並減少對女性身體的傷害。

儘管多中心研究表明,傳統計算機輔助診斷程式並不能提高診斷效果,但放射科醫生還是會使用它來幫助影象判讀。深度學習的發展,特別是深卷積神經網路(CNN)為建立新一代類似CAD的工具提供了可能性。

本文的目標是研發神經網路以幫助放射科醫生判讀乳腺癌篩查影象。

(i) 我們提出了一種新的兩階段神經網路,將全域性和區域性資訊結合起來,並採用適當的訓練方法。這使得我們可以使用一個非常高容量的patch-level網路來學習pixel-level標籤,同時使用另一個網路來從整體上學習乳房級標籤。透過這種策略,我們的模型不僅實現了與人類相當的競爭成績,同時產生可解釋的熱圖,顯示可疑發現的位置。此外,我們還證明了畫素級標籤的實用性,即使在我們有很多影象級標籤的情況下也是如此。

(ii)我們證明了利用超過1000000張高解析度乳腺X線攝影影象(這是醫學成像中的一個非常大的資料集,不僅僅是用於乳腺癌篩查)來訓練和評估該網路的可行性。這對於未來的研究設計以及展示這種方法的概念和價值都具有重要價值。

(iii)我們提出了專門為醫學成像設計的ResNet的新變體,用作我們網路的構建塊,它在深度和寬度上做了平衡,允許模型處理非常大的影象,同時保持合理的記憶體消耗。

(iv)我們評估了使用具有更高噪聲的相關任務( BI-RADS分類)對網路進行預訓練的效用,並發現它是管道中一個非常重要的部分,顯著提高了我們模型的效能。這在大多數資料集都很小的醫學影像研究中特別重要。

(v) 我們評估了在單一的神經網路中結合來自不同乳腺攝影檢視的多種方法。我們未發現以前有過這樣的分析,儘管醫學成像任務通常有多個輸入。

資料

我們的回顧性研究得到了機構審查委員會的批准,符合《醫療保險可攜帶性和責任法案》。這個資料集是我們早期工作中使用的資料集的更大、更仔細的版本。

資料集包括來自141473名患者的229426份數字乳腺攝影篩查(1001093張影象)。每次檢查至少包含4張影象,與乳房X光攝影中使用的4個標準檢視相對應:R-CC、L-CC、R-MLO和L-MLO。

資料集中的影象來自四種類型掃描器:Mammomat Inspiration(22。81%)、Mammomat Novation DR (12。65%)、Lorad Selenia(40。92%)和Selenia Dimensions (23。62%),圖1顯示了一些檢查示例。

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

我們依賴活檢的病理報告,來標記患者的每個乳房是否有惡性或良性發現。我們有5832個檢查在進行乳腺X片篩查的120天內至少完成一次活檢。其中活檢證實985例(8。4%)為惡性,5556例(47。6%)為良性,234例(2。0%)乳腺同時有良惡性徵象。

對於所有與活檢相匹配的檢查,我們要求一組放射科醫生回顧性地指出活檢病灶在畫素級別的位置(提供相應的病理報告)。

我們發現大約32。8%的檢查是隱匿性的,也就是說,活檢的病灶在乳腺鉬靶攝影中是不可見的,使用其他成像方式識別(超聲或MRI)被識別。詳見表一。

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

腫瘤分類深度CNN網路

一些乳腺同時包含惡性和良性病灶,我們使用多工分類模型將乳腺癌篩查分類。也就是說,對於每一個乳腺,我們分配兩個二元標籤:乳房中有/沒有惡性發現(表示為yR,m和yL,m),乳房中有/沒有良性發現(表示為yR,b和yL,b)。左右乳腺加起來,每個檢查共有4個標籤。我們的目標是生成四個對應於每個標籤的預測(用yR,m,yL,m,yR,b和yL,b表示)。

雖然我們主要對預測惡性病灶的存在與否感興趣,但預測良性病灶的存在與否對於輔助調整模型學習任務起著重要的作用。我們將四個高解析度影象,對應於四個標準乳腺鉬靶攝影檢視作為輸入(由xR-CC、xL-CC、xR-MLO和xL-MLO表示)。

對於CC檢視,我們將每個影象裁剪為固定大小的2677×1942畫素,對於MLO檢視,裁剪為2974×1748畫素。有關示意圖,請參見圖3。

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

模型結構和訓練

我們受Geras等人先前工作的啟發,對圖5所示的四種不同結構的多檢視CNN進行了訓練。所有這些網路都由兩個核心模組組成:(i)四個特定於檢視的列,每個列基於ResNet體系結構,該結構為每個乳腺攝影檢視輸出固定維度的隱藏層向量表示;(ii)兩個全連線層,將計算出的隱藏層向量對映到輸出預測。這些模型在如何聚合來自所有檢視的中間層以生成最終預測的方式有所不同。

我們考慮了以下4種方式。

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

1) ‘view-wise’模型(圖5(a))分別將L-CC和R-CC、L-MLO和R-MLO連線起來。它對CC和MLO檢視進行單獨的預測,最後將相應的預測取平均值。

1) ‘image-wise’模型(圖5(b))獨立地對四個檢視中的每一個進行預測。相應的預測最後取平均值。

2) ‘side-wise’模型(圖5(c))首先連線L-CC和L-MLO,以及R-CC和R-MLO,然後分別對每側乳腺進行預測。

3) ‘joint’模型(圖5(d))連線所有四個檢視,共同預測兩個乳房的惡性和良性機率。

在所有模型中,我們使用四個基於ResNet的22層網路(ResNet-22)作為中間層,計算每個檢視的256維隱藏層向量。與標準ResNets相比,該網路具有不同的深度和寬度比例,可用於解析度非常高的影象。

我們發現“view”模型在驗證集上預測惡性/非惡性是最精確的。

除非另有說明,否則我們接下來說的都是該模型的結果。

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

A.單個ResNet-22

ResNet-22的完整架構如圖4所示。L-CC和R-CC ResNets、L-MLO和R-MLO ResNets共享權重。我們在輸入模型之前翻轉了L-CC和L-MLO影象,因此所有乳房影象都是右向的,允許共享的ResNet權重在相同方向的影象上操作。每個ResNet的中間輸出是H×W×256維張量,其中H和W從原始輸入大小下采樣,CC檢視H=42,W=31,MLO檢視的H=47,W=28。我們在空間維度上對向量進行平均,以獲得每個檢視的256維隱藏向量。

作為參考,我們在表2中顯示了ResNet-22的每一層後中間向量的維度。將標準Resnets應用於乳房X光攝影的主要原因是需要處理解析度非常高的影象,而不需要在GPU限制下進行下采樣來擬合前向過程及梯度計算。

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

B. 輔助patch-level 分類模型及熱圖

影象的高解析度和GPU的有限記憶體,限制了我們在使用全解析度影象作為輸入時在模型中使用相對較淺的resnet。為了進一步利用乳腺X線照片中細粒度的細節,我們訓練了一個輔助模型來對256×256畫素的乳腺X線圖片進行分類,預測在給定的patch中是否存在惡性和良性的病灶。

這些patch的標籤是由臨床醫生手動勾畫的。我們將此模型稱為patch-level模型,與上面一節中描述的對整個乳房影象進行操作的breast-level模型不同。

我們將該輔助網路以滑動視窗方式掃描全解析度乳房X片影象,以建立每張影象的兩張熱圖(圖6為一個示例),一張代表每個畫素惡性病變機率,另一張代表每個畫素良性病變機率。總共,我們獲得了八個附加影象:Xm R-CC、Xb R-CC、Xm L-CC、Xb L-CC、Xm R-MLO、Xb R-MLO、Xm L-MLO、Xb L-MLO。這些補丁分類熱圖可以用作乳腺級別模型的附加輸入通道,以提供補充的細粒度資訊。

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

B. BI-RADS分類預訓練

由於我們資料集中有活檢的檢查相對較少,我們應用遷移學習來提高模型的穩健性和效能。遷移學習重用在另一個任務上預先訓練的模型的一部分作為訓練目標模型的起點。

對於我們的模型,我們從BI-RADS分類任務的預訓練網路中遷移學習。我們考慮的三個BI-RADS類是:類別0(“不正常”),類別1(“正常”)和類別2(“良性”)。一些研究解釋了用於提取這些標籤的演算法。儘管這些標籤比活檢結果噪聲更多(是臨床醫生根據乳房X光片進行的評估,而不是透過活檢獲得資訊),但與訓練集中經活檢證實的4844次檢查相比,我們有99528多個BI-RADS標籤的訓練示例。

神經網路已經被證明,即使是在使用噪聲標籤進行訓練時,也能夠達到合理的效能水平。我們使用這個特點將用BI-RADS標籤學習到的資訊遷移到癌症分類模型。我們的實驗表明,BI-RADS分類預訓練網路對我們模型效能有顯著的貢獻(見第V-E節)。BI-RADS預訓練網路結構如圖7所示。

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

實驗過程

在所有的實驗中,我們使用訓練集來調整我們的模型引數,使用驗證集來最佳化模型和訓練過程的超引數。除非另有說明,否則均是篩選人群的計算結果。為了進一步改進我們的結果,我們採用了模型整合技術,對幾個不同模型的預測進行平均,以產生整合的總體預測。

在我們的實驗中,我們針對每個模型訓練了五個副本,在全連線層中對權重進行了不同的隨機初始化,而剩餘的權重則使用BI-RADS分類中預先訓練的模型的權重進行初始化。

A. 測試人群

在下面的實驗中,我們在幾個不同群體上評估我們的模型,以測試不同的假設:(i)篩查人群,包括來自測試集的所有檢查,不進行亞抽樣;(ii)活檢亞群,這是篩查人群的子集,僅包括接受活檢的乳腺篩查人群的檢查;(iii)閱片研究亞群,包括活檢亞群和未發現任何病灶的篩查人群隨機抽樣的子集。

B. 評價指標

我們主要根據AUC(ROC曲線下的面積)評估我們的模型對乳腺惡性/非惡性和良性/非良性分類任務的效能。閱片研究模型和閱片者對影象的分類成績是根據AUC和PRAUC來評估的,這兩個是評估放射科醫生成績的常用指標,ROC和PRAUC代表預測模型不同方面的效能。

C. 篩查人群

本節為篩選人群的結果,不同模型的結果如表3所示。總體而言,四個模型的AUC都較高且基本持平。

‘view-wise’image-and-heatmaps整合模型在結構上與預訓練階段使用的BI-RADS模型最為相似,在預測惡性/非惡性方面表現最佳,在篩查人群的AUC為0.895,活檢人群的AUC為0.850。

然而在良性/非良性預測方面,其他一些模型確實優於‘view-wise’整合模型。僅有影象輸入的四種模型表現大致相當,低於image-and-heatmaps模型。在惡性/非惡性分類中,image-and-heatmaps模型比良性/非良性分類有更強的改進。

我們還發現,ensembling在所有模型中都是有益的,這使得AUC的小而穩定的提升。

image-and-heatmaps模型的四個變體模型整合後,在篩查人群中對良性/非良性預測任務的AUC為0。778,惡性/非惡性預測的AUC為0。899。儘管這種效能優於任何單獨的模型,但在實踐中執行這樣一個由20個獨立模型組成的大型整合體將非常昂貴。

D. 活檢亞群

我們在表3的右半部分顯示了模型在活檢人群中的評估結果。我們的測試集有401個乳腺,其中339個有良性發現,45個有惡性發現,17個兩者均有。活檢亞群與總體篩查人群不同,總體篩查人群主要是健康個體,他們每年都要進行常規篩查,而沒有其他的影像學或活檢。與篩查人群的結果相比,所有模型在活檢人群的AUC明顯較低。

在活檢亞群中,我們觀察到image-only模型與image-and-heatmaps 模型之間的一致性差異。

image-and-heatmaps整合模型在惡性/非惡性分類上表現最好,AUC達到0.850,在良性/非良性分類上表現同樣最好,AUC達到0.696。

與篩查人群相比,活檢亞群獲得的AUC明顯較低,這可以解釋為,需要進一步影像學檢查和活檢的乳腺影象對於放射科醫生和我們的模型均具有挑戰性。

E. BI-RADS預訓練的重要性

我們透過將我們的模型與未使用BI-RADS預訓練模型的權重而訓練的癌症分類模型的效能相比較,來評價BI-RADS預訓練的益處,結果見表三(用*標記)。

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

閱片研究

為了將我們的image-and-heatmaps整合模型(以下簡稱模型)的效能與放射科醫生進行比較,我們對14名醫師進行了一項閱片研究,其中有12名具有不同經驗水平的放射科醫生(2至25年),一名住院醫生和一名醫科學生,分別從測試集(1480個乳腺)中閱讀740份檢查:368份從活檢亞群中隨機選擇的檢查,372份從與活檢不匹配的檢查中隨機選擇的檢查。醫師被要求以0%-100%的比例為每個乳房提供惡性腫瘤的機率估計。

由於一些乳腺含有多個可疑的發現,醫師被要求對他們認為最可疑的病灶進行評估。我們模型的AUC為0。876,PRAUC為0。318。醫師的AUC從0。705到0。860不等(平均值:0。778,標準值:0。0435),PRAUCs從0。244到0。453不等(平均值:0。364,標準差:0。0496)。圖8(a)和圖8(c)示出了單個ROC和precision-recall 曲線及其平均值。

我們還評估了人機混合模型的準確性,其預測是基於放射科醫生和模型預測的線性組合。混合模型平均AUC為0.891(標準差:0.0109),平均PRAUC為0.431(標準差:0.0332)(參見圖8(b),圖8(d))。

這些結果表明,我們的模型可以作為一個工具來幫助放射科醫生閱讀乳腺癌篩查檢查,並且與有經驗的乳腺放射科醫生相比,它提供了任務不同方面的資訊。在補充材料的I-G-1節中可以找到一個定性分析,比較模型和放射科醫生對特定檢查的預測結果。

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

圖靈獎得主LeCun用來懟Google的乳腺癌AI論文,有何過人之處?

結論和討論

透過利用一個帶有breast-level和 pixel-level標籤的大型訓練集,我們構建了一個能夠準確分類乳腺癌鉬靶檢查的神經網路。我們將這一成功歸因於patch-level 模型中封裝的大量計算,該模型被應用於輸入影象,以形成熱圖作為breast-level 模型的附加輸入通道。使用當前可用的硬體完全以端到端的方式訓練此模型是不可能的。

雖然我們的結果令人滿意,但我們實驗中使用的測試集相對較小,結果需要進一步的臨床驗證。

此外,

儘管我們的模型在閱片研究特定任務上的效能比放射科醫生的強,但是放射科醫生執行的任務不僅僅於此。通常情況下,乳房X光攝影只是診斷流程中的第一步,放射科醫生結合其他影像科檢查後,才能做出最終的決定。

然而,

在我們的研究中神經網路和放射科醫生的混合模型分別優於這兩個模型,這表明使用這種模型可以提高放射科醫生對乳腺癌檢測的敏感性。

另一方面,我們的模型設計相對簡單,有希望進一步研究更復雜和精確的模型。除了測試該模型在臨床試驗中閱讀乳房鉬靶的效用外,下一個明確的目標是預測乳腺癌的發展——甚至在放射科醫師可以看到病灶之前。雷鋒網雷鋒網

Top