您現在的位置是:首頁 > 手機遊戲首頁手機遊戲

準確率可達100%!谷歌全新方法解決ML模型走捷徑問題

簡介在文字分類模型中,輸入顯著性方法為每個標記分配一個分數,其中分數越高表示對預測的貢獻更大

向量的長度如何表示

編輯:Joey

【新智元導讀】

最近Google AI團隊的新論文嘗試對困擾ML模型的「走捷徑」問題進行解答,並給出了幾種顯著性方法的建議。

透過大量訓練解決任務的現代機器學習模型,在測試集上進行評估時可以取得出色的效能。

但有時它們做出了正確的預測,但使用的資訊似乎與模型任務無關。

這是為什麼呢?

原因之一在於訓練模型的資料集包含與正確標籤沒有因果關係,但卻是「可預測的偽影」。

也就是說,模型被無關資訊給忽悠了。

準確率可達100%!谷歌全新方法解決ML模型走捷徑問題

例如,在影象分類資料集中,水印可能表示某個特定類別。

當所有狗的照片都碰巧是在室外拍攝的,背景都是綠草,因此綠色背景預示著狗的存在。

模型很容易依賴這種虛假的相關性(捷徑),而不是更復雜的特徵。

文字分類模型也可能傾向於學習捷徑,比如過度依賴特定的單詞、短語。

自然語言推理任務中一個臭名昭著的例子是在預測矛盾時依賴否定詞。

論文連結貼在下方,感興趣的小夥伴可以看看~

準確率可達100%!谷歌全新方法解決ML模型走捷徑問題

論文連結:https://aclanthology。org/P19-1334/

在構建模型時,其中重要的一步包括驗證模型是否不依賴於此類捷徑。

而輸入顯著性方法(如 LIME 或 Integrated Gradients)是實現此目的的常用方法。

在文字分類模型中,輸入顯著性方法為每個標記分配一個分數,其中分數越高表示對預測的貢獻更大。

然而,不同的方法會產生非常不同的得分排名。那麼,應該使用哪一個來發現捷徑呢?

要回答這個問題, 我們提出了一個評估輸入顯著性方法的協議。

核心理念是有意向訓練資料引入無意義的捷徑,並驗證模型是否學會了應用它們,以便確定地瞭解標記的基本事實重要性。

有了已知的真值(Ground Truth),我們就可以透過將已知重要的標記置於其排名頂部的一致性來評估任何顯著性方法。

準確率可達100%!谷歌全新方法解決ML模型走捷徑問題

使用開源學習可解釋性工具 (LIT),我們證明了不同的顯著性方法可以在情感分類示例中產生非常不同的顯著性圖。

在上圖的示例中,顯著性分數顯示在相應的標記下:顏色強度表示顯著性;綠色和紫色代表正權重,紅色代表負權重。

相同的標記 (eastwood) 被分配了最高 (Grad L2 Norm)、最低 (Grad Input) 和中等 (Integrated Gradients, LIME) 重要性分數。

定義真值

在機器學習中,真值「ground truth」一詞指的是訓練集對監督學習技術的分類的準確性。

準確率可達100%!谷歌全新方法解決ML模型走捷徑問題

這在統計模型中被用來證明或否定研究假設,ground truth 這個術語指的是為這個測試收集目標(可證明的)資料的過程。

而我們方法的關鍵是建立一個可用於比較的ground truth。

我們認為,路徑的選擇必須受到文字分類模型的已知資訊的激勵。

例如,毒性檢測器傾向於使用身份詞作為毒性線索,自然語言推理 (NLI) 模型假設否定詞表示矛盾,預測電影評論情緒的分類器可能會忽略文字而支援數字評級。

文字模型中的捷徑通常是詞彙性的,可以包含多個標記,因此有必要測試顯著性方法如何識別快捷方式中的所有標記。

創造捷徑

為了評估顯著性方法,我們首先將現有資料引入有序匹配的捷徑。

為此,我們使用基於 BERT 的模型在斯坦福情感樹庫 (SST2) 上訓練為情感分類器。

我們在BERT的詞彙表中引入了兩個無意義標記,zeroa 和 onea,我們將它們隨機插入到一部分訓練資料中。

準確率可達100%!谷歌全新方法解決ML模型走捷徑問題

每當文字中出現兩個標記時,都會根據標記的順序設定該文字的標籤。

研究結果

我們轉向LIT來驗證在混合資料集上訓練的模型確實學會了依賴捷徑。

我們看到在LIT的選項卡模型在完全修改的測試集上達到100%的準確率。

準確率可達100%!谷歌全新方法解決ML模型走捷徑問題

在混合資料 (A) 上訓練的模型的推理在很大程度上仍然是不透明的,但由於模型A在修改後的測試集上的效能是100%(與模型 B 的機會準確率形成對比,後者相似但僅在原始資料上訓練)。

總的來說,我們將所描述的方法應用於兩個模型(BERT、LSTM)、三個資料集(SST2、IMDB(長格式文字)、Toxicity(高度不平衡資料集))和三種詞彙快捷方式變體(單標記、兩個標記、兩個有順序的Token)。

此外,我們比較了多種顯著性方法配置。我們的結果表明:

尋找單個標記的捷徑對於顯著性方法來說是一項簡單的任務,但並不是每個方法都指向一對重要的標記。

適用於一種模型的方法可能不適用於另一種模型。

輸入長度等資料集屬性很重要。

諸如梯度向量等如何變成標量物質的細節也很重要。

我們還發現,一些在最近的工作中被假設為次優的方法配置如 Gradient L2,可能會為 BERT 模型提供令人驚訝的好結果。

參考資料:

https://twitter。com/GoogleAI/status/1600272280977780736

Top