機器學習中的忒修斯之船：那些“愚弄”專家的著名悖論

由讀芯術發表于網路遊戲
2022-08-23

悖論學習機器模型人工智慧

簡介理解準確性悖論的更簡單方法是，在機器學習模型中找到準確率和召回率之間的平衡

忒休斯之船的忒怎麼念

全文共3269字，預計學習時長11分鐘

悖論是人類認知的奇蹟之一，它難以用數學和統計學來求解。理論上來說，悖論是一種基於問題的原始前提得出明顯自相矛盾結論的陳述。即便是最著名的且有案可稽的悖論，也會經常愚弄住相關專家，因為悖論從根本上違背了常識。

圖源：unsplash

那麼，當人工智慧遇見悖論會發生什麼？用AI重建人類認知需處理許多資料無法解釋的現象，而悖論則一直被視為違背邏輯和資料規則的異常情況。對於機器學習模型來說，透過悖論進行推理是一個難以置信的挑戰。

當AI試圖重建人類認知時，機器學習模型在訓練資料中遇到自相矛盾的模式，並且返回似乎矛盾的結論是很常見的。資料科學家在訓練新模型時應該意識到這些場景。

本文筆者就將介紹一些“臭名昭著”的悖論。

悖論通常是在數學和哲學的交叉點上形成的。忒修斯之船（Ship of Theseus）就是最為著名的悖論之一，它質疑一個所有組成部分都被替換的物體是否仍然是同一物體。

圖源：medium

假設英雄忒修斯在一次偉大的戰鬥中所駕駛的著名的船隻被儲存在一個港口中作為博物館文物，歲月流逝，木製零件開始腐爛，以新零件取而代之。大約在一百年後，所有的部件都被更換。“修復後”的船還是原來的船嗎？

或者說，假設每一個換下來的部件都被儲存起來，一百年之後，技術已經可以扭轉腐爛的局面，重新組合起來打造出一艘船。那麼這艘被“重建”的船是原來的船嗎？如果是，那麼在港口被“修復”的船還是原來的船嗎？

事實上，悖論充斥了數學和統計學領域。為了使用幾個著名的例子，傳奇數學家和哲學家羅素提出了一個悖論，突出了集合論中一些最強大想法的矛盾，該理論由有史以來最偉大的數學家之一格奧爾格·康托爾提出。

本質上，羅素悖論質疑的是“所有不包含自己的列表的列表”。這個悖論是在自然集合論中產生的，因為它考慮到了所有不屬於自己集合的集合。當且僅當集合不是自身的成員時，該集合才似乎是其自身的成員。

這就是悖論。有一些集合，比如所有茶杯的集合，不是其自己的一部分。其他的集合，比如所有非茶杯的集合，都是自己的一部分。將所有不是自身成員的集合稱為“R”。如果R是自身的成員，那麼根據定義，它不能是自身的成員。同樣，如果R不是自身的成員，那麼根據定義，它必須是自身的成員。誒？這是怎麼回事？？？

機器學習模型中的著名悖論

作為基於資料的任何知識構建形式，機器學習模型都不能排除認知悖論。恰恰相反，當機器學習試圖推斷隱藏在訓練資料集中的模式，並根據特定環境驗證其知識時，它們總是容易受到自相矛盾的結論的影響。

佈雷斯悖論()TheBraess’s Paradox

這一悖論由德國數學家迪特里希·佈雷斯（DietrichBraes）於1968年提出。佈雷斯解釋說，使用擁擠的交通網路的例子，與直覺相反，在道路網路中新增道路可能會阻礙其流動（例如每個司機的行駛時間），同理，關閉道路也有可能改善出行時間。

佈雷斯推理的基礎是，在納什均衡博弈中，司機沒有改變路線的動機。從博弈論的角度來看，如果其他人堅持使用相同的策略，那麼個體在使用新策略時就不會有任何收益。對司機來說，策略是採取的路線。根據佈雷斯悖論，儘管整體效能下降，駕駛員仍將繼續切換，直到達到納什均衡。

因此，與直覺相反，關閉道路可能會緩解擁堵。

佈雷斯悖論在自主的多智慧體強化學習場景中很常見，其中的模型需要基於未知環境中的特定決策來獎勵代理。

辛普森悖論(TheSimpson’s Paradox)

辛普森悖論以英國數學家愛德華·辛普森的名字命名，它描述了這樣一種現象：將趨勢明顯的幾個組組合到一起時，幾組資料的趨勢消失了。

該悖論的現實案例出現於1973年。伯克利大學的研究生院對入學率進行了調查。這所大學因入學時存在性別差異而被女性起訴。調查結果是：對每一所院系（法律、醫學、工程等）單獨調查時，女性的入學率都高於男性！然而，平均數顯示男性的入院率遠高於女性。怎麼可能呢？

對以上例項的解釋是，單一的平均值不能解釋整個資料集中特定組的相關性。在這個具體例項中，女性大量申請入學率低的院系，如法律和醫學。這些院系錄取的學生不到10%。因而招收的女性比例很低。另一方面，男性更多傾向於申請入學率高的院系：如工程學，其入學率約為50%。因此，錄取的男性比例非常高。

在機器學習的背景下，許多無監督學習演算法會從不同的訓練資料集中進行推算，但是結果綜合起來會產生矛盾。

圖源：unsplash

準確性悖論

與機器學習直接相關，準確性悖論指出準確性並不總是對分類預測模型有效性的良好指標，這令人困惑。其根源在於不平衡的訓練資料集。例如，在A類發生率占主導地位的資料集中，99％的案例中都能被發現，然後就預測每個案例都是A類的準確率為99%，這完全是誤導。

理解準確性悖論的更簡單方法是，在機器學習模型中找到準確率和召回率之間的平衡。在機器學習演算法中，準確率常被定義為測量正類的預測的哪個部分是有效的，它由（真陽性/真陽性+假陽性）確定。此外，召回率指標衡量預測實際捕獲正類的頻率，它由（真陽性/真陽性+假陰性）表示。

圖源：unsplash

莫拉韋克悖論(TheMoravec’s Paradox)

漢斯·莫拉維克被認為是過去幾十年來最偉大的人工智慧思想家之一。20世紀80年代，莫拉維克對人工智慧模型獲取知識的方式提出了一個反直覺命題。莫拉維克悖論指出，與直覺相反，高階推理需要的計算量低於低階無意識認知。這是一種經驗觀察，與更大的計算能力會使系統更智慧這一概念背道而馳。

一種更簡單的構建莫拉維克悖論的方法是，人工智慧模型可以完成非常複雜的統計和資料推理任務，而人類不可能完成這些任務。

然而，許多對人類來說微不足道的任務，例如抓住物體，卻需要昂貴的人工智慧模型。讓計算機在智力測試或玩跳棋時出現成人水平的表現相對容易，但是在感知和行動方面，甚至無法讓其達到兒童的技能水平。

從機器學習的角度來看，莫拉維克的悖論在轉移學習方面非常適用，它可以在不同的機器學習模型中推廣知識。此外，莫拉維克悖論表明了，機器智慧的一些最佳應用將是人類和演算法的結合。

在許多機器學習模型中，平衡準確率和召回率是對精確度的更好度量。例如，用於欺詐檢測的演算法，召回率是重要的度量。檢測出每種可能的欺詐行為顯然很重要，即使這意味著可能需要經歷一些誤報。另一方面，如果為情緒分析建立演算法，並且只需在推文中指出高階情感概念，則目標為獲得準確率。

可學習性-哥德爾悖論(TheLearnability-Godel Paradox)

這一悖論最近才被提出，於今年早些時候發表在一篇研究論文中。它將機器學習模型的能力與最有爭議的數學理論之一聯絡起來：哥德爾的不完備性定理。

作為有史以來最聰明的數學家之一，其前輩庫爾特·哥德爾突破了哲學、物理學和數學的界限。1931年，哥德爾發表了他的兩個不完備性定理，本質上來講，使用標準數學語言無法證明某些陳述的真假。換句話說，數學是一種不足以理解宇宙某些方面的語言。這些定理被稱為哥德爾連續統假設。

在最近的一項研究中，以色列理工學院的人工智慧研究人員將哥德爾的連續統假設與機器學習模型的可學習性聯絡起來。在一個挑戰所有常識的自相矛盾的宣告中，研究人員定義了可學習性極限的概念。

圖源：unsplash

本質上來講，研究人員繼續證明，如果連續統的假設是真的，那麼一個小樣本就足以外推。但如果是假的，那麼任何有限的樣本都是不足的。這種方式證明了，可學習性等同於連續統假設。因此，可學習性問題也處於一種無法透過選擇公理宇宙來解決的狀態。

簡單來說，人工智慧問題受到哥德爾連續統假設的影響，這意味著人工智慧可能無法解決許多問題。雖然目前這一悖論在現實中人工智慧問題的應用還非常少，但對於該領域在將來的發展將是至關重要的。

雖然有人認為演算法沒有常識概念，可不受統計悖論的影響。但由於大多數機器學習問題需要人工分析和干預，人們將在很長一段時間內生活在一個充滿悖論的世界中。我們看到的現實是，悖論在現實世界的機器學習問題中無處不在。

留言點贊關注

我們一起分享AI學習與發展的乾貨

如轉載，請後臺留言，遵守轉載規範

上一篇：全在這！廣州車展各展館重點新車點評

下一篇：烏軍發起反攻之際，“六大國”卻退縮了：未給烏克蘭武器支援

您現在的位置是：首頁 > 網路遊戲首頁 網路遊戲

機器學習中的忒修斯之船：那些“愚弄”專家的著名悖論

相關文章