您現在的位置是:首頁 > 單機遊戲首頁單機遊戲

資料科學家的武器庫(數理統計技術)

簡介原因在於統計推斷的演算法是根據分析變數的度量型別定製開發的,這需要分析人員對各類指標的分佈型別有所認識,合理選擇演算法

群星薈聚什麼意思

數理統計博大精深,分為頻率和貝葉斯兩大學派。不過作為面向商業運用的資料科學家,對入門級選手的數理統計要求並不高,只要具備文科高等數理統計的基礎足矣,比如被廣泛採用的《經濟數學第三冊》,或者任何一本商業統計學、社會統計學,教育統計學等教程。

1。2。1描述性統計分析

描述性分析是每個人都會使用的方法。比如新聞聯播中每次提及人民的收入情況,報告的永遠是均值,而不是一一念出每個人的收入。企業財務年報中經常提及的是年收入、利潤總額,而不是每一筆交易的資料。這些平均數、總和就是統計量。描述性分析就是從總體資料中提煉變數的主要資訊,即統計量。日常的業務分析報告就是透過標準的描述性分析方法完成的,其套路性很強。做這類分析只要明確分析的主題和可能的影響因素,確定可量化主題和影響因素的指標。根據這些指標的度量型別選擇適用的統計表和統計圖進行資訊呈現即可。下圖展現了統計表的型別和對應的柱形圖。

資料科學家的武器庫(數理統計技術)

圖1-4描述性統計分析方法

關於描述性統計分析詳細的內容,大家可以閱讀第4。2節的製作報表與統計製圖的內容。這些內容看上去枯燥也沒什麼用處,那我們以一個例子表現其用途。目前商業智慧的概念比較流行,圖1-5 是某知名商業智慧軟體的截圖,看上去高大上,其實就是圖1-4中方法的運用。比如最下面的“普通小學基本情況”報表就是“彙總表”的直接運用。比如左下角的“普通小學專任教師數”是柱形圖的變體,使用博士帽的數量替代柱高;右下角的“各省份小學學校數量佔比”中,使用起泡的大小代表各省小學數量的佔比情況。

資料科學家的武器庫(數理統計技術)

圖1-5 某商業智慧軟體的截圖

學習描述性統計分析很簡單,一上午就可以學完這些知識,並可以勝任95%以上的業務分析報告編寫工作。剩下的難點完全是對業務理解和尋找資料了,要靠多讀分析報告積累業務經驗。

1。2。2統計推斷與統計建模

統計推斷及統計建模,含義是建立解釋變數與被解釋變數之間可解釋的、穩定的,最好是具有因果關係的表示式。在模型運用時,將解釋變數帶入該表示式,用於預測每個個體被解釋變數的均值。目前針對統計推斷,廣泛存在兩個誤解:

1、統計推斷無用論:認為大資料時代只作描述性分析即可,不需要統計推斷。由於總體有時間和空間兩個維度的,即使透過大容量與高速並行處理可以得到空間上的總體。但是永遠無法獲取時間上的總體,因為需要預測的總是新的客戶或新的需求。而且更為重要的是,在資料科學體系中,統計推斷的演算法往往是複雜的資料探勘與人工智慧演算法的基礎。比如特徵工程中大量使用統計推斷演算法進行特徵創造與特徵提取。

2、學習統計推斷的產出/投入比低:深度學習大行其道的關鍵點是產出/投入比高。實踐表明,具有高等數學基礎的學生可以透過兩個月的強化訓練掌握深度學習演算法,並投入生產。而培養同樣基礎的人開發可商業落地的統計模型的培訓時間至少半年。原因在於統計推斷的演算法是根據分析變數的度量型別定製開發的,這需要分析人員對各類指標的分佈型別有所認識,合理選擇演算法。而深度學習演算法是通用的,可以在一個框架下完成所有任務。聽上去當然後者的產出/投入比更高。但是效率與風險往往是共存的,目前來自於頂尖IA公司的模型開發人員已經發現一個問題:解決同樣問題,統計模型開發週期長而更新頻次低;深度學習演算法開發週期短而最佳化頻次高。過去深度學習所鼓吹的實時最佳化給企業造成了過度的人員投入。因此深度學習的綜合受益不一定高,而本書的目的之一就在於降低統計推斷學習的成本。讀者將來只要按照下表根據分析資料按圖索驥即可,大大縮減學習時間。

表1-2統計推斷與建模方法

被預測變數Y

預測變數X

分類(二分)

連續

單個變數

分類(二分)

列聯表分析|卡方檢驗

雙樣本t檢驗

分類(多個分類)

列聯表分析|卡方檢驗

單因素方差分析

連續

雙樣本t檢驗

相關分析

多個變數

分類

邏輯迴歸

多因素方差分析|線性迴歸

連續

邏輯迴歸

線性迴歸

資料資管出品

Top