您現在的位置是:首頁 > 網路遊戲首頁網路遊戲

占星術合理嗎?各個星座最喜歡用的表情是什麼?

簡介sub(pattern,“”,text)清理完文字後,我們執行Bertmoticon,以給定的機率推斷出每條推文相關表情的前四名

什麼是占星術

全文共2122字,預計學習時長6分鐘

占星術合理嗎?各個星座最喜歡用的表情是什麼?

圖源:unsplash

透過分析數千條推文,我們找到了熱門的星座推特賬號,利用機器學習Bertmoticon包來分析預測每個星座的表情。結果讓我們大吃一驚!

首先,我們在推特上進行搜尋,透過粉絲的數量和最近推文的熱度(點贊數)找到每個星座的最熱推特賬號,然後從每個推特賬號中檢索最近的推文。為過濾掉垃圾資訊,我們找的這些推文至少要有100個贊。

占星術合理嗎?各個星座最喜歡用的表情是什麼?

占星在推特上的點選量接近400萬次,每個星座的潛在點選量平均達到11萬次,可見占星學在推特上有相當多的粉絲。

我們對推文文字進行了預處理和清理,篩去了雜項資訊,刪除了標籤、URL、使用者名稱、停止詞。這樣,當我們把關於各星座的推文輸入到Bertmoticon庫中時,結果將更加準確。它推斷出一本表情字典,我們將其轉換為機率。

以一條來自@VirgoTerms且經過清理的推文為例:“處女座的人喜歡把工作中的收穫帶到家裡的餐桌上,他們喜歡和家人分享這些事情。”

以下是Bertmoticon根據這條推文推斷出的相關表情的前四名(已刪去停止詞):機率為26。2%,機率為18。0%,機率為10。3%,機率為5。7%。

為了幫助理解如何在Python中清理推文,我們匯入了上一步的CSV檔案,並編寫了幾個不同的函式應用到CSV中的文字列。實現的功能如下:

·去掉停止詞:停止詞指的是那些不能增加資訊價值的常見詞,如“the”、“and”。這就減少了估計誤差,尤其是在資料點較少的情況下。

stop_words=set(stopwords。words(“english”))text=tokenization(text)#breaksuptextintoalistofwordsfiltered_tweet=[wforwintextifnotwinstop_words]

·使用SnowballStemmer進行詞根處理:將單詞還原為詞根(例如“loves”“loved”“loving”都還原為“love”)。雖然要以增加貝葉斯誤差作為代價,但這大大降低了估計誤差。

sb=SnowballStemmer(“english”)#assumestexthasalreadybeentokenizedforwordintext:print(word,“:”,sb。stem(word))

·從提取的推文中刪除不必要的文字:連結、話題標籤、@使用者名稱、轉發標誌(“RT”)、數字,這些都與文字整體資訊無關。

importre#removesurlsorimagelinkswithhttppattern=r“http\S+”text=re。sub(pattern,“”,text)

清理完文字後,我們執行Bertmoticon,以給定的機率推斷出每條推文相關表情的前四名。我們從CSV檔案中生成一個推文列表,並對列表中的每個字串執行Bertmoticon。

importbertmoticonfromcsvimportDictReaderwithopen(‘gemini。csv’,newline=‘’)asf:ls_of_strings=[row[“text”]forrowinDictReader(f)]emojis=bertmoticon。infer(ls_of_strings,4)

·風象星座

占星術合理嗎?各個星座最喜歡用的表情是什麼?

y軸上的機率表示表情符號被列入與推文相關表情符號前四名的次數。

·水象星座

占星術合理嗎?各個星座最喜歡用的表情是什麼?

·火象星座

占星術合理嗎?各個星座最喜歡用的表情是什麼?

火象星座與其他象星座的共通模式相差最大。

·土象星座

占星術合理嗎?各個星座最喜歡用的表情是什麼?

結果

占星術合理嗎?各個星座最喜歡用的表情是什麼?

儘管按土象、氣象、風象、火象進行了分組,除了一些異常值,檢測到的各星座表情符號總體模式非常相似。

雖然我們不能根據表情符號的使用和選擇來判斷人們的性格特徵,但各星座常用表情的大致趨勢能幫助我們推斷出,不同星座的性格特徵比我們想象的更為相近。

例如,按照網際網路上討論的星座刻板印象內容來說,會是白羊座和雙子座最常用的表情,因為他們被稱為最情緒化和最有態度的星座。然而,最終結果告訴我們,表情符號對於處女座、射手座、雙魚座和天蠍座來說最為常見,而這些星座是不該有無禮或情緒化的特點的。

當根據不同星座的性格特徵分析表情符號的型別時,可以發現很多方面都存在這種偏差。每個星座和表情的使用頻率比其他4種表情的使用頻率都要高。

儘管人們對不同星座有著相應的刻板印象,但從我們從代表各星座的推文中發現,這些星座特徵比我們想象的更為相近。如上文的折線圖所示,同一表情符號在不同的星座裡出現的機率大致相同。快去看看自己星座的折線圖吧!

留言點贊關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範

Top