動圖形象理解LSTM

由 AI火箭營發表于動作武俠
2023-01-29

簡介細胞狀態的計算輸出門輸出門用來確定下一個隱藏狀態的值，隱藏狀態包含了先前輸入的資訊

lstm遺忘門起什麼作用

LSTM ——是一種特殊 RNN 型別，可以學習長期依賴資訊。LSTM 由Hochreiter & Schmidhuber （1997）提出，並在近期被Alex Graves進行了改良和推廣。在很多應用問題，LSTM 都取得相當巨大的成功，並得到了廣泛的使用。

然而LSTM結構複雜，初學者難於理解，本文透過動圖形象直觀的理解LSTM。

短時記憶

RNN 會受到短時記憶的影響。如果一條序列足夠長，那它們將很難將資訊從較早的時間步傳送到後面的時間步。因此，如果你正在嘗試處理一段文字進行預測，RNN 可能從一開始就會遺漏重要資訊。

在反向傳播期間，RNN 會面臨梯度消失的問題。梯度是用於更新神經網路的權重值，消失的梯度問題是當梯度隨著時間的推移傳播時梯度下降，如果梯度值變得非常小，就不會繼續學習。

梯度更新規則

因此，在遞迴神經網路中，獲得小梯度更新的層會停止學習—— 那些通常是較早的層。由於這些層不學習，RNN 可以忘記它在較長序列中看到的內容，因此具有短時記憶。

作為解決方案的 LSTM 和 GRU

LSTM 和 GRU 是解決短時記憶問題的解決方案，它們具有稱為“門”的內部機制，可以調節資訊流。

這些“門”可以知道序列中哪些重要的資料是需要保留，而哪些是要刪除的。隨後，它可以沿著長鏈序列傳遞相關資訊以進行預測，幾乎所有基於遞迴神經網路的技術成果都是透過這兩個網路實現的。

LSTM 和 GRU 可以在語音識別、語音合成和文字生成中找到，你甚至可以用它們為影片生成字幕。對 LSTM 和 GRU 擅長處理長序列的原因，到這篇文章結束時你應該會有充分了解。

下面我將透過直觀解釋和插圖進行闡述，並避免儘可能多的數學運算。

本質

讓我們從一個有趣的小實驗開始吧。當你想在網上購買生活用品時，一般都會檢視一下此前已購買該商品使用者的評價。

當你瀏覽評論時，你的大腦下意識地只會記住重要的關鍵詞，比如“amazing”和“awsome”這樣的詞彙，而不太會關心“this”、“give”、“all”、“should”等字樣。如果朋友第二天問你使用者評價都說了什麼，那你可能不會一字不漏地記住它，而是會說出但大腦裡記得的主要觀點，比如“下次肯定還會來買”，那其他一些無關緊要的內容自然會從記憶中逐漸消失。

而這基本上就像是 LSTM 或 GRU 所做的那樣，它們可以學習只保留相關資訊來進行預測，並忘記不相關的資料。

RNN 述評

為了瞭解 LSTM 或 GRU 如何實現這一點，讓我們回顧一下遞迴神經網路。 RNN 的工作原理如下；第一個詞被轉換成了機器可讀的向量，然後 RNN 逐個處理向量序列。

逐一處理向量序列

處理時，RNN 將先前隱藏狀態傳遞給序列的下一步。而隱藏狀態充當了神經網路記憶，它包含相關網路之前所見過的資料的資訊。

將隱藏狀態傳遞給下一個時間步

讓我們看看 RNN 的一個細胞，瞭解一下它如何計算隱藏狀態。首先，將輸入和先前隱藏狀態組合成向量，該向量包含當前輸入和先前輸入的資訊。向量經過啟用函式 tanh之後，輸出的是新的隱藏狀態或網路記憶。

啟用函式 Tanh

啟用函式 Tanh 用於幫助調節流經網路的值。 tanh 函式將數值始終限制在 -1 和 1 之間。

當向量流經神經網路時，由於有各種數學運算的緣故，它經歷了許多變換。因此想象讓一個值繼續乘以 3，你可以想到一些值是如何變成天文數字的，這讓其他值看起來微不足道。

沒有 tanh 函式的向量轉換

tanh 函式確保值保持在 -1~1 之間，從而調節了神經網路的輸出。你可以看到上面的相同值是如何保持在 tanh 函式所允許的邊界之間的。

有 tanh 函式的向量轉換

這是一個 RNN。它內部的操作很少，但在適當的情形下（如短序列）運作的很好。 RNN 使用的計算資源比它的演化變體 LSTM 和 GRU 要少得多。

LSTM

LSTM 的控制流程與 RNN 相似，它們都是在前向傳播的過程中處理流經細胞的資料，不同之處在於 LSTM 中細胞的結構和運算有所變化。

LSTM 的細胞結構和運算

這一系列運算操作使得 LSTM具有能選擇儲存資訊或遺忘資訊的功能。咋一看這些運算操作時可能有點複雜，但沒關係下面將帶你一步步瞭解這些運算操作。

核心概念

LSTM 的核心概念在於細胞狀態以及“門”結構。細胞狀態相當於資訊傳輸的路徑，讓資訊能在序列連中傳遞下去。你可以將其看作網路的“記憶”。理論上講，細胞狀態能夠將序列處理過程中的相關資訊一直傳遞下去。

因此，即使是較早時間步長的資訊也能攜帶到較後時間步長的細胞中來，這克服了短時記憶的影響。資訊的新增和移除我們透過“門”結構來實現，“門”結構在訓練過程中會去學習該儲存或遺忘哪些資訊。

Sigmoid

門結構中包含著 sigmoid 啟用函式。Sigmoid 啟用函式與 tanh 函式類似，不同之處在於 sigmoid 是把值壓縮到 0~1 之間而不是 -1~1 之間。這樣的設定有助於更新或忘記資訊，因為任何數乘以 0 都得 0，這部分資訊就會剔除掉。同樣的，任何數乘以 1 都得到它本身，這部分資訊就會完美地儲存下來。這樣網路就能瞭解哪些資料是需要遺忘，哪些資料是需要儲存。