您現在的位置是:首頁 > 手機遊戲首頁手機遊戲

Nat. Mach. Intell.|Reusability report: 利用條件迴圈神經網路設計有機光電分子

簡介Rafael Gómez-Bombarelli及其同事將該方法複製到一個不相關的化學空間上,透過設計訓練資料之外屬性的有機光電子分子(OPMs),生成具有接近目標值的連續屬性的有機光電分子

怎麼計算分子homo和lumo

編·譯作者 | 王建民

今天給大家介紹美國麻省理工學院材料科學與工程系的Somesh Mohapatra, Tzuhsiung Yang & Rafael Gómez-Bombarelli在

Nature Machine Intelligence

上發表的一篇論文“Reusability report: Designing organic photoelectronic molecules with descriptor conditional recurrent neural networks”。該研究主要基於Esben Jannik Bjerrum及其同事在2020年5月18日發表在

Nature Machine Intelligence

上的一篇論文” Direct steering of de novo molecular generation with descriptor conditional recurrent neural networks”,Bjerrum及其同事提出了一個基於條件遞迴神經網路(cRNNs)的生成框架,用於藥物設計的背景下生成特定性質的分子。Rafael Gómez-Bombarelli及其同事將該方法複製到一個不相關的化學空間上,透過設計訓練資料之外屬性的有機光電子分子(OPMs),生成具有接近目標值的連續屬性的有機光電分子。

Nat. Mach. Intell.|Reusability report: 利用條件迴圈神經網路設計有機光電分子

主要構想

Nat。 Mach。 Intell。 | 利用條件迴圈神經網路生成特定性質分子

Kotsias, P。, Arús-Pous, J。, Chen, H。 et al。 Direct steering of de novo molecular generation with descriptor conditional recurrent neural networks。 Nat Mach Intell 2, 254–265 (2020)。

https://doi。org/10。1038/s42256-020-0174-5

深度生成模型可以在未標記的化學資料上進行訓練以設計新的分子,但利用這種模型的創造力來尋找最佳分子是一個挑戰。Bjerrum及其同事提出了一個基於條件遞迴神經網路(cRNNs)的生成框架,在藥物設計的背景下基於分子SMILES表示的條件迴圈神經網路,輸入目標性質,模型可直接生成具有對應性質的分子。這裡,Rafael Gómez-Bombarelli及其同事將該方法複製到一個不相關的化學空間上,透過設計訓練資料之外屬性的有機光電分子(OPMs)。原始工作中的主要應用是分類任務:識別活性分子,而這裡的任務是提出具有接近目標值的連續屬性的有機光電分子。

cRNN生成框架可以以結構指紋或屬性等為條件對新分子進行取樣。簡而言之,該模型透過使用其屬性設定RNN的初始狀態來訓練重現分子。推理時,所需的分子屬性或分子指紋作為輸入給cRNN,並引導分子的隨機生成。因此,該方法旨在透過更強的監督來約束早期RNN方法的廣度。取樣給定分子的負對數似然(NLL)的估計允許以新的方式審視模型。分子屬性模型被訓練在用廉價的模擬標記的資料上。然後應用遷移學習使模型適應使用較小的標記資料集生成結合特定靶標蛋白的分子的特定任務。由於該方法在基於SMILES分子表示上操作,它需要資料增強以避免原子索引和非規範的SMILES產生的陷阱。

利用cRNNs生成OPMs

OPMs的應用多種多樣,設計最佳的OPMs對於電晶體、顯示器和太陽能電池等技術是非常理想的。雖然不像小分子藥物那樣具有化學多樣性,但潛在的OPMs的空間是巨大的。OPMs通常含有共軛雜環,尺寸為幾十個重原子,因此它們跨越了一個非常獨特的設計空間。OPMs的關鍵屬性是它們的電子和光學特性,這些特性可以量化為它們的電子填充的最高佔位分子軌道(HOMO)和最低未佔位分子軌道(LUMO)的能量,這分別與它們傳輸空穴和電子的能力有關,以及透過吸收光(opticalgap)將一個電子從佔位軌道提升到未佔位軌道所需的能量。這些能級可以透過密度函數理論(DFT)以合理的精度進行模擬,從而獲得屬性標籤來訓練cRNN生成模型。以電子伏特(eV)為單位的OPMs的典型計算值是-10

研究者測試了cRNN模型生成具有期望屬性的OPM的能力。作為訓練資料,研究者利用從文獻、美國專利和組合生成的衍生物中提取的分子化學結構,總共獲得了約172,000個分子,其中14,800個分子透過DFT計算被標記為HOMO、LUMO和opticalgap。

按照原來的工作和程式碼庫,以最小的修改來處理較大的分子以及不同的描述符和學習率的最佳化,研究者使用相互排斥的未標記(157,665)、標記(13,616)和種子(1,129)資料集訓練和驗證了三種不同的模型。基於指紋的模型在未標記的資料(FPB)上進行了訓練。從使用標記資料集的FPB權重開始訓練一個順序遷移學(TL)模型。基於描述符的(PCB)模型進行了訓練,以HOMO,LUMO和opticalgap標籤作為描述符輸入。FPB模型在未標記的資料集上進行訓練,排除了存在於標記資料集中的所有分子;TL和PCB模型在標記的資料集上進行訓練,具有所需屬性的分子被排除在外。FPB的驗證損失是三者中最好的,表明在生成任務的效能受到13,600的較低資料大小的影響。

Nat. Mach. Intell.|Reusability report: 利用條件迴圈神經網路設計有機光電分子

將cRNN模型與經典基準進行基準測試

研究者用一個更簡單的基於圖的遺傳演算法(GB-GA)對cRNN模型進行了基準測試,該方法最近在分子最佳化中表現出非常好的效能。GB-GA模型與cRNN模型相比,在尋找具有所需屬性的分子方面表現稍差。這兩種方法都產生了相當一部分不現實的分子。在cRNN模型的情況下,這些通常是由於SMILES的字元化解碼的錯誤。原則上,這樣的錯誤可以透過更好地嵌入化學空間,用更多的訓練資料和更強大的模型來解決。GB-GA方法依賴於手選規則,在沒有意識到化學背景的情況下應用這些規則,容易導致不相容的化學基團和不合理的功能化。這隻能用額外的關於化學可行性的硬編碼規則來解決。然而,這些規則是缺乏的,這也是開發分子生成模型的主要動力之一。

Nat. Mach. Intell.|Reusability report: 利用條件迴圈神經網路設計有機光電分子

討論

原始工作中cRNN方法被發現普遍適用於OPMs的設計,並與原始工作有很好的一致性,儘管大多數OPMs比典型的小分子藥物大得多,這使得有效的SMILES的生成和重建任務變得更加困難。此外,有機光電子特性是全域性性和非附加性的,不像用於訓練藥物類分子的監督生成模型的化學資訊學描述符。最後,在OPMs中,標記資料集的大小通常較低,因為產生HOMO、LUMO和opticalgap的DFT計算比大多數分子最佳化生成模型中使用的生成類藥分子描述符的化學資訊學方法要昂貴得多。小分子藥物中,高通量和組合實驗產生參考資料集也比有機光電子學更常見。

這項工作與原始工作不一致的地方,研究者發現數據的可用性是一個關鍵的驅動因素。FPB模型在生成具有所需效能的分子方面優於其他兩個模型,透過在本質上新增化學噪聲來種子具有良好效能的分子,並利用其重建精度。然而,FPB模型在發明具有從未見過效能的分子的能力上是有限的,因為取樣方法需要已經具有接近期望效能的種子分子的指紋。FPB的效能明顯優於TL,而在原始工作中並非如此,這是由於較小尺寸的標記資料集,導致災難性的遺忘。雖然半監督方法可以解決這個問題,但它們不適用於這種情況,因為一個數據集是另一個數據集的切除。因為兩者都屬於同一化學空間的歧義,所以半監督技術將是不現實的有利條件。這種效能上的急劇損失表明,如果遷移到大小約104或更小的標記訓練資料集,需要對順序TL策略進行一些進一步的調整。不需要種子分子,PCB策略能夠推斷出具有所需屬性的分子,儘管它們在訓練資料中不存在,因此學會了結構-屬性關係。雖然它比FPB模型遭受了更強烈的模式崩潰和更低的有效性和重建,但它明顯優於TL模型。

總之,所有的模型都產生了具有期望屬性的多樣化OPM,並有效地擺脫了訓練資料的屬性分佈。關鍵的限制因素是資料的可用性,TL和PCB模型都證明了這一點。

未來方向

研究者確定了兩條感興趣的途徑,以進一步發展cRNN方法用於分子設計。一個是更有效的TL策略,如凍結某些權重,特別是考慮到標記的分子資料的稀缺性來訓練描述符模型。另一個途徑是避免生成基於文字的分子表徵,它不是換元不變的,並且依賴於複雜的語法。使用其他字串表示法、語法或基於語法的方法可能會提高低資料下的有效性和新穎性。同樣,對於大分子來說,堆疊增強的記憶單元、巢狀結構或變換器模型可能更好地捕捉SMILES語法中的長程關係。

資料

https://github。com/learningmatter-mit/Deep-Drug-Coder

程式碼

https://github。com/learningmatter-mit/Deep-Drug-Coder

參考資料

Mohapatra, S。, Yang, T。 & Gómez-Bombarelli, R。 Reusability report: Designing organic photoelectronic molecules with descriptor conditional recurrent neural networks。 Nat Mach Intell 2, 749–752 (2020)。

https://doi。org/10。1038/s42256-020-00268-w

Top