生物醫學大資料急需超算助力摸索規律，精確輔助疾病診斷治療

由澎湃新聞客戶端發表于網路遊戲
2022-06-15

簡介”張春明表示，未來，以基因測序為代表的資料生產一定會迎來免費的時代，資料探勘成為最終的價值出口，立足生物醫學的科研和產業需求，我們構建了“生命資訊引擎”，該引擎歸根到底就是面向生命醫學資料的計算機系統，遮蔽了海量資料的管理、理解和計算等方面

循證治療真能把疾病解決嗎

保爾·拉法格在《憶馬克思》中談到，馬克思認為：“一種科學只有在成功地運用數學時，才算達到了真正完善的地步。”

2019年對於吳雙（化名）而言是最難熬的一年。年初，本以為是一場普通感冒引起的咳嗽，卻未曾想到在3個月後被診斷為中央型肺腺癌第四期，縱隔淋巴轉移，伴遠端腎上腺轉移。

“拿到診斷報告的那一刻，我沒有掉一滴眼淚。”說這句話的時候，吳雙轉頭看向窗外，故意將視線避開了記者的目光，但眼角卻滲出晶瑩的淚水。

吳雙，41歲，是一位都市職業女性。患病後，她和家人跑遍了北京多家知名的三甲醫院，嘗試過靶向藥物、化療、中藥等辦法，但病情都沒有得到緩解。“我還特地花了一萬多塊錢做了腫瘤基因檢測，很遺憾，報告顯示是沒有可用藥的基因突變。”

沒有相應的“可用藥”，又不能透過手術和放療進行積極干預，這在臨床上只能“盲”用藥，即嘗試使用臨床上常用的一些藥物進行治療，再定期評估治療效果。但通常盲用藥物治療的效果只能“聽天由命”，而在醫院，像吳雙這樣的患者大有人在。

“即便能檢測到相應的基因突變，靶向藥物對不同患者的療效也並不相同。”中國工程院院士、中國醫學科學院腫瘤醫院主任醫師孫燕表示，腫瘤的發生是多基因聯合“發力”的結果，雖然透過基因檢測等手段可以得到海量的資料，但現有的認識仍集中在個別基因與治療腫瘤的關係，比如攜帶了致病性突變的BRCA1/2基因與乳腺癌、卵巢癌的關係，突變的EGFR基因與肺癌的關係等。“是否還會有其他基因的參與、每個基因發揮的作用如何，我們不得而知。”

其實，孫燕的這種困惑，也正是目前腫瘤領域最讓人“頭疼”的難題。對此，中國科學院計算技術研究所高效能計算機研究中心主任譚光明在接受《中國科學報》採訪時表示，當前，生物醫學大資料的規模和產生速度遠遠超出了普通規模計算機的處理能力，急需超算助力科學家從多維、立體、融合的資料中摸索出規律，從而更精確地輔助疾病的診斷和治療。

“查字典”式的有限應用

自人類基因組計劃啟動以來，以下一代測序技術（NGS）和質譜技術（MS）為代表的各類組學技術得到了飛速發展，再加上傳統的顯微鏡技術、生化方法、免疫組織化學方法、生理體徵檢測和臨床影像拍攝技術等資料來源的聚集，使海量生物醫學資料呈現指數級增長態勢。

不可否認，即便尚未引入資訊科學的大型工具，這些大資料也賦予了醫生和臨床科研人員更多、更細緻的維度去了解疾病發生髮展過程，大大拓展了醫學研究的深度和廣度。

“比如，目前對一些明確的、單基因突變引起的疾病，基因組測序已經能實現精準診斷，幫助臨床更好地區分不同疾病、施以更恰當治療。”北京大學第三醫院病理科分子病理實驗室武睿博士表示，21—三體綜合徵、新生兒遺傳耳聾基因篩查等都是測序技術在臨床的良好應用。

但是，對於複雜的、多基因改變引起的疾病，我們尚不能有效地解讀患者的生命資料資訊。以癌症患者為例，絕大多數突變都具有“個體特異性”，除了個別基因（例如EGFR等），同一個基因在不同患者中能找到相同突變的可能性微乎其微。不過，若從資料呈現的網路調控模型來看，特定訊號通路上的關鍵節點基因儘管發生了不同突變，但驅動的下游細胞內事件可能是相同的。

現在生物醫學專家習慣性地將基因組資料與已有的知識體系進行“查對”（俗稱“查字典”）。“雖然這種方式在一定程度上解決了相應問題，但人體的複雜程度絕對是超乎想象的，真的有一本‘字典’可查嗎？”哲源科技（中國科學院計算技術研究所孵化的一家構建生命資料解析平臺的人工智慧企業）營運長趙宇表示。

“這就需要我們有將生物學、醫學相關學科的知識轉化為數學模型的能力。”中國科學院計算技術研究所副研究員、中國科學院計算技術研究所西部高等技術研究院常務副院長張春明表示，應充分利用現有的生物醫學資料，引入系統科學理論和視角，透過設計新的演算法挖掘資料之間的關係，為解決現有的問題尋找新的路徑。最終，以生物醫學大資料推動生物醫學研究由原來的假設驅動向資料驅動的方式轉變。

演算法與算力助力大資料應用

但長期以來，醫生們受循證醫學訓練，更為強調“可靠”的知識。他們善於採集大樣本的臨床資料，並將基礎理論的研究與臨床經驗相結合，最後把臨床資料總結成臨床診療指南與路徑。

在精準醫療時代，清華大學人工智慧研究院教授楊斌認為，應該在循證醫學的基礎上，更強調患者個體的個性化診療，透過對患者的資料分析並結合臨床經驗，給出最佳治療方式。

“傳統循證醫學以群體證據作為核心依據，往往無法解釋個體差異。而精準醫學從基因、環境等個體因素考慮疾病在個體的發生發展過程和治療應答，與僅考慮患者共性的傳統循證醫學相比，能更好地詮釋個體差異，更好地提供個體化的藥物治療方案，更安全、更有效、更合理地配置醫療資源。”中國工程院院士、中國醫學科學院北京協和醫學院院校長王辰說。

此外，中國工程院院士樊代明也指出，傳統的生物醫學資料分析思維和方法難以適應大資料分析的需求。生物醫學大資料實現了以患者為維度的多源資料的整合，需要分析的資料如此之多，因此不再只依賴分析少量隨機抽樣的資料，也不再熱衷於探求資料之間難以捉摸的“因果關係”，而是更多關注資料的“相關關係”。與傳統隨機對照研究常用差異性統計分析方法不同，生物醫學大資料更多采用資料模型以及控制混雜的統計分析方法。

那麼，即便有了高質量的生物醫學大資料，有了相應的演算法，就一定能摸索出疾病的發生發展規律麼？

譚光明給出的答案是否定的。他表示，光有資料和演算法還遠遠不夠，必須要有強有力的算力支援。他舉例道，過去單一零散的資料，只需要在普通伺服器上用簡單程式處理和統計就可以；現在是多維海量的大資料，為了解決複雜生物醫學問題，要用多維海量的PB級（1PB=106GB）大資料對生命進行建模，那就要設計複雜的演算法，而演算法的複雜度和計算量遠遠超過了普通伺服器所能處理的規模，急需高效能的算力資源支撐。

計算醫學扛起資料分析的“大旗”

“基於此，面向人類健康大資料，我們不能簡單地將其理解為需要大規模儲存和處理的資料。大資料的概念有別於統計抽樣，它不是根據小規模抽樣調查來推測被觀察物件的全貌，而是試圖用對該物件的所有測量資料來刻畫物件。因此，大資料泛指能全面刻畫客觀物件所有資料的集合。”中國科學院計算技術研究所—哲源圖靈達爾文實驗室主任牛鋼表示。隨著資料量呈指數增長，資料更新速度不斷加快，精準醫學若想早日落地，急需計算機驅動的臨床決策支援系統。

這在譚光明看來，勢必會產生一門新型交叉學科——計算醫學。“它致力於發展定量方法，透過應用數學、工程學和計算科學來智慧化理解人類疾病的機理，並基於工業化的資料、演算法、算力及生物醫學技術體系為醫學服務提供新洞見。”

對此，譚光明從四個維度闡釋了計算醫學的內涵。首先，計算醫學以複雜性系統科學的整體論作為思維方式，去理解生物分子、細胞、組織器官、種群等多個生物層級結構之間相互作用中“湧現”出的新屬性，從系統的角度去捕捉疾病發生的機理；其次，計算醫學採用密集資料驅動的科學正規化，挖掘隱藏於高維、高通量、多維融合的生物醫學大資料中的新洞見；再次，計算醫學將生物醫學領域的知識模型轉換為數學模型，以生物醫學大資料作為輸入引數，以人工智慧演算法對模型進行迭代、訓練，輸出逼近於真實的生命系統結構與功能特徵，從而理解疾病發生的本質；最後，計算醫學以高效能計算為新一代計算基礎設施，為新科學發現提供資料儲存、計算精度和計算速度上的支撐。

“循證和計算都是實現精準的技術手段，計算醫學在更高維度上實現了循證。”張春明表示，未來，以基因測序為代表的資料生產一定會迎來免費的時代，資料探勘成為最終的價值出口，立足生物醫學的科研和產業需求，我們構建了“生命資訊引擎”，該引擎歸根到底就是面向生命醫學資料的計算機系統，遮蔽了海量資料的管理、理解和計算等方面的技術細節，讓生物醫學專家能夠便捷地利用資訊科技解決行業問題。

文章開頭提到的吳雙，最後藉助“生命資訊引擎”給出的資料分析結果，採用了一種可能的治療方案。目前，經過這一方案治療，她的體內已經沒有影像可見的腫瘤，血液腫瘤指標也回落至正常水平。

最後，張春明呼籲，生物學家、醫學專家和計算科學家攜起手共同豐富計算醫學的內涵，以期將疾病的預防、診斷和治療推向精準。

譚光明（左）與張春明正在分析資料。

（原標題：計算醫學：跑在超算上的醫學）

（本文來自澎湃新聞，更多原創資訊請下載“澎湃新聞”APP）

上一篇：童趣佈置有講究：讓寶寶擁有一個小書架

下一篇：適合生日發朋友圈的句子，精緻美好，一見傾心

您現在的位置是：首頁 > 網路遊戲首頁 網路遊戲

生物醫學大資料急需超算助力摸索規律，精確輔助疾病診斷治療

相關文章