中國留美博士利用統計學整合人類基因組大數據為全球逾700實驗室提供在線分析

2019-07-11

【文匯網訊】（香港文匯網記者李陽波西安報道）重構人類基因進化歷史，對於研究並預防遺傳疾病具有重要意義。日前記者獲悉，哈佛大學來自中國的留學生李揚首創了CLIME統計算法，依託大數據時代巨大的公共基因組數據，通過分析不同物種的DNA序列之間的關係，快速準確重構了2萬人的基因進化歷史，為推動生物醫學研究發展做出巨大貢獻。

中國留美博士李揚。（受訪者供圖）

重構人類基因進化歷史

據了解，統計學是應用數學的一個分支，他通過概率模型來對數據進行分析，進而從數據中提取有用的信息。統計學在生物、經濟、金融、社會學方面發揮很大的作用，大約100年前，英國的Fisher , Pearson, Galton等人發明出了一整套統計分析的理論框架，他們開始將統計學真正應用於分析遺傳學、生物學和農業科學等學科中。

據悉，人類基因組中大概有2萬個基因，然而目前科學界只對其中不到50%的基因有所了解，另外50%的基因並不清楚他們在人體中起到什麼作用。但就是這些未知基因的功能，卻左右着人類的遺傳疾病。

李揚2011年赴美留學後，師從華人著名統計學家劉軍教授，2016獲哈佛大學統計學博士學位。他在統計學中主要的研究方向是通過統計建模，利用大規模的基因組學數據預測人類基因的功能，從而推動生物醫學的研究。他告訴記者，根據達爾文的進化論，不同的高級物種可能是從少數的幾個低級物種進化而來，通過分析不同物種的DNA序列之間的關係，就可以重構每個人類基因的進化歷史。在大數據時代，巨大的公共基因組數據量給研究者提供了一個良好的契機，CLIME算法正是基於這種思想，並基於嚴格的數學統計模型而發明的。

據李揚介紹，CLIME的統計模型是根據統計學中著名的隱馬爾科夫模型(Hidden Markov Model)對人類基因在進化過程中的產生和消失進行數學建模。通過這個模型，CLIME分析出每個人類基因的進化歷史，同時進一步使用貝葉斯混合模型 (Bayesian mixture model)，並使用馬爾科夫鏈採樣算法(Markov chain Monte Carlo)把進化模型相似的基因進行聚類。因為DNA測序數據量巨大，統計分析算法往往需要很長的計算時間。李揚在CLIME中提出了一個動態規劃（Dynamic Programming）算法，使CLIME可以在短時間內高效完成計算。

而在實際應用中，CLIME算法使用了138個物種（包含動物、植物、單核生物等）的基因序列數據，重構了2萬個人類基因的進化歷史，把進化歷史相似的基因進行聚類。目前，哈佛大學已經建立了CLIME 算法分析網站www.gene-clime.org，該網站在全球範圍內被研究者廣泛使用，已經為全球714個實驗室提供了6,000餘次在線分析，在線提供的人類基因組進化模型的分析結果已經被下載超過51萬餘次。其中，10餘家實驗室通過使用CLIME算法應用得到了新的科學成果。

成國際基因研究通用工具

芬蘭科學院院士、赫爾辛基大學Anu Wartiovaara教授近期在Cell Metabolism上發表論文，詳細研究了細胞代謝中幾個重要基因的作用。在此文中，Wartiovaara教授實驗室的研究人員使用了CLIME算法，對幾個重要的細胞代謝基因進行分析，並得出了幾個基因之間相關性的分析。Wartiovaara教授提到：「CLIME算法是李揚對學術界的一個重要貢獻，CLIME算法的在線分析網站不僅僅我的研究小組的研究人員經常使用，同時也是被國際上很多研究人員經常使用的工具」。

目前，李楊的的論文刊登在世界著名學術刊物如Cell, PLoS Computational Biology, Journal of the American Statistical Association, Nature Methods, Proceeding of National Academy of Science等。對於未來的研究方向，李揚表示，隨着科技發展，各個領域各個行業的數據量都在迅猛增長，每天會出現不同來源、不同形式、包含不同信息的數據。而通過數據來發掘有用的信息，幫助人類社會發展是當今社會的一個重要問題。因此，自己下一步將重點研究在高緯度下，如何從眾多的變量中選擇出最有預測能力的變量。

責任編輯：喬一

中國留美博士利用統計學整合人類基因組大數據 為全球逾700實驗室提供在線分析

中國留美博士利用統計學整合人類基因組大數據為全球逾700實驗室提供在線分析