【文匯網訊】(香港文匯網記者 李陽波 西安報道)重構人類基因進化歷史,對於研究並預防遺傳疾病具有重要意義。日前記者獲悉,哈佛大學來自中國的留學生李揚首創了CLIME統計算法,依託大數據時代巨大的公共基因組數據,通過分析不同物種的DNA序列之間的關係,快速準確重構了2萬人的基因進化歷史,為推動生物醫學研究發展做出巨大貢獻。
重構人類基因進化歷史
據了解,統計學是應用數學的一個分支,他通過概率模型來對數據進行分析,進而從數據中提取有用的信息。統計學在生物、經濟、金融、社會學方面發揮很大的作用,大約100年前,英國的Fisher , Pearson, Galton等人發明出了一整套統計分析的理論框架,他們開始將統計學真正應用於分析遺傳學、生物學和農業科學等學科中。
據悉,人類基因組中大概有2萬個基因,然而目前科學界只對其中不到50%的基因有所了解,另外50%的基因並不清楚他們在人體中起到什麼作用。但就是這些未知基因的功能,卻左右着人類的遺傳疾病。
李揚2011年赴美留學後,師從華人著名統計學家劉軍教授,2016獲哈佛大學統計學博士學位。他在統計學中主要的研究方向是通過統計建模,利用大規模的基因組學數據預測人類基因的功能,從而推動生物醫學的研究。他告訴記者,根據達爾文的進化論,不同的高級物種可能是從少數的幾個低級物種進化而來,通過分析不同物種的DNA序列之間的關係,就可以重構每個人類基因的進化歷史。在大數據時代,巨大的公共基因組數據量給研究者提供了一個良好的契機,CLIME算法正是基於這種思想,並基於嚴格的數學統計模型而發明的。
據李揚介紹,CLIME的統計模型是根據統計學中著名的隱馬爾科夫模型(Hidden Markov Model)對人類基因在進化過程中的產生和消失進行數學建模。通過這個模型,CLIME分析出每個人類基因的進化歷史,同時進一步使用貝葉斯混合模型 (Bayesian mixture model),並使用馬爾科夫鏈採樣算法(Markov chain Monte Carlo)把進化模型相似的基因進行聚類。因為DNA測序數據量巨大,統計分析算法往往需要很長的計算時間。李揚在CLIME中提出了一個動態規劃(Dynamic Programming)算法,使CLIME可以在短時間內高效完成計算。
而在實際應用中,CLIME算法使用了138個物種(包含動物、植物、單核生物等)的基因序列數據,重構了2萬個人類基因的進化歷史,把進化歷史相似的基因進行聚類。目前,哈佛大學已經建立了CLIME 算法分析網站www.gene-clime.org,該網站在全球範圍內被研究者廣泛使用,已經為全球714個實驗室提供了6,000餘次在線分析,在線提供的人類基因組進化模型的分析結果已經被下載超過51萬餘次。其中,10餘家實驗室通過使用CLIME算法應用得到了新的科學成果。
成國際基因研究通用工具
芬蘭科學院院士、赫爾辛基大學Anu Wartiovaara教授近期在Cell Metabolism上發表論文,詳細研究了細胞代謝中幾個重要基因的作用。在此文中,Wartiovaara教授實驗室的研究人員使用了CLIME算法,對幾個重要的細胞代謝基因進行分析,並得出了幾個基因之間相關性的分析。Wartiovaara教授提到:「CLIME算法是李揚對學術界的一個重要貢獻,CLIME算法的在線分析網站不僅僅我的研究小組的研究人員經常使用,同時也是被國際上很多研究人員經常使用的工具」。
目前,李楊的的論文刊登在世界著名學術刊物如Cell, PLoS Computational Biology, Journal of the American Statistical Association, Nature Methods, Proceeding of National Academy of Science等。對於未來的研究方向,李揚表示,隨着科技發展,各個領域各個行業的數據量都在迅猛增長,每天會出現不同來源、不同形式、包含不同信息的數據。而通過數據來發掘有用的信息,幫助人類社會發展是當今社會的一個重要問題。因此,自己下一步將重點研究在高緯度下,如何從眾多的變量中選擇出最有預測能力的變量。
責任編輯:喬一