中央研究院 — R軟體成統計分析市場主流

Last updated 7 months ago

中央研究院 — R軟體成統計分析市場主流

中央研究院統計科學研究所副研究員楊欣洲以及研究團隊

中研院統計所楊欣洲博士實驗室長期投入致病基因定位工作,運用R軟體協助找出與疾病發生有關的染色體變異位置。使用開源軟體最主要目的是透過開源「不收取授權費用、授權不分地區與對象」的特性,將實驗室透過開源軟體所開發的程式與分析平台,廣散給更多從事基因體醫學、生物資訊與統計科學的人員和國家使用,讓知識更快傳播出去,並能在國際間迅速交流與產生迴響。

滿足致命基因定位需求

人類基因體定序完成與生物科技的快速發展帶動全球投入發展精準治療的風氣,許多原本難以治癒的疾病,在各方研究團隊與國際藥廠通力合作下,已找到頗具療效的治療方式,為人類創造出更健康美好的生活遠景。中研院統計所楊欣洲博士實驗室在國家政策協助下,長期投入致病基因定位的研究工作,近期更積極投入整合多類體學資料的致病基因定位,期望藉此找到更多疾病與基因之間的關聯,而開源軟體R語言則在研究專案成功上扮演了關鍵性的角色。

中央研究院統計科學研究所副研究員楊欣洲說,致病基因定位是項非常龐雜的工作,要在巨量資料中快速進行比對,這需要功能強悍的統計軟體與程式語言協助。而使用人數眾多的R語言發展快速,作業系統兼容性高,且功能比商用軟體更為豐富,藉由平行運算使資料處理速度更快,有助於加速專案研究進度,加上無需支付任何授權費用,是許多實驗室團隊的首選,也是我們進行致命基因定位不可或缺的重要工具。

投入致命基因定位多年

統計所研發成效卓越直接隸屬於總統府的中央研究院,是台灣最高學術研究機構。統計科學研究所專注在統計科學基礎與應用研究,研究領域涵蓋各方面的理論與應用統計,例如機率論及其應用、數理統計與推論、生物醫學統計、生物資訊與統計遺傳學等領域。以楊欣洲博士實驗室為例,過去在中研院統計所、中研院前瞻計畫、科技部研究計畫與國家型基因體醫學研究計畫支持下,致力於發展創新統計和生物資訊方法與工具以分析大量人類基因體資料,並與國內外生物學家與研究團隊密切合作,定位複雜性疾病的易感基因,獲得相當不錯的成果。

人類許多遺傳性疾病的發生導因於染色體上的某些特定區域或是基因發生變異,如跳舞症是由於人類第四號染色體短臂末端序列片段發生重複所造成。若要想戰勝疾病,第一步就是要先找出這些染色體發生變異的位置,然後研究該變異與致病機轉間的關係,最後開發診療技術與藥物,達到改善國民健康的目的。而找出與疾病發生有關染色體變異位置的工作,就稱為致病基因定位。

楊欣洲指出,致病基因定位有兩種常用的定位方法,第一種稱連鎖分析法,是透過觀察細胞減數分裂過程中,某些染色分體發生交換後重新組合的現象,分析結果可提供致病基因大致的方位。第二種為關聯分析法,透過觀察連鎖不平衡現象來定位致病基因,分析結果可以提供致病基因更明確的位點。隨著高端定序科技的快速發展,產出大量的基因標誌,將這些分子標記應用在關聯分析中,讓致病基因定位的結果又更加正確。而在現今統計科學和生物醫學領域中,多數實驗室都採取開源軟體R語言,主要是看中程式碼公開、分享不受約束、免費的特性,所以我們實驗室一開始就是使用R語言作為開發工具,抱持技術資源共享的理念。

目前也兼任統計科學研究所資訊室主任的楊欣洲進一步說明,因應大數據時代的來臨,統計科學研究所也已投入經費與人力,建置開源架構的Hadoop+Spark集群計算環境和H2O資料分析平台,可進一步支援R語言在處理巨量基因體數據分析時所需的平行化、高效能和可擴充性能力。

擁抱開源精神 促進國際交流

由Ross Ihaka和Robert Gentleman博士合力開發的R語言,廣泛被應用於統計分析、繪圖、資料探勘等領域之中,目前由R基金會負責開發與維護,支援UNIX、FreeBSD、Linux、Windows和MacOS等多種作業平台。R語言內建多種統計與數值分析工具,用戶可以透過安裝套件增加其他功能,如統計模型、演算法技巧、繪圖功能,以及編程介面和資料輸出/輸入功能等等。此外,許多研發團隊也會分享其自行開發的R分析套件,常見應用於分子生物學、經濟計量、財務金融、人文社會科學以及人工智慧等領域。

楊欣洲解釋,人才培育與尖端研究是中研院的重要使命,實驗室為讓同仁或實習學生能夠快速熟悉R語言的撰寫與應用,中研院統計所楊欣洲博士實驗室採取資深同仁帶領新進同仁與學生的做法,透過專案實作方式了解R語言的特性,團隊合作以開發分析系統,近年來已成功開發出多套先進的分析工具,並獲美國和日本等國際研究團隊邀請加入合作研究與開發新分析平台。

過去談到統計分析軟體,在多數人刻板印象中,第一個印象莫過於SAS和SPSS等商用套裝軟體。只是前述商用軟體的售價向來昂貴,且若要將自行研發出來的分析程式分享給他人,其他團隊也需要安裝相同軟體才行,反而成為成果分享上的最大障礙。我們使用開源軟體的最大原因是希望所開發出的統計與生物資訊分析軟體能夠提供世界各國的研究團隊廣泛使用,對於某些商用軟體取得不易的國家或地區,例如非洲等國家,更能因此受惠,不僅使創新技術可在國際間通暢地交流,更能將統計科學持續發揚。

本文同步刊登於:https://www.ithome.com.tw/pr/116857