QLUCORE資料分析平台

查看PDF


QOE:新型生物資訊資料採擷工具


摘要:隨著生物晶片技術的發展,生物資訊資料呈指數增長。如何有效地分析挖 掘資料成為生物醫藥目前急需解決的問題。Qlucore Omics Explorer(QOE)是一款 新的生物資訊分析軟體,可用于快速分析基因表達、基因晶片、即時 PCR 以及 DNA 甲基化等多種生物學資料。本文對 Qlucore Omics Explorer (QOE)的基本功 能和特點做了介紹,包括軟體背景,資料登錄輸出類型,軟體介面,軟體應用等, 最後分析了 QOE 的應用前景。


冀開元、馬文麗、鄭文嶺 廣東省廣州市南方醫科大學基因工程研究所 510515

1. QOE 背景

基因晶片自問世以來,以其強大的力量迅速席捲生物和醫學領域[1]。基因 晶片使得研究者可以從全基因組水準對基因表達譜、藥物代謝、疾病發生發展過 程進行快速的定量分析[2]。隨著現代分子生物學的發展,以及人類基因組計畫 的完成,生命科學的研究已經進入後基因組時代。近年來晶片技術的革新和優化, 使現在晶片資料急劇增長,晶片品質大幅度提高。生物學家面對的不再是零散的、 少量的、簡單的資料,而是公共資料庫中數以萬兆計的、各種各樣的複雜生物數 據,GEO(Gene Expression Omnibus)公共資料庫中資料集的資料也在逐年增長[3] (圖 1)。各個研究所和實驗室產生出了大量的實驗資料,但是這些資料的資訊 往往沒有被完全挖掘出來。因此,如何有效分析這些生物資料成為當前的生物學 瓶頸,這就迫使人們尋求一種有效的方法和工具去管理篩選這些資料,並且對它 們進行統計、聚類和進一步利用。海量的生物學資料中必然蘊含著重要的生物學 規律,這些規律將是解釋生命之謎的關鍵。

圖 1.GEO 資料庫中樣本數量的增長情況


由於生物資訊資料龐大複雜,資料成千上萬,變數也不僅僅是幾百個幾千個, 而是上萬個,並且涉及多個學科的交叉[4]。通常需要研究者精通生物學、電腦軟體學和統計學相關專業,實際上生物學家往往不懂電腦專業知識,而且電腦專業的學者又沒有生物學的思維,即使兩者合作,也會有技術上的代溝。因此,最佳的解決方法是給生物學家一些方便快捷的生物資訊學分析工具,通過簡 化的統計學方法來挖掘生物資訊資料集。

傳統的生物資訊學分析軟體常常不容易學習和掌握,多數生物資訊分析軟體也僅能提供簡單的資料統計資訊並且操作麻煩、分析速度慢,在面對大規模資料集時有心無力。Qlucore Omics Explorer 是瑞典隆德大學的合作研究項目,由數學 和醫學遺傳學系的研究人員研究開發而成,用於處理表達譜晶片產生的大量的高維資料。此軟體把資料經統計計算轉換為 3D 視覺化圖,再經過主成分分析和聚 類降維[5, 6],從多個角度識別出資料中隱藏的結構和模式。QOE 軟體巧妙的程式設計和設計,使得用戶可在普通電腦上交互即時地探索和分析高維資料集。QOE 把大量資料統計和分析功能進行了系統融合,形成了類似視窗流覽器的簡單界 面,使生物資訊資料分析過程更為簡便、直觀和形象,從而滿足了生物學工作者 的生物資訊學分析需求。


2. QOE 功能

QOE 作為一款生物資訊學資料分析軟體,可以快速、直觀地顯示分析後的 資料圖示,同時應用各種生物統計學原理,對資料進行深入和有效地分析。QOE 只需要一個普通的電腦就可以即時處理龐大的資料集(超過 100 萬個條目)。操 作 QOE 不需要對數學或統計有深入的瞭解,也不需要具備一台強大的超級電腦, 只需要一台普通電腦,就能夠輕鬆探索高維資料並迅速得到相關結果。QOE 具 有很強的易用性和快速性,可以直接在電腦螢幕上即時對資料進行視覺化處理。

QOE 能直接引用標準化的 Agilent 公司和 Affymetrix 公司的晶片資料。也可以直接從公共資料庫 GEO 中下載所需資料並導入到軟體中。使用者可以直接導入自己的資料集也可以導入網上下載的其它資料集,其中 GEO 資料庫的資料集 可以直接在 QOE 中輸入相應 GSE 或 GDS 編號來導入,並且選擇性自動載入相應注釋檔。該軟體能同時打開多個資料集,共同來比較分析。QOE 能將資料 進行即時的 2D 和 3D 的視覺化演示,所有的圖都可以完全互動。下圖所示為將 軟體自帶示例資料——急性白血病亞型的資料集[7]導入後的分析介面(圖 2)。 導入的資料集可在工作視窗即時生成視覺化的圖,包括主成分分析(principal component analysis)圖,散點(scatter)圖,線(line)圖,熱(heat)圖,箱(box) 圖等,這個分析過程極大地方便了研究者進一步尋找資料間的規律和關係,並且 所有的圖都會隨著操作即時更新。

圖 2:Acute Lymphoblastic Leukemia data set 的 QOE 分析結果.


資料導入後,QOE 會把資料集的原始值進行mean=0 以及var=1 的標準化處理,並且進一步把每個變數計算出相應的標準誤σ。使用者可以通過統計視窗中的σ/σmax來篩選掉樣本之間差異小的變數,PCA 圖和熱圖會隨著操作即時變化,使用者可以通過圖的變化選擇其它統計學方法進行下一步的分析。

在整個分析過程中,QOE 根據不同目的進行不同的統計方法和措施,及時 計算出相應的 p 值和 q 值,通過點擊滑鼠來改變篩檢程式的參數,從而探索資料篩 選出所需目的基因或者發現新的結構和關係。主要的統計方法有:兩組比較(two group comparison),多組比較(multi group comparion),線性回歸(linear regression ),二次回歸(quadratic regression),秩回歸(rank regression)。 而且還有 fold change 功能去進一步供我們選擇應用。改變過濾變數參數的設置, 有助於研究人員找到不同生物學統計意義條件下的生物學方面資料的改變,從而 有利於展開進一步的實驗研究。

在分析的過程中,內置的 GSEA(Gene Set Enrichment Analysis)和 GO(Gene Ontology)外掛程式,可幫助使用者分析基因功能和通路資訊。可以對重要的變數或 樣本進行著色和標記,而且可以根據自我需求導入或匯出不同的注釋資訊清單, 如 GI、gene symbol、gene ID、gene title 等。產生的圖也可以隨時的匯出,並可 以匯出 PCA 的視頻。操作的進度可以隨時保存,保證了分析的連貫性。QOE 的 官方網站為http://www.qlucore.com/ ,在此網站可以觀看操作視頻以及相關檔, 並且提供針對微軟 window 作業系統 32 位元和 64 位的兩種版本的 QOE,目前的版 本名稱為 Qlucore Omics Explorer 3.0。


3. QOE 支援的檔

QOE 支援直接導入的標準化的檔包括:Affymetrix 公司和 WT 的陣列、安捷倫基因陣列、安捷倫 microRNA 陣列。

對於 Illumina 的資料,建議是通過 GenomeStudio 或 BeadStudio 軟體將資料標準化,然後使用嚮導將資料導入到 Qlucore。其它的晶片儀器產生的資料或來自其它類型的資料,大部分都可以導入到 Qlucore 中。支援的全部格式如下:

4. QOE 的介面

打開QOE,按兩下電腦桌面上的QOE圖示(快捷方式)或者從電腦的Start Menu (開始功能表)中的 Program Menu(程式功能表)打開 QOE。QOE 的 Main Window (主視窗)將出現,如圖 3。

圖 3:QOE 軟體的操作介面。


在螢幕中間,會顯示在 Plot Windows(圖形視窗)的 Work Space(工作空間)。 此外,會發現幾個 dock windows(停靠視窗)。在預設狀態下,Samples(樣本)、 Variables(變數)和 Log(日誌)等三個停靠視窗停靠在主視窗的左側,而 Statistics (統計)和 Getting Started(入門)等兩個視窗則是浮動狀態。可以在 Menu Bar (功能表列)中通過點擊 view(視圖)> Dock Windows(停靠視窗),選擇顯示的 停靠視窗。功能表列下可以找到管理,以及在資料集上執行各種操作功能的不同控 件。還可以找到能幫助您在 QOE 中選擇和管理工作流程的四個不同選項卡 (Tabs):Data(資料),Method(方法),Options(選項)和 View(視圖)。在 Statistics dock window(統計停靠視窗)中,可以根據研究資料集的需要選擇合 適的統計方法。最後,在底部有 Status Bar(狀態列)。在狀態列裡會顯示例如數 據集裡樣本的總數和各種變數,以及此刻能參與分析的有用資訊。


5. QOE 的應用

QOE 既可以用來做實驗前的預測和篩選,以確定實驗方案。也可以做實驗 結果的證明,發現未知功能和關係,更適合利用龐大的資料庫做生物資訊“幹實 驗”。可應用于分析基因表達晶片資料、臨床資料、蛋白晶片資料、抗體資料、 microRNA 晶片資料、蛋白質晶片資料、即時定量 PCR 資料、DNA 甲基化資料 等。只要符合軟體要求,任何資料都可以導入到 QOE 中進行分析。


6. 總結和展望

QOE 既可以用來做實驗前的預測和篩選,以確定實驗方案。也可以做實驗 結果的證明,發現未知功能和關係,更適合利用龐大的資料庫做生物資訊“幹實 驗”。可應用于分析基因表達晶片資料、臨床資料、蛋白晶片資料、抗體資料、 microRNA 晶片資料、蛋白質晶片資料、即時定量 PCR 資料、DNA 甲基化資料 等。只要符合軟體要求,任何資料都可以導入到 QOE 中進行分析。

目前由於生物晶片的研究和發展,大量的生物資訊比如基因晶片的資料產生 出來,而且大量的基因資料也帶來了大量的生物資訊,這些資訊都是些高維資料, 基因資料的維數差異給後續分析帶來了困難[8]。而 QOE 能通過方差過濾和 PCA 技術相結合的方式解決資料的降維問題。把結果通過 PCA 圖的方式呈現出來,經 人腦的高效率的分辨挖掘,從而快速有效地分析出有用的資訊,避免有用資訊被 篩選掉,克服了機械處理資料的弊端。

綜上所述,QOE 是一個強大的互動式分析和視覺化的分析軟體。它可用於 許多不同類型的資料集進行分析。QOE 支援使用者快速、動態地分析和驗證各種 不同的假說,結合統計檢驗提供即時的視覺化結果。QOE 還可以發現資料中隱 藏的結構和大型資料集的隱藏的模型,充分利用各種注釋以及各個環節與資料的 連接,快速輕鬆地匯出許多不同類型的報告和演示文稿中使用的資料、圖像和動 畫,並進行更深一步研究。QOE 可以使生物學家不依賴於電腦和統計專業的 支持,研究自己的資料集。使用者介面的設計是直觀和易於使用的,可以對資料集結構進行隨心所欲的研究,同時提供了內置功能互動和簡單的假設檢驗。QOE 中的主成分分析圖,散點圖,熱圖和資料表也是重要的基本操作,使得高維資料 能夠低維視覺化。QOE 可説明研究者突破電腦方面的瓶頸,充分利用自己的 專業知識完成對資料的挖掘和探索。而且 QOE 還能用於其它高維複雜資料的分 析,有著廣闊的應用範圍。相信在不久的將來,QOE 在生物學、醫學、農學等領 域的應用會取得很大進展。


References:

[1]. Bellazzi, R., et al., Data analysis and data mining: current issues in biomedical informatics. Methods Inf Med, 2011. 50(6): p. 536-44.

[2]. Schulze, A. and J. Downward, Navigating gene expression using microarrays--a technology review. Nat Cell Biol, 2001. 3(8): p. E190-5.

[3]. Barrett, T., et al., NCBI GEO: archive for functional genomics data sets--10 years on. Nucleic Acids Res, 2011. 39(Database issue): p. D1005-10.

[4]. Hasman, A., et al., Biomedical informatics--a confluence of disciplines? Methods Inf Med, 2011. 50(6): p. 508-24.

[5]. Ji, H., et al., Differential principal component analysis of ChIP-seq. Proc Natl Acad Sci U S A, 2013. 110(17): p. 6789-94.

[6]. Yeung, K.Y. and W.L. Ruzzo, Principal component analysis for clustering gene expression data. Bioinformatics, 2001. 17(9): p. 763-74.

[7]. Ross, M.E., et al., Classification of pediatric acute lymphoblastic leukemia by gene expression profiling. Blood, 2003. 102(8): p. 2951-9.

[8]. Alter, O., P.O. Brown and D. Botstein, Singular value decomposition for genome-wide expression data processing and modeling. Proc Natl Acad Sci U S A, 2000. 97(18): p. 10101-6.


冀開元,男,南方醫科大學基因工程研究所在讀碩士研究生,主要從事基因 表達譜資料分析。