單細胞數據降維可視化最新工具UMAP的介紹
瀏覽次數:46727 發布日期:2019-7-19
來源:本站 僅供參考,謝絕轉載,否則責任自負
高通量單細胞組學數據的一個顯著性特點就是數據量大,一次能反映的細胞數量多。因此,通過降維和可視化去展示細胞數據特征是一個非常重要的工作。翻開各類發表的單細胞組學文章,不管是CNS的還是其他,幾乎所有的結果中,映入眼簾的第一張圖片通常是數據結果的降維圖形化展示。
圖1 PBMC細胞單細胞轉錄組數據展示圖
實現高維數據可視化的理論基礎是基于降維算法。降維算法一般分為兩類:那些尋求在數據中保存距離結構的,以及傾向于保存局部距離而不是全局距離的。PCA[1]、MDS[2]等算法屬于前者,t-SNE[3,4]、diffusion maps[5]等算法都屬于后者。
對高維單細胞數據的可視化展示,以t-SNE為代表的非線性降維技術,由于其能夠避免集群表示的過度擁擠,在重疊區域上能表示出不同的集群而被廣泛運用。然而,任何技術方法都不是完美的,t-SNE也一樣,它的局限性體現在丟失大規模信息(集群間關系)、計算時間較慢以及無法有效地表示非常大的數據集[6]等方面。
那么,有沒有其它方法能在一定程度上克服這些弱點呢?
UMAP就是這樣一個能解決這些問題的降維和可視化的工具。
統一流形逼近與投影(UMAP,Uniform Manifold Approximation and Projection)是一種新的降維流形學習技術。UMAP是建立在黎曼幾何和代數拓撲理論框架上的。UMAP是一種非常有效的可視化和可伸縮降維算法。在可視化質量方面,UMAP算法與t-SNE具有競爭優勢,但是它保留了更多全局結構、具有優越的運行性能、更好的可擴展性。此外,UMAP對嵌入維數沒有計算限制,這使得它可以作為機器學習的通用維數約簡技術。
從上述定義可以看到,UMAP對于單細胞這類大數據、高維數據來說,是一個正中下懷的好工具。那么,在真實數據運用中,這種優勢能體現出來嗎?以下我們通過實際數據對比進行展示。
1.小數據集中,t-SNE和UMAP差別不是很大
我們分別以個和個單細胞的轉錄組數據為基礎,分別通過和進行降維可視化展示,得到如下圖:
圖2 200和500個細胞的單細胞轉錄組數據的t-SNE和UMAP降維分群圖
可以看到,在小數據集下,兩者對細胞集群的展示上,效果比較類似,基本能把不同類型的細胞群進行區分。所以,當數據集比較小的情景下,已能足夠展示不同群體細胞特征。
2.大數據集中,UMAP優勢明顯(30多萬個細胞的降維可視化分析)
我們同時在一個數據集上運行、和,該數據集涵蓋了來自個不同的富含和自然殺傷細胞的人體組織的個樣本,共含有萬多個細胞。
圖3 PCA,t-SNE和UMPA的降維展示圖
通過數據降維和可視化展示可以看出,PCA分群效果最差,UMAP和t-SNE都成功將與相似細胞群相對應的簇聚集在一起。但是與t-SNE相比,UMAP還提供了有用的和直觀的特性、保留了更多的全局結構,特別是細胞子集的連續性。
接下來,我們對上述數據分別用細胞類型和組織來源類型進行著色展示:
(1).細胞類型著色

圖4 根據細胞類型的細胞著色圖
(2).組織類型著色
圖5 根據組織來源的細胞著色圖
通過在和圖上對來源組織進行顏色編碼,我們發現比更經常地根據來源組織分離細胞群;相反,根據細胞在每個主要集群中的起源對細胞進行排序,大致是從臍帶血和外周血單個核細胞到肝臟和脾臟,以及一端的扁桃體到另一端的皮膚、腸道和肺。
當我們對特定T細胞標志性marker進行繪圖,我們觀察到UMAP能夠概括T細胞內每個主要集群的分化階段,從UMAP投影上的駐留記憶T細胞標志物CD69和CD103、記憶T細胞標記CD45RO和幼稚T細胞標記CCR7的表達水平可見。相比之下,雖然t-SNE在群集中確定了類似的連續性,但它們沿共同軸沒有明顯的結構。
由此可見,在大數據降維和可視化方面優勢突出。
圖6 Marker基因的細胞標記圖
隨著研究成本的降低和深入,單細胞研究的細胞數量和數據信息肯定會往上走,未來單細胞組學數據將會從現有千萬的基礎上增加到個數量級。因此,在這種發展趨勢下,的發展空間會更大更廣。
參考文獻:
[1] Harold Hotelling. Analysis of a complex of statistical variables into principal components. Journal of educational psychology, 24(6):417, 1933.
[2] J. B. Kruskal. Multidimensional scaling by optimizing goodness of fit to anonmetric hypothesis. Psychometrika, 29(1):1–27, Mar 1964.
[3] Laurens van der Maaten and Geo‚rey Hinton. Visualizing data using t-sne.Journal of machine learning research, 9(Nov):2579–2605, 2008.
[4] Laurens van der Maaten. Accelerating t-sne using tree-based algorithms. Journal of machine learning research, 15(1):3221–3245, 2014.
[5] Ronald R Coifman and Stephane Lafon. Diffusion maps. Applied and computational harmonic analysis, 21(1):5–30, 2006.
[6]. Van Der Maaten, L. & Hinton, G. Visualizing high-dimensional data using t-SNE.journal of machine learning research. J. Mach. Learn. Res. 9, 26 (2008).
[7]. McInnes, L. & Healy, J. UMAP: uniform manifold approximation and projection for dimension reduction. Preprint at https://arxiv.org/abs/1802.03426 (2018).