15女上课自慰被男同桌看到了,亚洲国产精品久久久久久久,大雞巴亂倫有声小说,国产精品成人一区二区三区

English | 中文版 | 手機版 企業登錄 | 個人登錄 | 郵件訂閱
當前位置 > 首頁 > 技術文章 > 流形學習在單細胞組學數據分析中的運用

流形學習在單細胞組學數據分析中的運用

瀏覽次數:5525 發布日期:2019-7-19  來源:本站 僅供參考,謝絕轉載,否則責任自負
以10x Genomics為代表的單細胞組學檢測技術的發展,為我們從細胞層面去理解生命體的發育過程,疾病發生和發展過程提供了重要的手段。以單細胞轉錄組(scRNA-Seq)為例,我們可以發現,單細胞組學數據具有橫向細胞數量巨大,縱向數據分布稀疏的特點。因此,針對單細胞數據,從分析的角度提出了巨大的挑戰。在這個過程中,流形學習的發展,為單細胞數據的降維和可視化提供一種解決方案。

以下,我們通過Q&A形式來分享流形學習在單細胞數據分析中的運用。

1.什么是流形學習?

流形學習是機器學習的一種,2000年以后被認為屬于非線性降維的一個分支。流形學習的本質是用低維度數據分布去解釋高維度數據,也可以把它理解成尋找一個高維數據空間到低維數據空間的映射。非線性降維技術(廣義上“非線性降維技術”≈“流形學習”,狹義上后者是前者子集)。流形學習在單細胞數據中的作用就是為了解決使高維的數據進行合理降維的過程。

2.流形學習的分類有哪些?

流形學習從算法分類的角度分為線性流形學習算法和非線性流形學習算法,線性方法是對非線性方法的線性擴展,比如我們熟悉的主成分分析(Principal component analysis,PCA),多維尺度變換(Multidimensional scaling,MDS)等就屬于線性算法,t-SNE[1]方法就屬于非線性算法。

不同方法衍生出的算法見上圖
3.流形學習有哪些經典算法?

流形學習中,最基本的降維原理是找到一個映射從流形到歐式距離,經典的算法主要有ISOMAP, LLE和LE三種:

a)  Isomap等距映射:Isomap試圖通過保持任意兩點之間的測地線距離來保持流形的全局幾何結構。

b) 局部線性嵌入(Locally Linear Embedding ,LLE):也是非常重要的降維方法 ,LLE從局部來進行分析。

上圖中LLE首先假設數據在較小的局部是線性的,也就是說,某一個數據可以由它鄰域中的幾個樣本來線性表示,LLE 分析方法的出發點便是“流形在局部可以近似等價于歐氏空間”。

c) 拉普拉斯特征映射(Laplacian eigenmaps,LE):基于圖譜理論,希望保持流形的近鄰關系,將原始空間中相近的點映射成目標空間中相近的點,通過構建近鄰圖、計算每條邊的權重(不相連的邊權重為0)、求解特征向量方程來達到降維、聚類的結果。


4.為什么在單細胞分群展示時不用PCA?

Principal Component Analysis(PCA) 采用線性投影的方法進行降維,它的目的是使得數據在給定的方向上投影得到最大的方差,PCA 是到目前為止應用最為廣泛的一個降維算法,在機器學習本身的眾多場景中也通常被用作數據預處理的首要方法,當流形是一個線性流形時,PCA 得到的結果是最優的。然而單細胞數據基本上是高維、非線性的并且稀疏的matrix數據結構,所以PCA只能作為數據預處理的一種方式,而基于流形學習的非線性降維方法,結果都會明顯優于PCA,每一個算法都是從不同角度去看問題,所以必須有針對性地選擇算法來分析單細胞的數據。



5.流形學習用在單細胞數據分析的理論基礎是什么?

由于scRNA-seq數據的噪聲和復雜性,許多降維方法都不能有效地在二維或三維空間中捕獲足夠的信息,從而無法實現可視化。在這種情況下,流形學習框架對于降維和數據可視化都很有用。

流形假設中將單細胞RNA-seq實驗中的觀測結果建模為從細胞狀態的光滑流形中采樣。通過將流形學習方法應用于多個細胞間的基因表達矩陣,學習數據的潛在鄰域結構,恢復數據的潛在低維表示;然后通過應用一個核函數(核函數的作用就是隱含著一個從低維空間到高維空間的映射,而這個映射可以把低維空間中線性不可分的兩類點變成線性可分的),核函數可以測量保留密切相關的細胞之間的相關距離、沿流形的主要變化軸計算擬時間,例如可以構建、呈現發育過程中分化的進程,進而利用數據的流形表示進行降維和可視化[2]。




6.流形圖和流形學習之間是什么關系?

流形學習實現了對單細胞數據的降維和可視化過程,沿著流形變化軸,我們可以構建細胞變化過程。因此,擬時間序列分析所采用的降維算法其原理也是基于流形學習。我們常用來進行擬時間序列分析的Monocle 2就是基于圖模型來推測細胞的變化過程。流形圖是一種二維密度估計的等值線。舉個例子:在地理課上我們經常會看到等高線:即地面上海拔高度相同的各點的連線。二維密度估計的等值線是一個和等高線差不多的利器,在原始圖中添加類似等高線(二維密度估計的等值線)的表示,用以標記密集程度,也是間接計算距離的一種算法思想。

目前的流形學習基本上都是基于圖模型,下圖為擬時序分析的軌跡圖,雖然都是樹枝樣的分支,流形背景顯示出每個類別中的分支路線的獨有性,類似于不同的群山山脈特點。通過流形學習得到的擬時序軌跡圖,再加上流形背景,這樣不僅能夠可視化單細胞的軌跡路線,也能從另外一個維度來展現同個流形空間上細胞的關系,整個過程就是高維映射到低維,然后又mapping回高維來展示,使結果的呈現更加多元化、立體化和更加能準確地回溯細胞的整個軌跡。


以上是有關于流行學習在單細胞組學數據用的運用原理和運用方向,對于具體的運用環境,需要根據自身的數據特點選擇最合適的方法。當然,現有的一些單細胞數據分析包里面已經很好地嵌入了相應的算法公式,我們只要進行合理的利用,就可以對數據進行最優篩選和展示。
 

參考文獻:

1. Donaldson, J. (2016). T-Distributed Stochastic Neighbor Embedding for R (t-SNE). R package version 0, 1–3

2. Moon, K.R., et al., Manifold learning-based methods for analyzing single-cell RNA-sequencing data. Current Opinion in Systems Biology, 2018. 7: p. 36-46.

來源:上海生物芯片有限公司
聯系電話:400-100-2131
E-mail:marketing@shbiochip.com

用戶名: 密碼: 匿名 快速注冊 忘記密碼
評論只代表網友觀點,不代表本站觀點。 請輸入驗證碼: 8795
Copyright(C) 1998-2025 生物器材網 電話:021-64166852;13621656896 E-mail:info@bio-equip.com
主站蜘蛛池模板: 河北区| 白朗县| 乌拉特前旗| 海兴县| 分宜县| 永善县| 都匀市| 天水市| 通化县| 奉新县| 五河县| 永春县| 平潭县| 卢氏县| 班戈县| 太白县| 呈贡县| 彭州市| 巩义市| 潍坊市| 龙南县| 怀仁县| 阿拉尔市| 阿瓦提县| 贵阳市| 尉氏县| 星座| 会理县| 佛山市| 仙游县| 堆龙德庆县| 芒康县| 扎鲁特旗| 汉阴县| 吉首市| 保康县| 兖州市| 石林| 泰和县| 织金县| 图木舒克市|