單細胞RNA測序技術(scRNA-seq)揭示了單個細胞的基因表達情況,單細胞ATAC測序技術(scATAC-seq)專注于單個細胞的染色質開放性,顯現了細胞內的基因調控情況。兩種技術結合使用可以更好地推斷細胞內部的基因調控網絡。但是這些數據的分析經常要使用不同分析工具分別進行。例如,對于scRNA-seq數據一般使用Seurat包分析,而scATAC-seq數據則使用ArchR包來進行分析和軌跡推斷,對轉錄因子(transcription factors,TFs)的活性估測則由chromVAR包進行,諸如此類。這使得對單細胞基因調控網絡的分析變得十分復雜和不便。
基于這些問題, scMega這樣一個整合了多種現有數據分析方法的多組學分析工具應運而生。該工具包含了數據整合、細胞配對、推斷偽時間軌跡、TFs篩選、定量基因調控網絡和增強子TFs-基因互作識別。
具體而言,scMega可分為三個主要步驟:
①單細胞多組學數據整合,候選TFs和基因的識別與篩選和基因調控網絡分析。在單細胞多組學數據整合中,利用Seurat的典型相關分析(CCA)將scRNA-seq數據與scATAC-seq數據進行整合,如果存在批次效應,再利用Harmony進行校正,使用后OptMatch將scRNA-seq與scATAC-seq的細胞進行匹配,構建一個偽多模態數據(圖1a)。
②接下來,scMega利用該多模態數據識別候選TFs和基因。首先,使用AchR推斷偽時間軌跡(圖1b),然后根據染色質可及性譜估計TFs的結合活性,使用chromVAR計算TFs結合活性與TFs表達之間的相關性,具有高相關性說明該TF既高表達,其模體又具有更高的可及性(圖1c)。另外,scMega還會根據基因在偽時間軌跡上的表達變化篩選出軌跡相關基因(圖1d)。
③最后,在scMega的基因調控網絡分析中,當一個基因與至少一個增強子相關聯,且某個TF與這些增強子中的至少一個結合時,這個基因被認為是這個TF的靶點,其相互作用按其相關性進行加權,由此得到基于增強子的基因調控網絡(圖1e)。
而在真實數據的實驗中,使用了人類外周血單核細胞的單細胞多模態數據,首先進行數據整合和細胞配對,配對結果雖然真實的細胞對只有少數被配對成功,但同一類型的細胞基本都匹配在一起。隨后分別基于真實的細胞對和計算匹配的細胞對進行基因調控網絡分析,有75%的TFs,83%的基因和60%的TF-基因調控單元重合,說明大多數真實的互作關系可以由scMega復原。
另外的,對人類心臟心肌梗塞后的纖維細胞進行分析,構建了一條在成纖維細胞亞群內的偽時間軌跡,并推斷了基因調控網絡,識別了祖細胞和肌成纖維細胞亞群內的TF-基因調控對,在空間轉錄組數據中對這些TF的靶基因進行空間表達檢測,也顯示了在心臟纖維化區域內靶基因表達存在梯度與互斥的現象(圖2)。scMega對于分析結果也具有良好的可視化方法,在網絡圖中每個節點代表一個TF或靶基因,TF節點的顏色代表了其在偽時間上的位置,而相連接的節點為與該TF相關的靶基因,可見不同的TF在特定細胞亞群中成簇(圖3a);在曲線圖中,可見不同TF的結合活性、表達和靶基因表達在細胞分化軌跡上的變化(圖3b)。
ScMega對于scATAC數據的分析和解讀提供了一條非常可行且高效的分析方案,使得scATAC和scRNA數據的聯合分析更加簡單,如果您上手有scATAC數據而發愁,不妨一試。