當前位置 > 首頁 > 技術文章 > 時空組學研究進展（五）：單細胞表觀基因組測序技術、分析方法及應用

時空組學研究進展（五）：單細胞表觀基因組測序技術、分析方法及應用

瀏覽次數(shù)：505　發(fā)布日期：2025-1-22　來源：本站　僅供參考，謝絕轉載，否則責任自負

期刊：Science China-Life Sciences
影響因子：8.0
細胞的表觀基因組調節(jié)其細胞類型特異性基因表達。了解表觀遺傳變異對于揭示決定發(fā)育、疾病形成和進展過程中組織和細胞異質性的轉錄機制至關重要。表觀基因組涉及多種精確調控的表觀遺傳特征，例如核酸甲基化、染色質狀態(tài)、核小體位置、組蛋白修飾 (HM)、轉錄因子(TF)結合和高級染色質結構。這些特征相互作用，影響鄰近基因組的活動而不改變DNA序列，進而控制細胞活動并導致可遺傳的表型。單細胞表觀基因組測序技術以及相應的計算分析方法已經(jīng)被開發(fā)并廣泛應用于許多研究領域，特別是在癌癥免疫學、胚胎發(fā)育和神經(jīng)生物學中。本章節(jié)概述了用于單細胞表觀基因組數(shù)據(jù)分析的測序技術和計算工具的最新進展及應用。

單細胞表觀基因組測序技術
一、甲基化
在脊椎動物中，DNA甲基化主要發(fā)生在胞嘧啶環(huán)的第五個碳原子上形成5mC，且多在CpG二核苷酸背景下，這些二核苷酸聚集在與基因啟動子高度相關的CpG島區(qū)域，能順式調控基因表達。

(1)亞硫酸鹽處理
在DNA甲基化測序方面，亞硫酸鹽測序是分析全基因組DNA甲基化的金標準。經(jīng)亞硫酸鹽處理，未甲基化的胞嘧啶脫氨基為尿嘧啶，甲基化的胞嘧啶保持不變；在后續(xù)PCR擴增和測序中，未甲基化的胞嘧啶被讀取為胸腺嘧啶，甲基化的胞嘧啶仍被讀取為胞嘧啶。該方法處理效率約95%，可達到單堿基對分辨率。WGBS(Whole-genome bisulfite-sequencing)(Cokus等，2008)能覆蓋整個基因組幾乎所有CpG位點，但因需較深測序深度，成本較高。RRBS(reduced representation bisulfite sequencing)(Gu等，2010)則利用限制性內切酶(MspI)消化和大小分級的方法富集富含CG位點的區(qū)域，降低序列庫的復雜性和大小，是一種經(jīng)濟高效的方法。m6A(N6-methyladenosine)是一種豐富的RNA甲基化，對RNA調控和細胞功能有重要影響，還開發(fā)了用于單細胞水平的m6A RNA甲基化分析技術。

為了克服單細胞甲基化檢測中DNA的大量丟失，開發(fā)了多種技術。scRRBS(single-cell RRBS)(Guo 等，2013)整合實驗流程，省去亞硫酸鹽轉化前純化步驟，經(jīng)兩輪PCR擴增和深度測序實現(xiàn)檢測。為消除PCR擴增偏差，Q-RRBS(quantitative RRBS)(Wang 等，2015)引入UMI。為避免亞硫酸鹽引起的完整測序模板丟失并避免擴增偏向性，scBS-seq(Clark 等，2017)和scPBAT(Kobayashi 等，2016)采用PBAT(post-bisulfite adaptor tagging)，scWGBS(Farlik 等，2015)實現(xiàn)PBAT且無需預擴增，適合低覆蓋率高通量分析。鑒于全基因組CpG覆蓋成本高，SLBS(single-cell locus-specific bisulfite sequencing)(Gravina 等，2015)應運而生，并可直接檢測表觀突變。伴隨單細胞條形碼、分離技術發(fā)展，MID-RRBS(microfluidic diffusion-based reduced representation bisulfite sequencing)(Ma 等，2018)、sci-MET(single-cell combinatorial indexing for methylation analysis)(Mulqueen 等，2018)和snmCseq(single-nucleus methylcytosine sequencing)(Luo 等，2017)等技術相繼出現(xiàn)。為覆蓋更多功能相關CpG甲基化區(qū)域，包括啟動子、CpG島、CTCF絕緣子和增強子scXRBS(single-cell extended representation bisulfite sequencing )(Shareef等，2021)被開發(fā)，其早期引入條形碼步驟，實現(xiàn)高靈敏度和樣本多重分析。

(2)甲基化酶輔助
亞硫酸鹽處理存在局限性，它會使未甲基化的胞嘧啶、5fCs和5caCs 都轉化為尿嘧啶，難以區(qū)分，限制了DNA去甲基化研究。scMAB-seq(Single-cell methylase-assisted bisulfite sequencing)(Wu 等, 2017b)通過用CpG甲基化酶M.SssI預處理DNA，僅將胞嘧啶轉化為5mCs，保護Cs但不保護5fCs 和 5caCs，從而能直接將5fCs 和 5caCs 檢測為尿嘧啶解決了這一問題。MSRE(Besides bisulfite treatment, methylation-sensitive restriction enzymes)也用于DNA甲基化檢測。RSMA(Restriction enzyme-based singlecell methylation assay)(Kantlehner等，2011)和SCRAM(single-cell restriction analysis of methylation)(Lorthongpanich 等，2013)雖易于實現(xiàn)，但無法區(qū)分雜合和半合甲基化等位基因。單細胞基因型、表達和甲基化分析(scGEM)(Cheow 等, 2016)結合了SCRAM和單細胞基因分型，可更可靠評估甲基化狀態(tài)。scCGI-seq(Genome-wide CGI methylation sequencing for single cells)(Han 等, 2017)將MSRE的使用拓展到基因組規(guī)模的CGI。scAba-seq(single-cell hydroxymethylation sequencing)采用限制性內切酶AbaSI檢測5hmC標記。RGM(reporter of genomic methylation)(Stelzer 等, 2015)則用熒光報告系統(tǒng)可視化和追蹤DNA甲基化動態(tài)變化。

(3)酶轉化
除了常規(guī)的亞硫酸鹽處理等方法，基于酶轉化的處理方法作為一種破壞性更小的替代方案，已應用于單細胞分析。EM-seq利用兩組酶促反應識別5mC和5hmC，先通過TET2和T4-BGT將5mC和5hmC轉化為對APOBEC3A脫氨有抵抗力的產物，再利用APOBEC3A對未修飾胞嘧啶脫氨轉化為尿嘧啶(Vaisvila 等，2021)。sciEM將單細胞組合索引與酶促轉化結合，成為首個非亞硫酸氫鹽單細胞DNA甲基化測序方法(Chatterton 等，2023)。類似的酶促轉化策略也被用于RNA甲基化檢測。整體RNA m6A分析揭示了其在基因表達控制、生理過程和疾病狀態(tài)中的作用。DART-seq(Deamination adjacent to RNA modification targets)利用融合蛋白(APOBEC1-YTH)進行C到U編輯，無需抗體，可從極低量RNA中定位m6A。基于此，研究團隊建立了單scDART-seq(single-cell DART-seq)(Tegowski等，2022)，用于識別單細胞中的RNA m6A位點。

二、染色質的可及性和核小體定位
染色質可及性是真核生物基因組的關鍵特征，開放染色質是DNA與TF或非編碼RNA等因子相互作用的必要條件，這些因子對重塑染色質或啟動轉錄至關重要。核小體由8個組蛋白單位組成，被裸露DNA包裹形成染色質，其移動或定位會影響染色質可及性。在總體水平上，ATAC-seq(transposase-accessible chromatin)(Buenrostro 等，2013)和DNase-seq(Deoxyribonuclease I digestion)(Song 和 Crawford，2010)被廣泛用于揭示染色質可及性，它是表觀遺傳學景觀的關鍵組成部分，其動態(tài)變化驅動細胞分化和精確基因調控。單細胞水平分析染色質可及性有助于揭示細胞異質性和基因表達本質。

ATAC-seq和DNase-seq已應用于單細胞。scATAC-seq(Buenrostro 等，2015)結合微流體、Tn5標記和測序條形碼，scDNase-seq通過FACS分選單細胞并用DNase I消化，可檢測更多DHS(DNase I hypersensitive sites)。但兩者細胞通量受限于微流控設備而較低。為提高細胞通量，μATAC-seq(scATAC-seq in small volumes )(Mezger等，2018年)整合熒光成像和可尋址試劑沉積技術，通過平行納米孔板陣列提高細胞通量，每芯片可處理約1800個細胞且富集度更高。多重索引條形碼方法也被引入，如sci-ATAC-seq(single-cell profiling of chromatin accessibility by combinatorial cellular indexing)通過組合細胞索引(Cusanovich等，2015)和iscDNaseseq(droplet-based single-cell combinatorial indexing for ATAC-seq)(Gao等，2021b)應用，顯著提高細胞通量至約15,000個細胞。dsciATAC-seq(droplet-based single-cell combinatorial indexing for ATAC-seq)(Lareau等，2019)整合基于微滴的微流控方法和組合索引，使約500,000個單細胞染色質可及性分析成為可能。snATAC-seq 僅用細胞核測序，減輕線粒體污染，產生更高質量細胞和更低噪音。

核小體組織和定位參與染色質壓縮和可及性形成。scMNase-seq(Single-cell micrococcal nuclease sequencing )(Lai等，2018年)采用FACS排序、裂解和MNase消化構建文庫，分析全基因組核小體位置，展示了DHSs(DNase I hypersensitive sites)處核小體定位和核小體間距的細胞異質性。

三、組蛋白修飾和轉錄因子結合
不同的組蛋白修飾(HMs)代表著不同的染色質狀態(tài)和活性，會影響轉錄因子(TF)的結合和轉錄。基于抗體的ChIP-seq(chromatin immunoprecipitation assays with sequencing)(Kim和Ren，2006)被廣泛用于繪制全基因組的組蛋白修飾和轉錄因子圖譜。Drop-ChIP(Droplet-based chromatin immunoprecipitation followed by sequencing)(Rotem等，2015)和scChIP-seq(later single-cell ChIP-seq )(Grosselin等，2019)通過將細胞分離成含裂解緩沖液和MNase的微滴，并在免疫沉淀前進行條形碼標記，提高了沉淀效率并得到低背景結果。同時itChIP-seq(indexing and tagmentation-based ChIP-seq)(Ai等，2019)采用Tn5轉座酶打標簽技術，添加條形碼和PCR擴增引物，實現(xiàn)每個細胞約9000次讀取，但因抗體親和力和效率低，主要用于分析組蛋白修飾而非轉錄因子。

CUT&RUN(Cleavage under targets & release using nuclease)(Skene和Henikoff，2017)是一種方便高效的低輸入方法，利用原生染色質上的免疫切割。它衍生出多種技術，如scChIL-seq(single-cell chromatin integration labeling)(Harada等，2019年)、scChIC-seq(single-cell chromatin immune-cleavage sequencing technique)(Ku等，2019)、uliCUT&RUN(ultralow-input cleavage under targets and release using nuclease)、scCUT&Tag(single-cell cleavage under targets and tagmentation)。scChIC-seq、uliCUT&RUN和iscChIC-seq使用pA-MNase作為切割酶，其他方法使用pA-Tn5。基于Tn5的方法還可分析RNA聚合酶II等豐富轉錄因子。

scDamID(Single-cell DNA adenine methyltransferase identification)(Kind等，2015)用于檢測細胞間期核內染色體空間組織，通過DNA腺嘌呤甲基轉移酶(Dam)甲基化相鄰腺嘌呤，經(jīng)PCR擴增和NGS鑒定。結合scDam&T-seq(single-cell DamID with messenger RNA sequencin)(Rooijers等，2019)成功分析RING1B結合位點，為識別動態(tài)過程和異質組織中調節(jié)細胞類型特異性轉錄程序的蛋白介導機制提供有力工具。

四、3D基因組結構
染色質在細胞核內具有空間和結構上的組織與區(qū)室化，影響順式調控元件(CRE)和反式調控因子的作用。3C(Chromosome conformation capture)技術(Hagège等，2007)用于檢測彼此接近的基因組區(qū)域。隨著基于構象的技術不斷發(fā)展，基于高通量測序的Hi-C技術實現(xiàn)了全基因組染色質相互作用檢測。與其它單細胞測序方法類似，scHi-C(single-cell Hi-C)(Nagano等，2013)需先分離或條形碼標記單個細胞，其縮小了傳統(tǒng)Hi-C規(guī)模，將細胞分至多孔板進行標記。snHi-C(Singlenucleus Hi-C)(Flyamer等，2017年)則擴增整個基因組，省去生物素填充步驟。Dip-C(Diploid chromatin conformation capture)(Tan等，2018)采用基于標記的策略簡化實驗流程。

sciHi-C( Single-cell combinatorial indexed Hi-C)(Ramani等，2017)引入組合索引，避免細胞分離。為彌補近端連接限制，scSPRITE(single-cell split-pool recognition of interactions by tag extension)(Arrastia等，2022)可檢測細胞內染色體間和染色體內相互作用，以及更多DNA接觸點。未來需克服諸多挑戰(zhàn)。首先，由于單細胞中DNA捕獲率低且含量低于RNA，單細胞表觀基因組數(shù)據(jù)目前高度稀疏。其次，現(xiàn)有方法仍難以精確檢測TF的結合位點，尤其是那些在全基因組分布不均的TF。第三，從DNA到細胞狀態(tài)和表型的基因調控機制闡釋，仍需單細胞多組學方法的進一步發(fā)展。

單細胞表觀基因組數(shù)據(jù)的計算方法
為bulk組織設計的讀適配器修剪器和映射器也可用于單細胞讀段，如Fastp(Chen等，2018)和Trimmomatic(Bolger等，2014)用于去除適配器序列以便映射。對于DNA甲基化數(shù)據(jù)，Bismark(Krueger和Andrews，2011)、BSMAP(Xi和Li，2009)和Bsseeker(Chen等，2010)被用于映射讀段到基因組，但亞硫酸鹽轉化會導致胞嘧啶耗盡，產生多映射讀段，尤其在單細胞數(shù)據(jù)中更嚴重，scBS-map(Wu等，201)通過局部比對方法重新映射嵌合讀段提高映射效率。對于scATAC-seq等非轉化DNA序列，BWA(Li和Durbin，2009)、bowtie2(Langmead等，2019)和minimap2(Li，2018)被廣泛用于映射，chromap引入偽比對技術顯著提高映射效率。

在質量控制方面，F(xiàn)astQC用于閱讀水平的質量控制，通過限制映射讀段和線粒體讀段數(shù)量過濾低質量細胞。單細胞DNA甲基化計數(shù)矩陣從胞嘧啶摘要表或自定義特征構建，MethylStar(Shahryary等，2020)和EpiScanpy(Danese等，2021)內置功能量化甲基化讀段，BPRmeth引入廣義線性模型(GLM)回歸量化甲基化輪廓。scATAC-seq計數(shù)矩陣以BAM或片段文件為輸入，定義特征有兩種方法：一是合并通過QC的細胞用MACS2(Zhang等，2008)或chromHMM(Ernst和Kellis，2012)調用峰值，減少特征數(shù)量加快下游分析但可能丟失稀有細胞群體信息；二是使用分段基因組統(tǒng)計reads，如SnapATAC(Fang等，2021)捕獲稀有細胞群體但產生大量特征需下游過濾。scATAC-seq的計數(shù)矩陣通常會進行二值化處理。

一、填補
單細胞表觀基因組數(shù)據(jù)的稀疏性影響了下游分析的敏感度與準確性，技術偏差導致數(shù)據(jù)存在缺失值，為此開發(fā)了多種預測填補方法。

對于DNA甲基化，DeepCpG利用卷積神經(jīng)網(wǎng)絡學習DNA序列特征與相鄰CpG位點的甲基化狀態(tài)關聯(lián)，MOFA和MOFA+通過PCA推斷低維數(shù)據(jù)表示來插補缺失值，MELISSA、scMET和Epiclomal使用貝葉斯混合模型利用相似細胞中的甲基化模式插補缺失值。

在scATAC-seq數(shù)據(jù)方面，ChromA采用貝葉斯統(tǒng)計方法結合HSMM(hidden semi-Markov models)克服稀疏性問題，ScOpen整合NMF(nonnegative matrix factorization)的無監(jiān)督學習模型，AtacWorks使用ResNet架構從高質量批量ATAC-seq數(shù)據(jù)中訓練模型預測單細胞信號軌跡，SCATE整合共激活峰值等信息預測峰值信號，這些方法還增強了細胞聚類性能。

對于scHi-C數(shù)據(jù)，scHiCluster將染色體相互作用視為網(wǎng)絡用隨機游走算法傳播平滑相互作用，HiCImpute考慮二維數(shù)據(jù)結構的空間依賴性借鑒信息，scHiCEmbed借鑒scHiCluster結果用圖自編碼器學習節(jié)點嵌入實現(xiàn)插補和TAD(topologically associating domains )檢測，Higashi將數(shù)據(jù)轉換為超圖預測缺失超邊插補接觸圖。在重建3D基因組結構方面，Si-C應用貝葉斯理論框架重建基因組3D結構，SCL將3D結構視為珠子在弦上在3D立方格內重建結構用2D高斯插補估計傾向，SIMBA3D先利用批量Hi-C數(shù)據(jù)恢復遺漏相互作用再用廣義貝葉斯框架推斷3D染色體結構。

二、分群
將相似細胞聚類可賦予細胞身份，有助于發(fā)現(xiàn)稀有細胞群體、理解基因調控模式并減輕噪聲。單細胞轉錄組中使用的聚類算法，如tSNE(Laurens和Hinton，2008)、UMAP(McInnes等，2018)、Louvain聚類(Fortunato，2009)、Leiden聚類(Guo等，2019)和擴散偽時間(Haghverdi等，2016)，也被應用于單細胞表觀基因組。ALLCools(liu等，2021)、EpiScanpy(Danese等，2021)、Signac(Stuart等，2021)、ArchR(Granja等，2021)、SnapATAC(Fang等，2021)等分析流程集成了這些算法，便于細胞聚類。

單細胞表觀基因組數(shù)據(jù)比轉錄組數(shù)據(jù)更稀疏、特征更多。為克服稀疏性，可利用插補方法填補缺失特征并保持細胞異質性以提高聚類性能。scABC(Zamanighomi等，2018)通過加權Kmedoids聚類算法減輕低測序深度細胞的噪聲，給予測序深度低的細胞較低權重。

在聚類算法中，特征或維度降低是關鍵區(qū)別，PCA是最常用方法。Seurat v3(Stuart等，2019)整合LSI(latent semantic indexing)降低scATAC-seq特征計數(shù)矩陣維度。CisTopic(Bravo González-Blas等，2019)使用LDA結合塌陷的Gibbs采樣器識別順式調控主題，還預測轉錄因子結合位點和染色質狀態(tài)。PeakVI(Ashuach等，2022)采用深度生成模型學習概率低維表示。ScVAEBGM(Duan等，2022)將VAE(Variational Autoencoder)與BGM(Bayesian Gaussianmixture model)結合處理scATAC-seq數(shù)據(jù)，利用BGM估計聚類數(shù)量。

除單細胞表觀基因組數(shù)據(jù)信息外，借鑒序列特征、批量數(shù)據(jù)集和單細胞轉錄組數(shù)據(jù)集信息也助于聚類。多組學實驗方法如MAPLE(Uzun等，2021)、scAI(Jin等，2020)、LIGER(Welch等，2019)、scMC(Zhang和Nie，2021)以及scGCN(Song等，2021)通過與scRNA-seq整合提高聚類性能。chromVAR(Schep等，2017)、BROCKMAN(de Boer和Regev，2018)、scFAN(Fu等，2020年)和scBasset(Yuan和Kelley，2022)考慮序列特征，包括基序或特定的k - mer，將維度從峰值水平降低到k - mer水平或轉錄因子水平。此外，CellWalkR(Przytycki和Pollard，2022)將scATAC-seq與細胞類型標簽和批量表觀遺傳數(shù)據(jù)整合，更好說明特定細胞類型中活躍的CREs。SCRIP(Dong等，2022)整合許多批量ChIP-seq數(shù)據(jù)集，用峰值集相似性將特征矩陣從峰值計數(shù)轉換為轉錄因子計數(shù)。這些方法不僅增強聚類性能，還提供生物學信息，說明哪些峰值或序列特征對特定調控因子重要。

對于scHi-C數(shù)據(jù)，SCL和scHiCEmbed通過插補減輕數(shù)據(jù)稀疏性提高聚類性能。最近，scHiCStackL(wu等，2022)提出雙層堆疊集成模型進行細胞分類，在細胞類型聚類任務上超越其他方法。

三、細胞類型注釋和軌跡推斷
盡管單細胞方法允許對眾多細胞的基因組數(shù)據(jù)進行并行分析，通常需要知道每個聚類的細胞類型或分化階段。使用單細胞表觀基因組數(shù)據(jù)對細胞進行注釋通常需要推斷基因活性以協(xié)助區(qū)分細胞類型。這與單細胞RNA測序(scRNA-seq)不同，后者可以通過基因標記來識別細胞狀態(tài)。

ArchR和MAESTRO都提供了統(tǒng)計模型，用于從scATAC-seq峰值推斷聚類水平上的基因得分。ArchR結合了指數(shù)衰減模型，并考慮了擴展的基因體和基因邊界。MAESTRO也使用指數(shù)衰減模型，但考慮了每個基因的外顯子，并去除了附近基因的影響。Garnett借鑒了Cicero(Pliner等，2018)計算基因活性得分的方法，并將其預定義的標記語言和預訓練分類器應用于scATAC-seq數(shù)據(jù)。除了使用推斷的基因得分作為標記來注釋細胞外，另一種方法是使用經(jīng)過良好注釋的批量數(shù)據(jù)作為參考。SCRAT(Ji等，2017)建立了一個包含多種細胞類型的ENCODE(de Souza，2012)DNase-seq輪廓的調控組數(shù)據(jù)庫，以推斷每個細胞可能的細胞類型。此外，MAESTRO不僅使用了ENCODE項目的數(shù)據(jù)，還使用了Cistrome Data Browser(Mei等，2017；Zheng等，2019；Zheng等，2020)的數(shù)據(jù)，收集了最全面的先前公共DNase-seq和ATAC-seq數(shù)據(jù)集。

RNA的轉錄需要時間，因此與scRNA-seq相比，單細胞表觀基因組數(shù)據(jù)在捕獲細胞分化事件方面更為敏感。為了推斷細胞軌跡，STREAM(Chen等，2019)首先使用PCA提取最有信息量的特征。然后，使用非線性降維技術改進的局部線性嵌入(MLLE)，將細胞投影到低維空間，再實施彈性主圖(Elastic Principal Graph)。MIRA(Lynch等，2022)使用主題建模來推斷細胞狀態(tài)，并在可解釋的潛在空間中表示這些狀態(tài)，允許推斷細胞狀態(tài)樹和識別分支點命運決策的重要調控因子。此外，許多流程工具，如EpiScanpy和Signac，整合了PAGA(Wolf等，2019)或Monocle(Trapnell等，2014)來推斷細胞軌跡。然而，在使用單細胞數(shù)據(jù)建模軌跡時，理解生物系統(tǒng)以及其背后的假設是必要的。因此，為了解釋軌跡的結果，通常需要進行良好的聚類注釋。

四、差異分析與特征選擇
通過差異分析確定與特定細胞狀態(tài)相關的特征至關重要，這種方法將細胞狀態(tài)和表型與基因組區(qū)域或順式調控元件(CREs)聯(lián)系起來。最近的一項報告聲稱，在大樣本量數(shù)據(jù)中，Wilcoxon秩和檢驗在差異性檢驗方法中表現(xiàn)優(yōu)于其他方法，因為它不需要任何假設(Li等，2022)。實際上，Wilcoxon秩和檢驗是大多數(shù)流程工具中用于檢測差異表達基因的最常用檢驗方法。

盡管使用當前工具進行差異分析并不困難，但一個棘手的問題是如何定義單細胞表觀基因組數(shù)據(jù)的有用特征。對于scATAC-seq，采用了基于bin的方法和基于峰值的方法。scMET在諸如啟動子區(qū)域或增強子等區(qū)域內聚合輸入數(shù)據(jù)。這些基因組特征依賴于各個區(qū)域的聚合。最近，一個深度生成模型PeakVI為每個細胞推斷出高維表示，這使得在單區(qū)域水平上對差異可訪問性和細胞狀態(tài)注釋進行統(tǒng)計穩(wěn)健的推斷成為可能。

五、基因調控推斷
利用單細胞表觀基因組數(shù)據(jù)推斷TF活性是研究基因調控的重要應用，多種工具通過不同方法從scATAC-seq數(shù)據(jù)中推斷TF活性。ChromVAR通過估計共享相同TF基序的峰值區(qū)域內的可及性變化來推斷TF活性；scFAN則預先訓練基于深度學習的模型，結合全基因組批量ATAC-seq、DNA序列和ChIP-seq數(shù)據(jù)，應用于單細胞ATAC-seq以預測單個細胞中的TF結合；scBasset引入卷積神經(jīng)網(wǎng)絡(CNNs)，利用scATAC-seq峰值下的DNA序列信息推斷TF活性，且其TF活性與表達的相關性顯著高于ChromVAR；TRIPOD結合scRNA-seq、scATAC-seq和DNA序列特征，考慮基于文獻的知識推斷與基因表達關聯(lián)的TF活性；SCRIP整合數(shù)千個批量水平的ChIP-seq數(shù)據(jù)集和scATAC-seq，基于峰值集相似性推斷TF活性，成功區(qū)分單細胞水平上具有相似基序的TF活性。

然而，CREs與靶基因的聯(lián)系是基因調控中的關鍵問題。Cicero通過抽樣和聚合相似細胞量化潛在CREs相關性，并用圖形Lasso模型將CREs與靶基因聯(lián)系起來；JRIM(Dong等，2021)使用組Lasso發(fā)現(xiàn)調控網(wǎng)絡中相似稀疏模式，重建順式調控互作網(wǎng)絡。為準確識別不同細胞類型中關鍵CREs位置，scEpiLock(Gong等，2022)采用CNN模型檢測染色質可及區(qū)域，用Grad-CAM細化峰值邊界；DIRECT-NET(Zhang等，2022)采用XGBoost識別功能性CREs，推斷具有已知基序模式的TF結合位點。此外，DeepTFni(Li等，2022d)實現(xiàn)帶有變分圖自編碼器(VGAE)的圖神經(jīng)網(wǎng)絡(GNN)推斷TF調控網(wǎng)絡，展示TF間關系；SMGR(Song等，2022)將scRNA-seq和scATAC-seq作為輸入，利用廣義線性回歸模型識別一致表達的基因和峰值潛在表示，識別共調控機制。

ScHi-C技術從三維角度探索基因調控模式，deTOKI(Li等，2021)利用NMF從稀疏的scHi-C數(shù)據(jù)中預測類似TAD結構域；染色質環(huán)是將CREs與靶基因物理連接的較小結構，SnapHiC(Yu等，2021)和SnapHiC2(Li等，2022)通過scHi-C數(shù)據(jù)中的RWR算法，在10kb分辨率下識別染色質環(huán)。這些方法和技術的發(fā)展，為深入研究基因表達調控機制提供了有力工具。

六、多功能分析流程
隨著單細胞表觀基因組數(shù)據(jù)計算方法的發(fā)展，選擇和組織工具以有效提取潛在信息成為挑戰(zhàn)。Chen等(2019)對10種scATAC-seq計算方法進行基準測試，發(fā)現(xiàn)各方法有優(yōu)缺點。多功能流程如Dr.seq2、SCRAT、Scasat、Destin、scitools、scATAC-pro、EpiScanpy、Signac 和 SnapATAC，提供一站式解決方案，簡化生物學家工作，使他們能專注生物學結果。這些工具涵蓋質量控制、過濾低質量細胞或特征、基序分析、聚類、差異分析和可視化等功能。scHiCTools 專門用于scHi-C數(shù)據(jù)。Seurat v3、APEC、MAESTRO、scAI、ArchR 和 ALLCools 不僅提供上述功能，還能整合表觀基因組數(shù)據(jù)和轉錄組數(shù)據(jù)，更好解釋基因調控機制。

此外，g-chromVAR(Ulirsch等，2019)使用精細映射的變異后驗概率和調控活性的定量測量來衡量每個細胞狀態(tài)下調控變異的富集。Methylscaper(Knight等，2021)專門用于單細胞DNA甲基化和染色質可及性模式的可視化。MATCHER(Welch等，2017)、耦合NMF(Duren等，2018)、coupleCoC(Zeng等，2021)、coupleCoC+(Zeng和Lin，2021)、scAMACE(Wangwu等，2021)、epiConv(Lin和Zhang，2022)、scMVP(Li等，2022b)、scREG(Duren等，2022)和MIRA等整合方法分析scRNA-seq和單細胞表觀基因組數(shù)據(jù)，提供全面視角理解基因調控過程。這些整合的計算方法提供了一個更全面和多角度的視角來理解基因調控過程。表S7列出了在審查的計算方法的原始分析中應用的編程語言、關鍵特征、局限性和基準數(shù)據(jù)集(圖7)

圖 7 單細胞表觀基因組學分析流程

單細胞表觀基因組的應用
單細胞技術為研究各種生物過程和基因調控模式提供了前所未有的機會。將這些單細胞技術應用于不同的生物系統(tǒng)，有助于在單細胞水平上發(fā)現(xiàn)細胞分化事件和疾病發(fā)生機制。這些單細胞表觀基因組測序方法已在許多領域得到采用。

一、早期胚胎發(fā)育
在配子發(fā)育和胚胎發(fā)生的早期階段，細胞在表觀基因組上經(jīng)歷了顯著且劇烈的變化和重編程，這導致了細胞分化和細胞表型的多樣性。因此，胚胎干細胞被廣泛用作發(fā)展單細胞表觀基因組測序技術的實驗材料。

Zhu等(2018)利用scWGBS技術，對人類著床前胚胎進行了研究，揭示了小鼠著床前胚胎中存在三波全球性去甲基化現(xiàn)象。這一發(fā)現(xiàn)表明，在全球去甲基化和劇烈再甲基化之間存在動態(tài)平衡，這一平衡發(fā)生在著床前發(fā)育過程中。隨后，Li等(2018)進一步應用scCOOL-seq技術，對人類著床前發(fā)育的六個階段進行了深入分析。他們發(fā)現(xiàn)，多能性主TF結合區(qū)域以及近端和遠端核小體缺失區(qū)域主要富集在染色質可及性變化最大的基因組區(qū)域。此外，他們還發(fā)現(xiàn)，與小鼠相比，人類合子在卵母細胞中對母體基因組的染色質訪問減少，并且在四細胞階段之前父本等位基因之間的平衡被延遲，這表明染色質可及性具有物種特異性特征。Argelaguet等(2019)則對小鼠原腸發(fā)育階段進行了scNMT-seq研究，發(fā)現(xiàn)承諾成為中胚層和內胚層的細胞在增強子標記處經(jīng)歷了廣泛的協(xié)調表觀遺傳重排。這些重排是由ten-eleven translocation(TET)介導的去甲基化和伴隨的染色質可及性增加所驅動的。此外，他們還發(fā)現(xiàn)在早期上胚層中，外胚層細胞的甲基化和可及性景觀已經(jīng)建立。

這些研究揭示了表觀基因組如何影響細胞分化和譜系承諾。未來，使用單細胞多組學技術對細胞群體進行的研究將使我們有機會理解協(xié)調的表觀基因組重編程過程，這有可能改變我們對細胞命運決定的理解，并惠及干細胞生物學領域。

二、腫瘤免疫學
腫瘤中惡性和非惡性細胞共存，這是一個高度異質的結構。這兩種類型的細胞在癌癥的發(fā)展中都扮演著關鍵角色。正在開發(fā)單細胞表觀基因組測序方法，以幫助從腫瘤的復雜性中區(qū)分出對癌癥進程有貢獻的非遺傳因素。

Satpathy等(2019)對接受PD-1阻斷治療的基底細胞癌(BCC)患者的原發(fā)性腫瘤活檢樣本應用了scATAC-seq。他們研究了對治療有反應的T細胞亞群的染色質調節(jié)因子，并觀察到一個共同的調控途徑，該途徑控制著CD4+ T濾泡輔助細胞的發(fā)展和腫瘤內CD8+ T細胞耗竭。不僅免疫細胞通過單細胞表觀基因組測序進行研究，惡性細胞在腫瘤微環(huán)境(TME)中也表現(xiàn)出異質性。Meir等(2020)使用scRNA-seq和甲基化組分析表明，不同類型的癌細胞具有克隆穩(wěn)定的表觀遺傳記憶。此外，他們發(fā)現(xiàn)DNA甲基化景觀反映了一個獨立的類時鐘甲基化喪失機制，同時與通過轉錄組分析在克隆性結癌細胞群體中識別的上皮-間充質轉化(EMT)身份相關聯(lián)。Wu等(2021)使用scCUT&Tag來表征腦腫瘤患者在治療前后的H3K27me3。他們在原發(fā)性樣本和治療后對腦腫瘤H3K27me3進行了分析，并在TME中發(fā)現(xiàn)了各種細胞類型和多梳組活性的異質性。

表觀遺傳機制對于腫瘤細胞和免疫細胞之間的相互作用至關重要。理解免疫細胞和腫瘤細胞中表觀遺傳修飾的基本過程為藥物和免疫治療技術的開發(fā)鋪平了道路。

三、神經(jīng)生物學
理解大腦的正常功能以及功能障礙和疾病的機制，需要我們更好地了解細胞組成。Lake等(2018)在單細胞水平上檢測了成人大腦中的轉座子超敏感位點。他們鑒定了成人大腦皮層和小腦半球中的細胞亞群，并利用表觀基因組數(shù)據(jù)將遺傳風險變異與細胞類型特異性的cCREs聯(lián)系起來。在一組認知健康的人群中，Corces等(2020)檢查了不同成人大腦區(qū)域的單細胞染色質可及性景觀和三維染色質相互作用。他們創(chuàng)建了一個機器學習分類器，將這個多組學框架納入其中，并預測了帕金森病和阿爾茨海默病的幾個功能性SNPs(單核苷酸多態(tài)性)。Yang等(2023)在不同發(fā)育階段對豬海馬體的單核可及性染色質景觀進行了分析，揭示了轉座元件在細胞類型特異性可及性染色質區(qū)域的顯著富集。這項研究有助于加深我們對人類神經(jīng)退行性疾病的理解。未來在單細胞水平上的研究將非常引人入勝，特別是在檢查表觀基因組的動態(tài)調控，特別是在學習和記憶過程中依賴于神經(jīng)元活動的基因組變化。

總結
在本章中，總結了單細胞表觀基因組測序的技術、計算方法和應用。單細胞測序技術的最新應用將研究范圍擴大到了生物過程和疾病。盡管存在一些局限性，但這些方法之前已證明其在闡明復雜組織的各個部分和揭示新見解方面是有效的。未來具有更高覆蓋率和靈敏度的測序技術以及專用、先進和完善的計算方法有望開啟理解生物學的新時代，并為治療疾病鋪平道路。

參考文獻：
Sun F, Li H, Sun D, et al. Single-cell omics: experimental workflow, data analyses and applications. Sci China Life Sci. 2025;68(1):5-102. doi:10.1007/s11427-023-2561-0

索取資料

來源：上海伯豪生物技術有限公司
聯(lián)系電話：021-58955370
E-mail：market@shbio.com

【點擊可查看上海伯豪生物技術有限公司相關服務】

標簽：單細胞表觀基因組測序技術癌癥免疫學

分享到：QQ空間新浪微博騰訊微博微信

【所有文章】【本類新聞】【相關服務】【關閉窗口】

本類文章

本類新聞

15女上课自慰被男同桌看到了,亚洲国产精品久久久久久久,大雞巴亂倫有声小说,国产精品成人一区二区三区

時空組學研究進展（五）：單細胞表觀基因組測序技術、分析方法及應用