期刊:Science China-Life Sciences
影响因子:8.0
细胞的表观基因组调节其细胞类型特异性基因表达。了解表观遗传变异对于揭示决定发育、疾病形成和进展过程中组织和细胞异质性的转录机制至关重要。表观基因组涉及多种精确调控的表观遗传特征,例如核酸甲基化、染色质状态、核小体位置、组蛋白修饰 (HM)、转录因子(TF)结合和高级染色质结构。这些特征相互作用,影响邻近基因组的活动而不改变DNA序列,进而控制细胞活动并导致可遗传的表型。单细胞表观基因组测序技术以及相应的计算分析方法已经被开发并广泛应用于许多研究领域,特别是在癌症免疫学、胚胎发育和神经生物学中。本章节概述了用于单细胞表观基因组数据分析的测序技术和计算工具的最新进展及应用。
单细胞表观基因组测序技术
一、甲基化
在脊椎动物中,DNA甲基化主要发生在胞嘧啶环的第五个碳原子上形成5mC,且多在CpG二核苷酸背景下,这些二核苷酸聚集在与基因启动子高度相关的CpG岛区域,能顺式调控基因表达。
(1)亚硫酸盐处理
在DNA甲基化测序方面,亚硫酸盐测序是分析全基因组DNA甲基化的金标准。经亚硫酸盐处理,未甲基化的胞嘧啶脱氨基为尿嘧啶,甲基化的胞嘧啶保持不变;在后续PCR扩增和测序中,未甲基化的胞嘧啶被读取为胸腺嘧啶,甲基化的胞嘧啶仍被读取为胞嘧啶。该方法处理效率约95%,可达到单碱基对分辨率。WGBS(Whole-genome bisulfite-sequencing)(Cokus等,2008)能覆盖整个基因组几乎所有CpG位点,但因需较深测序深度,成本较高。RRBS(reduced representation bisulfite sequencing)(Gu等,2010)则利用限制性内切酶(MspI)消化和大小分级的方法富集富含CG位点的区域,降低序列库的复杂性和大小,是一种经济高效的方法。m6A(N6-methyladenosine)是一种丰富的RNA甲基化,对RNA调控和细胞功能有重要影响,还开发了用于单细胞水平的m6A RNA甲基化分析技术。
为了克服单细胞甲基化检测中DNA的大量丢失,开发了多种技术。scRRBS(single-cell RRBS)(Guo 等,2013)整合实验流程,省去亚硫酸盐转化前纯化步骤,经两轮PCR扩增和深度测序实现检测。为消除PCR扩增偏差,Q-RRBS(quantitative RRBS)(Wang 等,2015)引入UMI。为避免亚硫酸盐引起的完整测序模板丢失并避免扩增偏向性,scBS-seq(Clark 等,2017)和scPBAT(Kobayashi 等,2016)采用PBAT(post-bisulfite adaptor tagging),scWGBS(Farlik 等,2015)实现PBAT且无需预扩增,适合低覆盖率高通量分析。鉴于全基因组CpG覆盖成本高,SLBS(single-cell locus-specific bisulfite sequencing)(Gravina 等,2015)应运而生,并可直接检测表观突变。伴随单细胞条形码、分离技术发展,MID-RRBS(microfluidic diffusion-based reduced representation bisulfite sequencing)(Ma 等,2018)、sci-MET(single-cell combinatorial indexing for methylation analysis)(Mulqueen 等,2018)和snmCseq(single-nucleus methylcytosine sequencing)(Luo 等,2017)等技术相继出现。为覆盖更多功能相关CpG甲基化区域,包括启动子、CpG岛、CTCF绝缘子和增强子scXRBS(single-cell extended representation bisulfite sequencing )(Shareef等,2021)被开发,其早期引入条形码步骤,实现高灵敏度和样本多重分析。
(2)甲基化酶辅助
亚硫酸盐处理存在局限性,它会使未甲基化的胞嘧啶、5fCs和5caCs 都转化为尿嘧啶,难以区分,限制了DNA去甲基化研究。scMAB-seq(Single-cell methylase-assisted bisulfite sequencing)(Wu 等, 2017b)通过用CpG甲基化酶M.SssI预处理DNA,仅将胞嘧啶转化为5mCs,保护Cs但不保护5fCs 和 5caCs,从而能直接将5fCs 和 5caCs 检测为尿嘧啶解决了这一问题。MSRE(Besides bisulfite treatment, methylation-sensitive restriction enzymes)也用于DNA甲基化检测。RSMA(Restriction enzyme-based singlecell methylation assay)(Kantlehner等,2011)和SCRAM(single-cell restriction analysis of methylation)(Lorthongpanich 等,2013)虽易于实现,但无法区分杂合和半合甲基化等位基因。单细胞基因型、表达和甲基化分析(scGEM)(Cheow 等, 2016)结合了SCRAM和单细胞基因分型,可更可靠评估甲基化状态。scCGI-seq(Genome-wide CGI methylation sequencing for single cells)(Han 等, 2017)将MSRE的使用拓展到基因组规模的CGI。scAba-seq(single-cell hydroxymethylation sequencing)采用限制性内切酶AbaSI检测5hmC标记。RGM(reporter of genomic methylation)(Stelzer 等, 2015)则用荧光报告系统可视化和追踪DNA甲基化动态变化。
(3)酶转化
除了常规的亚硫酸盐处理等方法,基于酶转化的处理方法作为一种破坏性更小的替代方案,已应用于单细胞分析。EM-seq利用两组酶促反应识别5mC和5hmC,先通过TET2和T4-BGT将5mC和5hmC转化为对APOBEC3A脱氨有抵抗力的产物,再利用APOBEC3A对未修饰胞嘧啶脱氨转化为尿嘧啶(Vaisvila 等,2021)。sciEM将单细胞组合索引与酶促转化结合,成为首个非亚硫酸氢盐单细胞DNA甲基化测序方法(Chatterton 等,2023)。类似的酶促转化策略也被用于RNA甲基化检测。整体RNA m6A分析揭示了其在基因表达控制、生理过程和疾病状态中的作用。DART-seq(Deamination adjacent to RNA modification targets)利用融合蛋白(APOBEC1-YTH)进行C到U编辑,无需抗体,可从极低量RNA中定位m6A。基于此,研究团队建立了单scDART-seq(single-cell DART-seq)(Tegowski等,2022),用于识别单细胞中的RNA m6A位点。
二、染色质的可及性和核小体定位
染色质可及性是真核生物基因组的关键特征,开放染色质是DNA与TF或非编码RNA等因子相互作用的必要条件,这些因子对重塑染色质或启动转录至关重要。核小体由8个组蛋白单位组成,被裸露DNA包裹形成染色质,其移动或定位会影响染色质可及性。在总体水平上,ATAC-seq(transposase-accessible chromatin)(Buenrostro 等,2013)和DNase-seq(Deoxyribonuclease I digestion)(Song 和 Crawford,2010)被广泛用于揭示染色质可及性,它是表观遗传学景观的关键组成部分,其动态变化驱动细胞分化和精确基因调控。单细胞水平分析染色质可及性有助于揭示细胞异质性和基因表达本质。
ATAC-seq和DNase-seq已应用于单细胞。scATAC-seq(Buenrostro 等,2015)结合微流体、Tn5标记和测序条形码,scDNase-seq通过FACS分选单细胞并用DNase I消化,可检测更多DHS(DNase I hypersensitive sites)。但两者细胞通量受限于微流控设备而较低。为提高细胞通量,μATAC-seq(scATAC-seq in small volumes )(Mezger等,2018年)整合荧光成像和可寻址试剂沉积技术,通过平行纳米孔板阵列提高细胞通量,每芯片可处理约1800个细胞且富集度更高。多重索引条形码方法也被引入,如sci-ATAC-seq(single-cell profiling of chromatin accessibility by combinatorial cellular indexing)通过组合细胞索引(Cusanovich等,2015)和iscDNaseseq(droplet-based single-cell combinatorial indexing for ATAC-seq)(Gao等,2021b)应用,显著提高细胞通量至约15,000个细胞。dsciATAC-seq(droplet-based single-cell combinatorial indexing for ATAC-seq)(Lareau等,2019)整合基于微滴的微流控方法和组合索引,使约500,000个单细胞染色质可及性分析成为可能。snATAC-seq 仅用细胞核测序,减轻线粒体污染,产生更高质量细胞和更低噪音。
核小体组织和定位参与染色质压缩和可及性形成。scMNase-seq(Single-cell micrococcal nuclease sequencing )(Lai等,2018年)采用FACS排序、裂解和MNase消化构建文库,分析全基因组核小体位置,展示了DHSs(DNase I hypersensitive sites)处核小体定位和核小体间距的细胞异质性。
三、组蛋白修饰和转录因子结合
不同的组蛋白修饰(HMs)代表着不同的染色质状态和活性,会影响转录因子(TF)的结合和转录。基于抗体的ChIP-seq(chromatin immunoprecipitation assays with sequencing)(Kim和Ren,2006)被广泛用于绘制全基因组的组蛋白修饰和转录因子图谱。Drop-ChIP(Droplet-based chromatin immunoprecipitation followed by sequencing)(Rotem等,2015)和scChIP-seq(later single-cell ChIP-seq )(Grosselin等,2019)通过将细胞分离成含裂解缓冲液和MNase的微滴,并在免疫沉淀前进行条形码标记,提高了沉淀效率并得到低背景结果。同时itChIP-seq(indexing and tagmentation-based ChIP-seq)(Ai等,2019)采用Tn5转座酶打标签技术,添加条形码和PCR扩增引物,实现每个细胞约9000次读取,但因抗体亲和力和效率低,主要用于分析组蛋白修饰而非转录因子。
CUT&RUN(Cleavage under targets & release using nuclease)(Skene和Henikoff,2017)是一种方便高效的低输入方法,利用原生染色质上的免疫切割。它衍生出多种技术,如scChIL-seq(single-cell chromatin integration labeling)(Harada等,2019年)、scChIC-seq(single-cell chromatin immune-cleavage sequencing technique)(Ku等,2019)、uliCUT&RUN(ultralow-input cleavage under targets and release using nuclease)、scCUT&Tag(single-cell cleavage under targets and tagmentation)。scChIC-seq、uliCUT&RUN和iscChIC-seq使用pA-MNase作为切割酶,其他方法使用pA-Tn5。基于Tn5的方法还可分析RNA聚合酶II等丰富转录因子。
scDamID(Single-cell DNA adenine methyltransferase identification)(Kind等,2015)用于检测细胞间期核内染色体空间组织,通过DNA腺嘌呤甲基转移酶(Dam)甲基化相邻腺嘌呤,经PCR扩增和NGS鉴定。结合scDam&T-seq(single-cell DamID with messenger RNA sequencin)(Rooijers等,2019)成功分析RING1B结合位点,为识别动态过程和异质组织中调节细胞类型特异性转录程序的蛋白介导机制提供有力工具。
四、3D基因组结构
染色质在细胞核内具有空间和结构上的组织与区室化,影响顺式调控元件(CRE)和反式调控因子的作用。3C(Chromosome conformation capture)技术(Hagège等,2007)用于检测彼此接近的基因组区域。随着基于构象的技术不断发展,基于高通量测序的Hi-C技术实现了全基因组染色质相互作用检测。与其它单细胞测序方法类似,scHi-C(single-cell Hi-C)(Nagano等,2013)需先分离或条形码标记单个细胞,其缩小了传统Hi-C规模,将细胞分至多孔板进行标记。snHi-C(Singlenucleus Hi-C)(Flyamer等,2017年)则扩增整个基因组,省去生物素填充步骤。Dip-C(Diploid chromatin conformation capture)(Tan等,2018)采用基于标记的策略简化实验流程。
sciHi-C( Single-cell combinatorial indexed Hi-C)(Ramani等,2017)引入组合索引,避免细胞分离。为弥补近端连接限制,scSPRITE(single-cell split-pool recognition of interactions by tag extension)(Arrastia等,2022)可检测细胞内染色体间和染色体内相互作用,以及更多DNA接触点。未来需克服诸多挑战。首先,由于单细胞中DNA捕获率低且含量低于RNA,单细胞表观基因组数据目前高度稀疏。其次,现有方法仍难以精确检测TF的结合位点,尤其是那些在全基因组分布不均的TF。第三,从DNA到细胞状态和表型的基因调控机制阐释,仍需单细胞多组学方法的进一步发展。
单细胞表观基因组数据的计算方法
为bulk组织设计的读适配器修剪器和映射器也可用于单细胞读段,如Fastp(Chen等,2018)和Trimmomatic(Bolger等,2014)用于去除适配器序列以便映射。对于DNA甲基化数据,Bismark(Krueger和Andrews,2011)、BSMAP(Xi和Li,2009)和Bsseeker(Chen等,2010)被用于映射读段到基因组,但亚硫酸盐转化会导致胞嘧啶耗尽,产生多映射读段,尤其在单细胞数据中更严重,scBS-map(Wu等,201)通过局部比对方法重新映射嵌合读段提高映射效率。对于scATAC-seq等非转化DNA序列,BWA(Li和Durbin,2009)、bowtie2(Langmead等,2019)和minimap2(Li,2018)被广泛用于映射,chromap引入伪比对技术显著提高映射效率。
在质量控制方面,FastQC用于阅读水平的质量控制,通过限制映射读段和线粒体读段数量过滤低质量细胞。单细胞DNA甲基化计数矩阵从胞嘧啶摘要表或自定义特征构建,MethylStar(Shahryary等,2020)和EpiScanpy(Danese等,2021)内置功能量化甲基化读段,BPRmeth引入广义线性模型(GLM)回归量化甲基化轮廓。scATAC-seq计数矩阵以BAM或片段文件为输入,定义特征有两种方法:一是合并通过QC的细胞用MACS2(Zhang等,2008)或chromHMM(Ernst和Kellis,2012)调用峰值,减少特征数量加快下游分析但可能丢失稀有细胞群体信息;二是使用分段基因组统计reads,如SnapATAC(Fang等,2021)捕获稀有细胞群体但产生大量特征需下游过滤。scATAC-seq的计数矩阵通常会进行二值化处理。
一、填补
单细胞表观基因组数据的稀疏性影响了下游分析的敏感度与准确性,技术偏差导致数据存在缺失值,为此开发了多种预测填补方法。
对于DNA甲基化,DeepCpG利用卷积神经网络学习DNA序列特征与相邻CpG位点的甲基化状态关联,MOFA和MOFA+通过PCA推断低维数据表示来插补缺失值,MELISSA、scMET和Epiclomal使用贝叶斯混合模型利用相似细胞中的甲基化模式插补缺失值。
在scATAC-seq数据方面,ChromA采用贝叶斯统计方法结合HSMM(hidden semi-Markov models)克服稀疏性问题,ScOpen整合NMF(nonnegative matrix factorization)的无监督学习模型,AtacWorks使用ResNet架构从高质量批量ATAC-seq数据中训练模型预测单细胞信号轨迹,SCATE整合共激活峰值等信息预测峰值信号,这些方法还增强了细胞聚类性能。
对于scHi-C数据,scHiCluster将染色体相互作用视为网络用随机游走算法传播平滑相互作用,HiCImpute考虑二维数据结构的空间依赖性借鉴信息,scHiCEmbed借鉴scHiCluster结果用图自编码器学习节点嵌入实现插补和TAD(topologically associating domains )检测,Higashi将数据转换为超图预测缺失超边插补接触图。在重建3D基因组结构方面,Si-C应用贝叶斯理论框架重建基因组3D结构,SCL将3D结构视为珠子在弦上在3D立方格内重建结构用2D高斯插补估计倾向,SIMBA3D先利用批量Hi-C数据恢复遗漏相互作用再用广义贝叶斯框架推断3D染色体结构。
二、分群
将相似细胞聚类可赋予细胞身份,有助于发现稀有细胞群体、理解基因调控模式并减轻噪声。单细胞转录组中使用的聚类算法,如tSNE(Laurens和Hinton,2008)、UMAP(McInnes等,2018)、Louvain聚类(Fortunato,2009)、Leiden聚类(Guo等,2019)和扩散伪时间(Haghverdi等,2016),也被应用于单细胞表观基因组。ALLCools(liu等,2021)、EpiScanpy(Danese等,2021)、Signac(Stuart等,2021)、ArchR(Granja等,2021)、SnapATAC(Fang等,2021)等分析流程集成了这些算法,便于细胞聚类。
单细胞表观基因组数据比转录组数据更稀疏、特征更多。为克服稀疏性,可利用插补方法填补缺失特征并保持细胞异质性以提高聚类性能。scABC(Zamanighomi等,2018)通过加权Kmedoids聚类算法减轻低测序深度细胞的噪声,给予测序深度低的细胞较低权重。
在聚类算法中,特征或维度降低是关键区别,PCA是最常用方法。Seurat v3(Stuart等,2019)整合LSI(latent semantic indexing)降低scATAC-seq特征计数矩阵维度。CisTopic(Bravo González-Blas等,2019)使用LDA结合塌陷的Gibbs采样器识别顺式调控主题,还预测转录因子结合位点和染色质状态。PeakVI(Ashuach等,2022)采用深度生成模型学习概率低维表示。ScVAEBGM(Duan等,2022)将VAE(Variational Autoencoder)与BGM(Bayesian Gaussianmixture model)结合处理scATAC-seq数据,利用BGM估计聚类数量。
除单细胞表观基因组数据信息外,借鉴序列特征、批量数据集和单细胞转录组数据集信息也助于聚类。多组学实验方法如MAPLE(Uzun等,2021)、scAI(Jin等,2020)、LIGER(Welch等,2019)、scMC(Zhang和Nie,2021)以及scGCN(Song等,2021)通过与scRNA-seq整合提高聚类性能。chromVAR(Schep等,2017)、BROCKMAN(de Boer和Regev,2018)、scFAN(Fu等,2020年)和scBasset(Yuan和Kelley,2022)考虑序列特征,包括基序或特定的k - mer,将维度从峰值水平降低到k - mer水平或转录因子水平。此外,CellWalkR(Przytycki和Pollard,2022)将scATAC-seq与细胞类型标签和批量表观遗传数据整合,更好说明特定细胞类型中活跃的CREs。SCRIP(Dong等,2022)整合许多批量ChIP-seq数据集,用峰值集相似性将特征矩阵从峰值计数转换为转录因子计数。这些方法不仅增强聚类性能,还提供生物学信息,说明哪些峰值或序列特征对特定调控因子重要。
对于scHi-C数据,SCL和scHiCEmbed通过插补减轻数据稀疏性提高聚类性能。最近,scHiCStackL(wu等,2022)提出双层堆叠集成模型进行细胞分类,在细胞类型聚类任务上超越其他方法。
三、细胞类型注释和轨迹推断
尽管单细胞方法允许对众多细胞的基因组数据进行并行分析,通常需要知道每个聚类的细胞类型或分化阶段。使用单细胞表观基因组数据对细胞进行注释通常需要推断基因活性以协助区分细胞类型。这与单细胞RNA测序(scRNA-seq)不同,后者可以通过基因标记来识别细胞状态。
ArchR和MAESTRO都提供了统计模型,用于从scATAC-seq峰值推断聚类水平上的基因得分。ArchR结合了指数衰减模型,并考虑了扩展的基因体和基因边界。MAESTRO也使用指数衰减模型,但考虑了每个基因的外显子,并去除了附近基因的影响。Garnett借鉴了Cicero(Pliner等,2018)计算基因活性得分的方法,并将其预定义的标记语言和预训练分类器应用于scATAC-seq数据。除了使用推断的基因得分作为标记来注释细胞外,另一种方法是使用经过良好注释的批量数据作为参考。SCRAT(Ji等,2017)建立了一个包含多种细胞类型的ENCODE(de Souza,2012)DNase-seq轮廓的调控组数据库,以推断每个细胞可能的细胞类型。此外,MAESTRO不仅使用了ENCODE项目的数据,还使用了Cistrome Data Browser(Mei等,2017;Zheng等,2019;Zheng等,2020)的数据,收集了最全面的先前公共DNase-seq和ATAC-seq数据集。
RNA的转录需要时间,因此与scRNA-seq相比,单细胞表观基因组数据在捕获细胞分化事件方面更为敏感。为了推断细胞轨迹,STREAM(Chen等,2019)首先使用PCA提取最有信息量的特征。然后,使用非线性降维技术改进的局部线性嵌入(MLLE),将细胞投影到低维空间,再实施弹性主图(Elastic Principal Graph)。MIRA(Lynch等,2022)使用主题建模来推断细胞状态,并在可解释的潜在空间中表示这些状态,允许推断细胞状态树和识别分支点命运决策的重要调控因子。此外,许多流程工具,如EpiScanpy和Signac,整合了PAGA(Wolf等,2019)或Monocle(Trapnell等,2014)来推断细胞轨迹。然而,在使用单细胞数据建模轨迹时,理解生物系统以及其背后的假设是必要的。因此,为了解释轨迹的结果,通常需要进行良好的聚类注释。
四、差异分析与特征选择
通过差异分析确定与特定细胞状态相关的特征至关重要,这种方法将细胞状态和表型与基因组区域或顺式调控元件(CREs)联系起来。最近的一项报告声称,在大样本量数据中,Wilcoxon秩和检验在差异性检验方法中表现优于其他方法,因为它不需要任何假设(Li等,2022)。实际上,Wilcoxon秩和检验是大多数流程工具中用于检测差异表达基因的最常用检验方法。
尽管使用当前工具进行差异分析并不困难,但一个棘手的问题是如何定义单细胞表观基因组数据的有用特征。对于scATAC-seq,采用了基于bin的方法和基于峰值的方法。scMET在诸如启动子区域或增强子等区域内聚合输入数据。这些基因组特征依赖于各个区域的聚合。最近,一个深度生成模型PeakVI为每个细胞推断出高维表示,这使得在单区域水平上对差异可访问性和细胞状态注释进行统计稳健的推断成为可能。
五、基因调控推断
利用单细胞表观基因组数据推断TF活性是研究基因调控的重要应用,多种工具通过不同方法从scATAC-seq数据中推断TF活性。ChromVAR通过估计共享相同TF基序的峰值区域内的可及性变化来推断TF活性;scFAN则预先训练基于深度学习的模型,结合全基因组批量ATAC-seq、DNA序列和ChIP-seq数据,应用于单细胞ATAC-seq以预测单个细胞中的TF结合;scBasset引入卷积神经网络(CNNs),利用scATAC-seq峰值下的DNA序列信息推断TF活性,且其TF活性与表达的相关性显著高于ChromVAR;TRIPOD结合scRNA-seq、scATAC-seq和DNA序列特征,考虑基于文献的知识推断与基因表达关联的TF活性;SCRIP整合数千个批量水平的ChIP-seq数据集和scATAC-seq,基于峰值集相似性推断TF活性,成功区分单细胞水平上具有相似基序的TF活性。
然而,CREs与靶基因的联系是基因调控中的关键问题。Cicero通过抽样和聚合相似细胞量化潜在CREs相关性,并用图形Lasso模型将CREs与靶基因联系起来;JRIM(Dong等,2021)使用组Lasso发现调控网络中相似稀疏模式,重建顺式调控互作网络。为准确识别不同细胞类型中关键CREs位置,scEpiLock(Gong等,2022)采用CNN模型检测染色质可及区域,用Grad-CAM细化峰值边界;DIRECT-NET(Zhang等,2022)采用XGBoost识别功能性CREs,推断具有已知基序模式的TF结合位点。此外,DeepTFni(Li等,2022d)实现带有变分图自编码器(VGAE)的图神经网络(GNN)推断TF调控网络,展示TF间关系;SMGR(Song等,2022)将scRNA-seq和scATAC-seq作为输入,利用广义线性回归模型识别一致表达的基因和峰值潜在表示,识别共调控机制。
ScHi-C技术从三维角度探索基因调控模式,deTOKI(Li等,2021)利用NMF从稀疏的scHi-C数据中预测类似TAD结构域;染色质环是将CREs与靶基因物理连接的较小结构,SnapHiC(Yu等,2021)和SnapHiC2(Li等,2022)通过scHi-C数据中的RWR算法,在10kb分辨率下识别染色质环。这些方法和技术的发展,为深入研究基因表达调控机制提供了有力工具。
六、多功能分析流程
随着单细胞表观基因组数据计算方法的发展,选择和组织工具以有效提取潜在信息成为挑战。Chen等(2019)对10种scATAC-seq计算方法进行基准测试,发现各方法有优缺点。多功能流程如Dr.seq2、SCRAT、Scasat、Destin、scitools、scATAC-pro、EpiScanpy、Signac 和 SnapATAC,提供一站式解决方案,简化生物学家工作,使他们能专注生物学结果。这些工具涵盖质量控制、过滤低质量细胞或特征、基序分析、聚类、差异分析和可视化等功能。scHiCTools 专门用于scHi-C数据。Seurat v3、APEC、MAESTRO、scAI、ArchR 和 ALLCools 不仅提供上述功能,还能整合表观基因组数据和转录组数据,更好解释基因调控机制。
此外,g-chromVAR(Ulirsch等,2019)使用精细映射的变异后验概率和调控活性的定量测量来衡量每个细胞状态下调控变异的富集。Methylscaper(Knight等,2021)专门用于单细胞DNA甲基化和染色质可及性模式的可视化。MATCHER(Welch等,2017)、耦合NMF(Duren等,2018)、coupleCoC(Zeng等,2021)、coupleCoC+(Zeng和Lin,2021)、scAMACE(Wangwu等,2021)、epiConv(Lin和Zhang,2022)、scMVP(Li等,2022b)、scREG(Duren等,2022)和MIRA等整合方法分析scRNA-seq和单细胞表观基因组数据,提供全面视角理解基因调控过程。这些整合的计算方法提供了一个更全面和多角度的视角来理解基因调控过程。表S7列出了在审查的计算方法的原始分析中应用的编程语言、关键特征、局限性和基准数据集(图7)
图7单细胞表观基因组学分析流程
单细胞表观基因组的应用
单细胞技术为研究各种生物过程和基因调控模式提供了前所未有的机会。将这些单细胞技术应用于不同的生物系统,有助于在单细胞水平上发现细胞分化事件和疾病发生机制。这些单细胞表观基因组测序方法已在许多领域得到采用。
一、早期胚胎发育
在配子发育和胚胎发生的早期阶段,细胞在表观基因组上经历了显著且剧烈的变化和重编程,这导致了细胞分化和细胞表型的多样性。因此,胚胎干细胞被广泛用作发展单细胞表观基因组测序技术的实验材料。
Zhu等(2018)利用scWGBS技术,对人类着床前胚胎进行了研究,揭示了小鼠着床前胚胎中存在三波全球性去甲基化现象。这一发现表明,在全球去甲基化和剧烈再甲基化之间存在动态平衡,这一平衡发生在着床前发育过程中。随后,Li等(2018)进一步应用scCOOL-seq技术,对人类着床前发育的六个阶段进行了深入分析。他们发现,多能性主TF结合区域以及近端和远端核小体缺失区域主要富集在染色质可及性变化最大的基因组区域。此外,他们还发现,与小鼠相比,人类合子在卵母细胞中对母体基因组的染色质访问减少,并且在四细胞阶段之前父本等位基因之间的平衡被延迟,这表明染色质可及性具有物种特异性特征。Argelaguet等(2019)则对小鼠原肠发育阶段进行了scNMT-seq研究,发现承诺成为中胚层和内胚层的细胞在增强子标记处经历了广泛的协调表观遗传重排。这些重排是由ten-eleven translocation(TET)介导的去甲基化和伴随的染色质可及性增加所驱动的。此外,他们还发现在早期上胚层中,外胚层细胞的甲基化和可及性景观已经建立。
这些研究揭示了表观基因组如何影响细胞分化和谱系承诺。未来,使用单细胞多组学技术对细胞群体进行的研究将使我们有机会理解协调的表观基因组重编程过程,这有可能改变我们对细胞命运决定的理解,并惠及干细胞生物学领域。
二、肿瘤免疫学
肿瘤中恶性和非恶性细胞共存,这是一个高度异质的结构。这两种类型的细胞在癌症的发展中都扮演着关键角色。正在开发单细胞表观基因组测序方法,以帮助从肿瘤的复杂性中区分出对癌症进程有贡献的非遗传因素。
Satpathy等(2019)对接受PD-1阻断治疗的基底细胞癌(BCC)患者的原发性肿瘤活检样本应用了scATAC-seq。他们研究了对治疗有反应的T细胞亚群的染色质调节因子,并观察到一个共同的调控途径,该途径控制着CD4+ T滤泡辅助细胞的发展和肿瘤内CD8+ T细胞耗竭。不仅免疫细胞通过单细胞表观基因组测序进行研究,恶性细胞在肿瘤微环境(TME)中也表现出异质性。Meir等(2020)使用scRNA-seq和甲基化组分析表明,不同类型的癌细胞具有克隆稳定的表观遗传记忆。此外,他们发现DNA甲基化景观反映了一个独立的类时钟甲基化丧失机制,同时与通过转录组分析在克隆性结癌细胞群体中识别的上皮-间充质转化(EMT)身份相关联。Wu等(2021)使用scCUT&Tag来表征脑肿瘤患者在治疗前后的H3K27me3。他们在原发性样本和治疗后对脑肿瘤H3K27me3进行了分析,并在TME中发现了各种细胞类型和多梳组活性的异质性。
表观遗传机制对于肿瘤细胞和免疫细胞之间的相互作用至关重要。理解免疫细胞和肿瘤细胞中表观遗传修饰的基本过程为药物和免疫治疗技术的开发铺平了道路。
三、神经生物学
理解大脑的正常功能以及功能障碍和疾病的机制,需要我们更好地了解细胞组成。Lake等(2018)在单细胞水平上检测了成人大脑中的转座子超敏感位点。他们鉴定了成人大脑皮层和小脑半球中的细胞亚群,并利用表观基因组数据将遗传风险变异与细胞类型特异性的cCREs联系起来。在一组认知健康的人群中,Corces等(2020)检查了不同成人大脑区域的单细胞染色质可及性景观和三维染色质相互作用。他们创建了一个机器学习分类器,将这个多组学框架纳入其中,并预测了帕金森病和阿尔茨海默病的几个功能性SNPs(单核苷酸多态性)。Yang等(2023)在不同发育阶段对猪海马体的单核可及性染色质景观进行了分析,揭示了转座元件在细胞类型特异性可及性染色质区域的显著富集。这项研究有助于加深我们对人类神经退行性疾病的理解。未来在单细胞水平上的研究将非常引人入胜,特别是在检查表观基因组的动态调控,特别是在学习和记忆过程中依赖于神经元活动的基因组变化。
总结
在本章中,总结了单细胞表观基因组测序的技术、计算方法和应用。单细胞测序技术的最新应用将研究范围扩大到了生物过程和疾病。尽管存在一些局限性,但这些方法之前已证明其在阐明复杂组织的各个部分和揭示新见解方面是有效的。未来具有更高覆盖率和灵敏度的测序技术以及专用、先进和完善的计算方法有望开启理解生物学的新时代,并为治疗疾病铺平道路。
参考文献:
Sun F, Li H, Sun D, et al. Single-cell omics: experimental workflow, data analyses and applications. Sci China Life Sci. 2025;68(1):5-102. doi:10.1007/s11427-023-2561-0