Hi-C构建染色体水平参考基因组
Hi-C数据获得的基因间互作强度具有两个重要特征:
(1)同一条染色体内的基因互作(顺式互作)远高于不同染色体间的互作(反式互作);
(2)同一条染色体内部,两点间距离越远,互作强度越低。利用此特征可将原始contigs聚类、排序、定向,组装至染色体水平。
Hi-C技术组装染色体水平基因组原理
Hi-C构建染色体水平参考基因组的优势:
(1)Hi-C包含全基因组互作信息,序列挂载率更高,成本低,性价比高;
(2)无需群体,单个个体就能实现染色体构建,周期短;
(3)可对已经组装的基因组进行纠错。
Dudchenko等人利用Hi-C数据联合已有的埃及伊蚊基因组contigs数据,对其进行升级产生染色体级别的scaffold,最终得到3个scaffolds分别对应到3条染色体。
Hi-C构建埃及伊蚊染色体水平基因组结果
Hi-C研究基因组三维结构及互作调控机制
1、互作矩阵构建
将经过过滤后的数据(ReadsAfter Filtering)进行基因组不同分辨率的互作矩阵的构建。
全基因组互作图谱
2、距离-互作频率分析
分析全基因组上所有互作位点的互作强度(频率)与基因间线性距离的关系。
基因间距离与互作频率关系
3、Genomiccompartment结构分析
对校正后的互作矩阵进行主成分分析( PCA),根据第一主成分的值,区分得到两个区域,即“活跃”A区域和“非活跃”B区域,前者是指该区域内染色质结构较“开放”,基因整体趋向高表达,后者则反之。
基因组compartment分析
4、TAD结构分析
TAD (topologicallyassociating domains)即拓扑相关结构域,是指一段具有折叠结构的DNA序列,在图中表现为“方块”,此区域内部的互作频率会显著高于毗邻的两个区域之间的互作频率,TAD是基因组在空间结构中的基本组织形式,我们可以对校正后的互作矩阵进行分析,识别出TAD。
TAD鉴定分析
5、显著互作位点分析
对所有互作进行显著性检验,计算p、q值。结果中p-value及q-value均小于0.01的互作为显著互作。可对多个样本检测得到的显著互作位点进行比较和统计,鉴定差异互作基因。
显著互作位点(loop结构)分析
6、基因组三维结构模型重构
基于校正后互作矩阵,使用Pastis软件,以MDS模型构建染色体三维结构模型。
基因组三维结构模型构建
7、样本间拓扑相关结构域TAD的差异比较
样本间TAD比较
8、Hi-C与RNA-seq数据联合分析,研究基因互作与基因表达量的关系
基因组三维结构特征与基因表达水平高度相关
9、Hi-C与ChIP-seq数据联合分析,分析TAD边界处的表观修饰信息
样本间TAD边界的组蛋白修饰比较
10、Hi-C与WGS数据联合分析,分析DNA线性序列变异引起的三维结构改变
TAD结构中发生的DNA线性序列的变异
11、多组学数据联合分析表型产生的机制
采用Hi-C技术结合多组学数据已广泛应用于表型产生的机制研究中。如下图中(Hi-C联合WGS及RNA-seq),三个手指畸形的病人,其基因组中3个TAD内涉及到的4个基因发生了缺失、重复、倒位,这些染色体结构改变影响了TAD边界,造成异常的基因互作,改变了增强子的靶基因,使不同基因的异常表达分别导致了不同表型的产生。
疾病表型产生机制示意图
12、低起始Hi-C