1、下机数据处理
Iso-Seq采用PacBio SMRT测序技术,通过构建哑铃型文库,以环形方式循环测序。CCS序列是指测序次数达到两次以上,并且校正之后精确度满足一固定值以上的插入片段;FLNC(full-length non-chimeric)序列指满足两端引物,3’端poly-A尾均被完整测出且不存在序列嵌合的一类全长非嵌合CCS。
2、loci和isoform统计
根据每条FLNC的比对位置,可以进行基因座(loci)和转录本异构体(isoform)的鉴定。基因loci可以理解为基因在染色体上的一个特定区间位置。对确定为同一基因loci的转录本进行isoform鉴定。
3、可变剪接
基因的前体mRNA(pre-mRNA)通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一过程称为可变剪接(或者选择性剪接)(Alternative Splicing)。可变剪接类型包括:(A) 外显子跳跃;(B) 可变转录终止位点;(C) 可变外显子;(D) 可变转录起始位点;(E) 内含子保留。
4、融合基因检测
融合基因是指来自不同基因的两个片段被拼接在一起形成的新基因。导致两个基因发生融合的机制包括基因组结构变异、转座或者基因转录后的反式剪接等。
5、可变多聚腺苷酸化位点
pre-mRNA到成熟体mRNA的转录后加工修饰过程主要包括5’加帽子结构、3’加polyA tail、内含子剪接等。其中3’加poly-A的具体位置是可变的,称为可变多聚腺苷酸化位点(Alternative polyadenylation, APA)。这种变化可能会影响到microRNA或RNA结合蛋白跟mRNA的结合,也有可能改变影响RNA的剪接和翻译过程。