ExonSkipDB: functional annotation of exon skipping event in human
Abstract
在人类中,外显子跳跃事件是最常见的一种剪切事件,它通常会导致功能保守位点的缺失或者是ORF的偏移,最终导致多种疾病的产生。而迄今为止,基于癌症组织和正常组织来系统的、完整的注释人类中外显子事件,没有人做过。因此作者通过建立人类中外显子跳跃数据库,在外显子水平上,为研究多种癌症的治疗靶标提供功能注释和参考。作者从 TCGA 数据集和 GTEx 数据集中收集了33份癌症组织和31份正常组织数据,鉴定到了90616和89845个ES事件,对应于14272个基因。对于外显子跳跃事件,作者进行了多种功能注释,包括对ES事件产生的转录本的ORF预测,ES事件导致的蛋白功能丧失,ES事件与碱基突变、甲基化的关联。总的来说,ExonSkipDB数据库将会是用于研究癌症、药物发现的独特资源。
背景
逐渐累积的证据表明,可变剪切的破坏将会导致疾病的发生。在几种典型的剪切模式中,外显子跳跃是最常见的事件。由于ES将会导致保守功能域的丢失或者ORF的偏移,跳跃的外显子也被当做治疗的靶标。例如:
MET 基因第14个exon的skip导致E3 泛素连接酶不能结合,使得MET的表达水平增加,而MET表达的增加又驱动了癌细胞的扩增。
治疗方案:用络氨酸酶抑制剂的药物治疗MET第14个exon skip的患者
E3 泛素连接酶:蛋白降解系统里的一种酶
因此通过系统的鉴定和整合分析PAN-cancer和健康组织中的ES事件,将会为解析疾病的机理和发现新的靶标药物提供参考。
随着癌症基因组数据和其他生物数据指数级的增长,其中几个研究通过分析多个癌症中、组织特异性的AS,并且提供了web tools对AS的注释;但是这些研究仅仅只是关注在AS的鉴定以及isform 结构的可视化,并没有对AS的具体功能进行注释。因此作者就建立了ExonSkipDB数据库,为研究癌症、药物发提供参考。
数据库概括
通过使用ExonSkipDB,用户可以得到如下几方面的信息。
- 通过比较癌细胞与正常细胞中ES事件的PSI、isform丰度,能够发现潜在的癌症或者与癌症相关的特异性ES事件
- 分析大量ES事件的特征,更深层次的理解癌细胞ES事件中 功能缺失效应
- 对ES的exon进行ORF预测,分为能够反映的ES和不能翻译的ES;提供能够恢复蛋白功能的候选位点
- 由于甲基化参与到RNA聚合酶II转录延伸速率的控制,因此作者分析了剪切和甲基化之间的关联sQTM。
数据整合
从TCGA和GTEx数据集中下载了33种癌症类型和31中不同组织的正常组织,其中只有跳跃的那个Exon、上游Exon、下游Exon都保守的才被用于本次研究。
ORF注释
对于那些特异的Exon skip事件,作者检查主要isform对于的转录本序列,当跳跃的exon是位于编码区的内部,并且碱基数是3的倍数是,这种编码框没有偏移,而当跳跃的exon的碱基数是1或者2的倍数时,称作frame-shift
蛋白特征注释
6 molecule processing features, 13
region features, 4 site features, 6 amino acid modifcation
features, 2 natural variation features, 5 experimental info
features and 3 secondary structure features
鉴定与ES相关的突变
根据 Wimmer et al. and Anna and Monika 的研究表明,总共有5种剪切突变。其中就包括
- 外显子区域突变,导致剪切增强子被破坏
- exon-intron边界区域的剪切位点 突变
- 内含子区域分支位点 突变
- 内含子区域多嘧啶束 突变
- 内含子区域新的剪切位点的突变
在数据库中,由于作者用到的是全基因组外显子测序数据而不是全基因组测序数据,所有这里只分析外显子区域的突变,而导致的ES事件。
sQTL和sQTM分析
为了鉴定ES特定的QTL,作者使用TCGA中的sQTL数据,其中有来自于2254个ES基因的4124个SNP被鉴定到。
为了鉴定与ES相关的甲基化位点,作者使用线性回归对ES区域的甲基化程度进行计算,结合eQTL,计算了ES区域甲基化程度与上游区域甲基化程度的相关性。为了鉴定与疾病相关的sQTM,作者挑选出一些显著性的cis-sQTMs,运行生存分析,使用 Kaplan–Meier method and log-rank test 方法。
药物和疾病相关信息
从Drug Bank数据集中提取了药物靶标互作信息,其中重复的数据被剔除,并且系统的进行了分类编码。从gene-disease关联数据库中提取了疾病-遗传相关信息。
web界面和分析结果
1.ES结构浏览和与潜在疾病相关的特定ES
2.对单个ES进行ORF分析有利于筛选潜在的药物靶标
3.ES导致蛋白功能丧失的特征
4.非同义突变与ES的关联
5.ES与sQTL、sQTM
6.与ES相关的药物和人类疾病
参考
- ExonSkipDB: functional annotation of exon skipping event in human