GENSCAN是进行基因预测的首选工具。但是,即使最好的预测软件也存在不足之处。GENSCAN就过分估算了基因数目。它的预测结果是人类基因组中有45,000个基因,相当于现在普遍认可数目的两倍。Burge承认GENSCAN确实存在问题,但他认为太多的基因总比太少要好。对于过剩的预测,用户可以积极去除假阳性的结果。Burge称:GENSCAN可能不能预测基因的准确数目,但从人类和其它物种的基因数据分析中所得到的新的序列,可以进一步完善GENSCAN。他还指出,如果能继续开展基因的探寻工作,他会更倾向于选用比较学的方法。 其他程序,如GeneSweep、Ensembl/Genewise,则是基于对数据进行组装来寻找基因。但是它们比早期的比较学方法更为成熟。Genewise是Birney和他的同事,从已知的蛋白质序列着手进行基因分析的程序。这些蛋白质都来自已知氨基酸序列的蛋白质家族,具有保守的DNA序列。蛋白质或多或少的相类似。利用这些蛋白质家族组装起来所形成的优势,计算机就能比较来自同种或不同个体已知的蛋白质序列和新的蛋白质序列。随着更多的物种基因组被测序,比较整个基因组,而不是比较那些相对短小的序列,正逐渐变为现实。Affymetrix公司的Kulp称:现在整合这些比较的方法来预测基因,已经成为最具应用前景的研究路线。并且众多的应用程序都融合了多元策略进行基因预测。 Gene Counts Program Prediction Ensembl/Genewise 24,500 Twinscan 25,600 GeneID 32,400 GENSCAN 45,000 表一:主流软件对人类基因数目预测 基因序列分析的主流软件 在一定的精度范围内,利用生物信息学的方法和软件对目标基因的基本特征进行分析,能够让分子生物学家更为迅速和全面地发现基因的特征,了解基因在生命体中的真实结构和功能,从而为大规模地开展基因的后续分析奠定基石。 核苷酸序列中蕴涵着丰富的信息,对于编码基因序列的分析,主要是围绕如下内容进行:寻找开放读码框、预测基因功能、分析选择性剪切方式、分析基因多态性位点、分析基因表达调控区域、统计序列GC含量、追踪密码子使用偏向性、设计应用于目的基因的酶切位点和引物等,寻找基因的开放读码框:基因的开放读码框(Open Reading Frame),包含从5’端翻译起始密码子(ATG)到终止密码子(TAA、TAG、TGA)之间的一段编码蛋白质的碱基序列。开放阅读框的预测程序主要是针对编码区的特征进行统计、以及相关模式的识别或是利用同源比对的识别方法。现在较为主流的程序是GetOrf、ORFFinder、Plotorf,就是专门识别ORF的有利工具。一些功能强大的软件如:GENSCAN、GRAIL = 2 \* ROMAN II、GENEMARK、GlimmerM除进行ORF的分子外,还可对多种基因的结构特征进行分析。专业人员常用的软件还有:Genefinder、Genehunter、FGeneSH、FGeneSB、FGeneSV、Generation、BCM Gene Finder、Genebuilder等。其中GlimmerM和FGeneSB更适与原核生物的基因预测。 外显子和内含子剪切位点的分析:在真核生物中基因的外显子和内含子长度不一,但剪切供体和受体的位点具有相当程度的保守性。所谓的供体位点(donor)是基因内含子5’端GU的位置;受体位点(acceptor)是内含子3’端AG的位置。对于mRNA或cDNA序列的分析是通过比对相关的基因组序列,来进行结构分析。例如,Spidey(是NCBI开发的工具软件),Sim4,BLAST等程序。NetGene2和Splice View可以提供编码区核苷酸序列剪切位点的直接预测。 分析基因的选择性剪切:基因的选择性剪切机制(Alternative splicing):真核基因转录成前体mRNA后,还要进一步改装成成熟的mRNA。许多基因并不是一次全部切除其内含子,而是在不同的细胞、或不同的发育阶段,选择性地剪切其内含子,从而生成不同的mRNA。随着数据库中数据信息的指数增加,目前运用生物信息学的工具对基因产物的选择性剪切,也能开展较为详尽的分析。众多的选择性剪切机制数据库,可利用http://scholar.google.com/进行在线搜索。较为流行的如:ProSplicer就是基于蛋白质、mRNA、EST序列的选择性剪切数据库。 (责任编辑:泉水) |