能说明比对 的结果具有足够的统计学显著性,这样就排除了由于偶然的因素产生高比对得分的可能。
Genbank、SWISS-PROT等序列数据库提供的序列搜索服务都是以序列两两比对为基础的。不同之处在于为了提高搜索的速度和效率,通常的序列搜 索算法都进行了一定程度的优化,如最常见的FASTA工具和BLAST工具。FASTA是第一个被广泛应用的序列比对和搜索工具包,包含若干个独立的程 序。FASTA为了提供序列搜索的速度,会先建立序列片段的“字典”,查询序列先会在字典里搜索可能的匹配序列,字典中的序列长度由ktup参数控制,缺 省的ktup=2。FASTA的结果报告中会给出每个搜索到的序列与查询序列的最佳比对结果,以及这个比对的统计学显著性评估E值。FASTA工具包可以 在大多提供下载服务的生物信息学站点上找到。
BLAST是现在应用最广泛的序列相似性搜索工具,相比FASTA有更多改进,速度更快,并建立在严格的统计学基础之上。NCBI提供了基于Web的 BLAST服务,用户可以把序列填入网页上的表单里,选择相应的参数后提交到数据服务器上进行搜索,从电子邮件中获得序列搜索的结果。BLAST包含五个 程序和若干个相应的数据库,分别针对不同的查询序列和要搜索的数据库类型。其中翻译的核酸库指搜索比对时会把核酸数据按密码子按所有可能的阅读框架转换成 蛋白质序列。
表1. BLAST程序: 程序 blastp blastn blastx 数据库 蛋白质 核酸 蛋白质 查 询 蛋白质 核苷酸 核酸(翻译) 蛋白质 核酸(翻译) 简 述 可能找到具有远源进化关系的匹配序列 适合寻找分值较高的匹配,不适合远源关适合新DNA序列和EST序列的分析 适合寻找数据库中尚未标注的编码区 适合分析EST序列 tblastn 核苷酸(翻译) tblastx 核酸(翻译)
表2. BLAST的蛋白质数据库: 数据库 简 述 nr month swissprot pdb yeast E.coli Kabat alu 汇集了SWISS-PROT,PIR,PRF以及从GenBank序列编码区中得到蛋白质和PDB中拥有原子坐标的蛋白质,并去除了冗余的序列 nr中过去30天内的最新序列 SWISS-PROT数据库 PDB结构数据库中的蛋白质序列 酵母基因组中编码的全部蛋白质 大肠杆菌基因组中编码的全部蛋白质 Kabat的免疫学相关蛋白质序列 由REPBASE中的Alu重复序列翻译而来,用来遮蔽查询序列中的重复片段
表3. BLAST的核酸数据库:
数据库 nr month dbest dbsts htgs yeast E.coli pdb kabat 简 述 非冗余的GenBank+EMBL+DDBJ+PDB序列,除了EST、STS、 GSS和0,1,2阶段的HTGS序列 nr中过去30天的最新序列 非冗余的Genbank+EMBL+DDBJ+PDB的EST部分 非冗余的Genbank+EMBL+DDBJ+PDB的STS部分 0,1,2阶段的高产量基因组序列(3阶段完成的HTG序列在nr库酵母的全基因组序列 大肠杆菌的全基因组序列 由三维结构库来的核酸序列 vector mito alu gss Kabat的免疫学相关序列库 Genbank的载体子集 线粒体核酸序列 REPBASE中Alu重复序列翻译而来,用来遮蔽查询序列中的重复片段 基因组勘测序列(Genome Survey Sequence) BLAST对序列格式的要求是常见的FASTA格式。FASTA格式第一行是描述行,第一个字符必须是“>”字符;随后的行是序列本身,一般每行序 列不要超过80个字符,回车符不会影响程序对序列连续性的看法。序列由标准的IUB/IUPAC氨基酸和核酸代码代表;小写字符会全部转换成大写;单个 “-”号代表不明长度的空位;在氨基酸序列里允许出现“U”和“*”号;任何数字都应该被去掉或换成字母(如,不明核酸用“N”,不明氨基酸用“X”)。 此外,对于核酸序列,除了A、C、G、T、U分别代表各种核酸之外,R代表G或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(带酮基);M代表A或 C(带氨基);S代表G或C(强);W代表A或T(弱);B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、G、C、 T中任意一种。对于氨基酸序列,除了20种常见氨基酸的标准单字符标识之外,B代表Asp或Asn;U代表硒代半胱氨酸;Z代表Glu或Gln;X代表任 意氨基酸;“*”代表翻译结束标志。
BLAST的当前版本是2.0,它的新发展是位点特异性反复BLAST(PSI-BLAST)。PSI-BLAST的特色是每次用profile搜索数据 库后再利用搜索的结果重新构建profile,然后用新的profile再次搜索数据库,如此反复直至没有新的结果产生为止。PSI-BLAST先用带空 位的BLAST搜索数据库,将获得的序列通过多序列比对来构建第一个profile。PSI-BLAST自然地拓展了BLAST方法,能寻找蛋白质序列中 的隐含模式,有研究表明这种方法可以有效的找到很多序列差异较大而结构功能相似的相关蛋白,甚至可以与一些结构比对方法,如threading相媲美。 PSI-BLAST服务可以在NCBI的BLAST主页上找到,还可以从NCBI的FTP服务器上下载PSI-BLAST的独立程序。
NCBI的BLUST网址是:http://www.ncbi.nlm.nih.gov/BLAST/。 下载BLUST的网址是:ftp://ncbi.nlm.nih.gov/blast/。 下载FASTA的网址是:ftp://ftp.virginia.edu/pub/fasta/。
3.2 多序列比对
顾 名思义,多序列比对就是把两条以上可能有系统进化关系的序列进行比对的方法。目前对多序列比对的研究还在不断前进中,现有的大多数算法都基于渐进的比对的 思想,在序列两两比对的基础上逐步优化多序列比对的结果。进行多序列比对后可以对比对结果进行进一步处理,例如构建序列模式的profile,将序列聚类 构建分子进化树等等。
目前使用最广泛的多序列比对程序是CLUSTALW(它的PC版本是CLUSTALX)。CLUSTALW是一种渐进的比对方法,先将多个序列两两比对构 建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序 列并不断重新构建比对,直到所有序列都被加入为止。
CLUSTALW的程序可以自由使用,在NCBI的FTP服务器上可以找到下载的软件包。CLUSTALW程序用选项单逐步指导用户进行操作,用户可根据 需要选择打分矩阵、设置空位罚分等。EBI的主页还提供了基于Web的CLUSTALW服务,用户可以把序列和各种要求通过表单提交到服务器上,服务器把 计算的结果用Email返回用户。
CLUSTALW对输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、 GCG/MSF、RSF等格式。输出格式也可以选择,有ALN、GCG、PHYLIP和GDE等,用户可以根据自己的需要选择合适的输出格式。
用CLUSTALW得到的多序列比对结果中,所有序列排列在一起,并以特定的符号代表各个位点上残基的保守性,“*”号表示保守性极高的残基位点;“.”号代表保守性略低的残基位点。
EBI的CLUSTALW网址是:http://www.ebi.ac.uk/clustalw/。 下载CLUSTALW的网址是:ftp://ftp.ebi.ac.uk/pub/software/。 4 核酸与蛋白质结构和功能的预测分析
人 们获得各种核酸和蛋白质序列的目的是了解这个序列在生物体中充当了怎样的角色。例如,DNA序列中重复片段、编码区、启动子、内含子/外显子、转录调控因 子结合位点等信息;蛋白质的分子量、等电点、二级结构、三级结构、四级结构、膜蛋白的跨膜区段、酶的活性位点、以及蛋白质之间相互作用等结构和功能信息。 虽然用实验的方法是多年以来解决这类问题的主要途径,但新的思路是利用已有的对生物大分子结构和功能特性的认识,用生物信息学的方法通过计算机模拟和计算 来“预测”出这些信息或提供与之相关的辅助信息。由于生物信息学的特点,可以用较低的成本和较快的时间就能获得可靠的结果。近
10年来生物学序列信息的爆 炸性增长大大促进了各种序列分析和预测技术的发展,目前已经可以用理论预测的方法获得大量的结构和功能信息。要注意的是,尽管各种预测方法都基于现有的生 物学数据和已有的生物学知识,但在不同模型或算法基础上建立的不同分析程序有其一定的适用范围和相应的限制条件,因此最好对同一个生物学问题尽量多用几种 分析程序,综合分析各种方法得到的结果和结果的可靠性。此外,生物信息学的分析只是为生物学研究提供参考,这些信息能提高研究的效率或提供研究的思路,但 很多问题还需要通过实验的方法得到验证。
4.1 针对核酸序列的预测方法
针 对核酸序列的预测就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。在此过程中,确认一段DNA序列是一个基因 需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DNA片段的假想产物与某个已知的蛋白质或其它 基因的产物具有较高序列相似性的话,那么这个DNA片段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏好性”,也 是说明这段DNA是蛋白质编码区的有力证据;其它的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。一般而言,确定基因的位置和结构需要多个方法综合运用,而且需要遵循一定的规则:对于真核生物序列,在进行预测之前先要进行重复序列分 析,把重复序列标记出来并除去;选用预测程序时要注意程序的物种特异性;要弄清程序适用的是基因组序列还是cDNA序列;很多程序对序列长度也有要求,有 的程序只适用于长序列,而对EST这类残缺的序列则不适用。 1. 重复序列分析
对 于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是 涉及数据库搜索的程序。常见的重复序列分析程序有CENSOR和RepeatMasker等,可以在Web界面上使用这些程序,或者用Email来进行。 如果有大量序列需要处理,可以使用XBLAST程序,它可以从Internet上下载得到。XBLAST中以及包含了由程序作者收集整理的一些重复序列, 此外还可以从Repbase中找到更多的重复序列。还可以把克隆载体也加入重复序列中,这样就可以在处理重复序列时顺便把克隆载体也一同除去。经处理的序 列中重复序列所在位置会一律由“X”代替。
CENSOR和Repbase的网址是:http://www.girinst.org/。 CENSOR的Email服务地址是:censor@sharon.lpi.org。 RepeatMasker的网址是:
http://ftp.genome.washington.edu/cgi-bin/RepeatMasker。 下载XBLAST的网址是:ftp://ncbi.nlm.nih.gov/pub/jmc。