山东农业大学学士学位论文
表1. BLAST程序: 程序 blastp blastn blastx 数据库 蛋白质 核酸 蛋白质 查 询 蛋白质 核苷酸 核酸(翻译) 蛋白质 核酸(翻译) 简 述 可能找到具有远源进化关系的匹配序列 适合寻找分值较高的匹配,不适合远源关系适合新DNA序列和EST序列的分析 适合寻找数据库中尚未标注的编码区 适合分析EST序列 tblastn 核苷酸(翻译) tblastx 核酸(翻译) BLAST对序列格式的要求是常见的FASTA格式。FASTA格式第一行是描述行,第一个字符必须是“>”字符;随后的行是序列本身,一般每行序列不要超过80个字符,回车符不会影响程序对序列连续性的看法。序列由标准的IUB/IUPAC氨基酸和核酸代码代表;小写字符会全部转换成大写;单个“-”号代表不明长度的空位;在氨基酸序列里允许出现“U”和“*”号;任何数字都应该被去掉或换成字母(如,不明核酸用“N”,不明氨基酸用“X”)。此外,对于核酸序列,除了A、C、G、T、U分别代表各种核酸之外,R代表G或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(带酮基);M代表A或C(带氨基);S代表G或C(强);W代表A或T(弱);B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、G、C、T中任意一种。对于氨基酸序列,除了20种常见氨基酸的标准单字符标识之外,B代表Asp或Asn;U代表硒代半胱氨酸;Z代表Glu或Gln;X代表任意氨基酸;“*”代表翻译结束标志。
BLAST的当前版本是2.0,它的新发展是位点特异性反复BLAST(PSI-BLAST)。PSI-BLAST的特色是每次用profile搜索数据库后再利用搜索的结果重新构建profile,然后用新的profile再次搜索数据库,如此反复直至没有新的结果产生为止。PSI-BLAST先用带空位的BLAST搜索数据库,将获得的序列通过多序列比对来构建第一个profile。PSI-BLAST自然地拓展了BLAST方法,能寻找蛋白质序列中的隐含模式,有研究表明这种方法可以有效的找到很多序列差异较大而结构功能相似的相关蛋白,甚至可以与一些结构比对方法,如threading相媲美。PSI-BLAST服务可以在NCBI的BLAST主页上找到,还可以从NCBI的FTP服务器上下载PSI-BLAST的独立程序
[12]
。
NCBI的BLUST网址是:http://www.ncbi.nlm.nih.gov/BLAST/。 下载BLUST的网址是:ftp://ncbi.nlm.nih.gov/blast/。
9
山东农业大学学士学位论文
下载FASTA的网址是:ftp://ftp.virginia.edu/pub/fasta/。 1.3.2多序列比对
顾名思义,多序列比对就是把两条以上可能有系统进化关系的序列进行比对的方法。目前对多序列比对的研究还在不断前进中,现有的大多数算法都基于渐进的比对的思想,在序列两两比对的基础上逐步优化多序列比对的结果。进行多序列比对后可以对比对结果进行进一步处理,例如构建序列模式的profile,将序列聚类构建分子进化树等等
[13]
。
目前使用最广泛的多序列比对程序是CLUSTALX。CLUSTALX是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。
CLUSTALX的程序可以自由使用,在NCBI的FTP服务器上可以找到下载的软件包。CLUSTALX程序用选项单逐步指导用户进行操作,用户可根据需要选择打分矩阵、设置空位罚分等。EBI的主页还提供了基于Web的CLUSTALX服务,用户可以把序列和各种要求通过表单提交到服务器上,服务器把计算的结果用Email返回用户。 CLUSTALX对输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。输出格式也可以选择,有ALN、GCG、PHYLIP和GDE等,用户可以根据自己的需要选择合适的输出格式。
用CLUSTALX得到的多序列比对结果中,所有序列排列在一起,并以特定的符号代表各个位点上残基的保守性,“*”号表示保守性极高的残基位点;“.”号代表保守性略低的残基位点
[14]
。
EBI的CLUSTALX网址是:http://www.ebi.ac.uk/clustalx/。 下载CLUSTALX的网址是:ftp://ftp.ebi.ac.uk/pub/software/。
1.4 研究目的和意义
基因分为外显子和内含子,真菌同一属不同种之间外显子具有高度的保守性,而内含子具有较大的差异。内含子是否与分类有关,我们通过对比五个与系统发育相关的基因在黑粉菌和炭疽菌之间的差异,来探究这个问题。
10
山东农业大学学士学位论文
2. 材料与方法
2.1实验材料:五对广泛用于真菌分类的基因gapdh、beta-tubulin、RPB1、EF、
RPB2,四个全基因组Ustilago maydis、Sporisorium reilianum、ch_genes、cg_genes。
2.2 实验工具:
National Center of Biotechnology Information(NCBI)、Blast、SIM4、clustalx、DNAMAN、UltraEdit、local database等生物信息学工具。
2.3 实验方法:
2.3.1从Google中下载全基因序列
方法:
首先进入Google的官网http://www.google.com.hk/,在查询框中分别键入Ustilago maydis genome,点击Google搜索,找到GenRE - MIPS Ustilago maydis DataBase,点击进入,然后选择FTP, 出现 ftp://ftpmips.gsf.de/fungi/Ustilago_maydis/,点击进入,选择Umaydis_contigs.fa,点击进入,即可下载得到Ustilago maydis的全基因序列其它序列的寻找同上
[15]
[15]
,
。
2.3.2 从GenBank中查找到五对与分类相关的基因序列
方法:
首先进入NCBI的官网http://www.ncbi.nlm.nih.gov/,在DNA & RNA中选择GenBank,在查询框中输入gapdh、beta-tubulin、RPB1、EF、RPB2五对保守序列,点击Search,然后逐一打开列表中选项,从中选择“published”,下载其基因序列
[16]
。
>Ustilago maydis gapdh
AGCATTCTGTGGACCTTCCCTGATTTCACTGCGCCAACCCACCAGCCTTGTTCGCTCGACTTTCCCATCCATTGGAGCCTGCAAGTGCTTGGCCTTGGTCTTGACCTTGATTGATCATCGTGCCCCTGCCACGCCATCGAAACGAGCGGCGTTGTAGGCTCTACTTCTCCCTCGCTGAAGATGGCGATGAGTCTCGCCGAGTGTCCCTTCGGTGTTGCCGAGAGTCTTCTCGTTGTTGTTTTTACGACAGTGAGCAATCGAAGGGACCAACTTTGGTCTGATTCAAGACGGCAGAAGTTCCGTTCCAATCAAAAAAGGCAACGGCCTTGATCAGTGTAAGCAAGCCTCGGAGGGATTGAATTCTGACCTTCTTCTATCTCTGCTGTGCACCTTGATCCTCGCAGCTTCGGTCGTATCGGACGTATCGTCTTCCGTAACTCGGTCGTCCACAACACGGCCAACGTCGTTGCCATCAACGACCCCTTCATTGACCTAGAATACATGGTGTACATGCTCAAGTACGACTCCACCCACGGTGTCTTCAACGGTGACATCTCCACCAAGGATGGCAAGCTCATTGTTAACGGCAAGTCGATCGCTGTCTTCGCCGAGAAGGACCCCTCCAACATCCCCTGGGGTCAGGCTGGTGCCCACTACGTTGTCGAGTCCACCGGTGTCTTCACCACCATTGACAAGGCCTCGGCCCACATCAAGGGTGGTGCCAAGAAGGTCGTCATCTCGGCTCCCTCGGCTGACGCCCCTATGTACGTCTGTGGTGTCAACCTTGACG
11
山东农业大学学士学位论文
CCTACGACCCCAAGGCCCAGGTCGTCTCGAACGCCTCATGCACCACCAACTGCCTTGCTCCC
>Botryosphaeria dothidea beta-tubulin gene
ACCAAATCGGTGCTGCTTTCTGGTTTGTTGCCAAAACACCCGCTCCCGCGCCCCCGCTAACGCGAATCGACACCACAGGCAGACCATCTCCGGCGAGCACGGCCTGGACGGCTCTGGCGTGTAAGTCTGCATCATTCTCAGCGTGGGAGAACATCAATGACTAAACTGTAGCAGCTACAATGGCACCTCGGACCTTCAGCTCGAGCGCATGAACGTCTATTTCAACGAGGTACTCTCTCACTAATTAGACAAACACGTAAAGTATGGCAATCTTCTGAACGCGCAGCAGGCGTCCAACAACAAGTACGTTCCTCGTGCCGTCCTCGTCGACCTCGAGCCCGGCACGATGGATGCCGTCCGCGCCGGCCCCTTCGGCCAGCTTTTCCGCCCCGACAACTTCGTCTTCGGTCAGTCCGGTGCCGGTAACAACTG
>Botryosphaeria dothidea RPB1
GAGTGTCCGGGGCATTTCGGACACATCGAGTTGCATACCCCCGTCTTCCACGCCGGTGAGTAAGCCAGGAAATGAAATTTGTGGATTTCACTGATTTTTCTGTAGGTTTCATCAACAAAATCAAGAAGCTTCTTGAGTGTGTGTGCCACAATTGTGGCAAAATCTTAGCAGACGAAGTTAGTCGTCCTTGGGGGATGACGGCCTTTGTTGTTTGCTCGTGCTGACGCGTATTCTAGTCTGAGCAACAGTTCAAGGACGCCCTAAGGTTACGAGACCCGAAGAAGCGCTTCGAAGCCATATGGAAGGTCTGCAAGCCTAAGGCTGTCTGTCAGATGGACCAACCCTCAGACGATTACGATGCCGGAGCTCAGAAGAACAAGAAGCCCCAGATCCAACACGGCGGATGCGGCAACCGCCAGCCAGAGCTTCGAAAGGACGGCTTGAAACTCGTTGGAACCTGGAAGCCTCAGAAGGGAGAAGATGAAGAGGAGGCGCGCCAGCCGGAGAAGCGCGTCATCAAGCCCCAGGACGTGCTTAACATTTTCAAATTGATCACCGACGAGTCCCTCGTCACCCTGGGCTTGAACGTCAACTTCGCCAGGCCTGAGTGGATGGTCATCACCATGCTGCCCGTGCCGCCTCCTCCTGTCAGGCCTAGTATCTCCGTCGACGGTACTGGACAAGGCATGCGCGGTGAGGATGACTTGACCTACAAGCTCGCTGATATCATCCGTGCCAACGCTAGCATCAAGCGCTGTCACACTGAGGGTGCTGCGCAGCACGTCATCGATGACTTCGAGGTGCTTCTCCAGTGGCACGTAGCAACTTACATGGACAATGACCTTGCCGGTCAACCTCAGGCTCAGCAGAAGTCTGGTAGGGCTTTGAAGACTATTCGTGGTCGTTTAAAGGGCAAGGATGGTCGTCTCCGTGGAAACTTGATGGGCAAACGTGTAGATTTCTCCGCACGTACTGTCATTACTGGTGATCCCAACCTGGATCTGGACGAAGTCGGTGTTCCGCGATCCATTGCTAGGACTTTGACATATCCCGAGACGGTCACCCCGTACAACATTGCGAAGCTCCACGAGCTCGTCAAGAACGGCCCCAACGAGCACCCTGGTGCCAAGTACATCATTCGTGACGATGGCACGCGTATCGACCTTCGTCACCACAAGCGCGCCGGCGAAATCCAGCTTGCTTATGGTTGGAAGGTCGAACGTCAC
>gi|319976285|gb|HQ599375.1| Massaria vomitoria voucher WU 30606 translation elongation factor-1 alpha (EF1a) gene, partial sequence
TAAGCGGCTTTTTCCTTTGAGCATTGGGGCGGCGGGCGCTACAGGGCGGCGGCTGCAATTTTGGCTTATCGCACTGAGGGGCATTTTGGGCCGTGGTGGGGTGTGGAAATTTTCCACGCTAGTCCGCTTCGGGCCCTCGGCAAAGACACACCATGACGCGCGCTCCACCGCCCCTCAGGCGTCGGTGCATGGTCGCCTCACGGTCTCCTCATGGCCGCCTCGTGGCCACGCTGGCCGCCGGCTCTTGCAACACGATGCTAACGCCCTCGCCAGGAAGCCGCCGAACTCGGCAAGGGTTCCTTTAAGTACGCCTGGGTGCTCGACAAGCTCAAGGCCGAGCGTGAGCGTGGTATCACCATCG
12
山东农业大学学士学位论文
ACATTGCCCTCTGGAAATTCGAAACCCCGAAGTACTATGTCACCGTCATTGGTAAGTCGTGCTGCACTGCTGCCCTGTCGCCCCGGCCTCGTGCTGACGCCTCGCAGACGCCCCCGGTCACCGTGACTTCATCAAGAACATGATCACGGGTACCTCGCAGGCCGACTGTGCTATTCTCATCATCGCCGCTGGAACTGGTGAGTTCGAAGCCGGTATCTCCAAGGATGGCCAGACGCGTGAGCACGCCCTGCTTGCCTACACGCTCGGTGTCAAGCAACTCATCGTCGCCATCAACAAGATGGACACCACCAAGTGGTCTGAGGAGCGTTACAACGAAATCATCAAGGAGACGTCCAACTTCATCAAGAAGGTCGGCTACAACCCCAAGACCGTCCCCTTCGTCCCCATCTCCGGCTTCAACGGTGACAACATGATCGATGCCTCGAGCAACTGCCCCTGGTACAAGGGCTGGGAGAAGGAGACCAAGACCAAGTCTACTGGTAAGACGCTCCTGGAGGCCATCGACAGCATCGACCCCCCGTCCCGTCCCTCTGACAAGCCCCTCCGTCTGCCCCTCCAGGATGTGTACAAGATCGGTGGTATTGGCACGGTCCCCGTCGGCCGTGTCGAGACTGGTGTCATCAAGGCCGGTATGGTCGTCACCTTCGCCCCCGCTGGTGTCACCACGGAAGTGAAGTCGGTTGAGATGCACCACGAGCAGCTCGTCGAGGGCCTTCCCGGTGATAACGTCGGCTTCAACGTCAAGAACGTCTCCGTCAAGGAGATCCGCCGTGGTAACGTTGCCGGTGACTCCAAGCAAGACCCCCCCAAGGGCTGCGAGTCTTTCAACGCCCAGGTCATTGTCCTCAACCACCCTGGCCAGGTCGGTGCTGGTTACGCTCCCGTCTTGGATTGCCACACTGC
>gi|319976383|gb|HQ599466.1| Massaria vomitoria voucher WU 30606 RNA polymerase II second largest subunit (RPB2) gene, partial cds
CTTGCCGGGTCATTGATTGCCAATCTGTTCCGAATCCTGTTCCTCAAACTGACAAAGGACATGTACAAATACCTTCAGAGGTGCGTCGAGAACAACGCGGATTTCAATGTGCAAATGGCTGTAAAAGCCAGTATAATCACGAACGGTCTGAAGTATTCATTGGCGACTGGAAATTGGGGCGACCAGAAGAAGGCAGCCTCCTCCAAGGCGGGTGTATCCCAGGTGCTTAATCGTTACACCTATGCCTCGACTCTATCTCATCTCCGCCGGACAAACACCCCTGTCGGTCGTGACGGCAAGCTTGCAAAACCCCGCCAGTTGCACAACACTCATTGGGGCCTGGTGTGCCCCGCAGAGACACCAGAAGGACAAGCCTGCGGCTTGGTGAAGAACCTGTCATTAATGTGCTACGTTAGCGTTGGGTCTGAAAGCACGCCTATCACGGATTTTATGAGCCAGAGGAACATGGAGCTTCTCGAAGAGTACGACCCGACTTTGAATCCTACGGCCACCAAAGTTTTCGTCAATGGCGTCTGGGTGGGTGTACACTCACAACCGTCACAACTTGTGAGCGTTGTGCAGGAACTCCGGCGAAACGGCACGCTTTCTTATGAGATGAGTCTTGTCCGAGACATCCGCGATCGCGAATTCAAGATTTTCACCGATGCCGGACGTGTCATGAGACCCTTGTTCGTTGTTGACCAAAATAACACCAACCCGAACACAGGAGGCCTTGTTCTCGGCAGGAATCATATTGACAGGCTCAACAAGGATAAAGAAATTGATACCCAAGGCATGAGCGATGAGGACGCTGCAACTATGAAGTACGGATGGAGGGGGCTCATCAACGATGGTGTCGTCGAATATGTCGACGCTGAAGAGGAAGAGGCCGCTATGATCGTCATGTCTCCAGAGGATCTAGAGGACCACCGTGCCTTGAAACATGGAGAAAAGGTCGAGCAAGAGGCTGGCGGCGATCCCCATAAGCGACTCAAACCACCCCCGAATCCAGCTGTCAAGGCATACACCCACTGCGAGATTCATCCAAGTATGCTTCTCGGAATCTGTGCCAGTATCATTCCCTTCCCAGACCACAACCAGTCTCCTCGTAACACGTACCAATCTGCT
2.3.3 通过blast进行分析
方法:
在c盘中,新建blast文件夹,把安装程序复制到此文件夹,点击运行。保留新
13