http://www.ncbi.nlm.nih.gov/projects/gorf/orfig.cgi 参数选择:Genetic Codes:1 Standard 对蛋白质序列的结构功能域分析
运用简单模块构架搜索工具(Simple Modular Architecture Research Tool,SMART)对manORF出的蛋白质序列进行蛋白质结构功能域分析。该数据库由EMBL建立,其中集成了大部分目前已知的蛋白质结构功能域的数据。[12]
网址如下:
http://smart.embl-heidelberg.de/
运用NCBI的BLAST程序再对此蛋白质序列进行rpsBlast分析 参数选择:Search Database:CDD v2.07-11937PSSMs Expect:0.01
Filter:Low complexity
Search mode:multiple hits 1-pass
同源物种分析
用DNAMAN软件将蛋白质序列与GHF5的?-甘露聚糖酶序列和GHF6的?-甘露聚糖酶序列序列比对,根据结果绘出系统进化树,并进行分析。
蛋白质一级序列的基本分析
运用BioEdit(版本7.0.5.3)软件对man ORF翻译的蛋白的一些基本性质,对分子量、等电点、氨基酸组成等作出分析。
二级结构和功能分析 信号肽预测
利用丹麦科技大学(DTU)的CBS服务器蛋白质序列的信号肽(signal peptide)预测,进入Prediction Serves 页面。 网址如下:
http://www.cbs.dtu.dk/services/SignalP/ 参数选择:
Eukaryotes;Both;GIF (inline);Standard; 疏水性分析
利用瑞士生物信息学研究所(Swiss Institute of Bioinformatics, SIB)的ExPASy服务器上的ProtScale程序[13]对ORF 翻译后的氨基酸序列做疏水性分析 网址如下:
http://us.expasy.org/cgi-bin/protscale.pl 参数选择:
Hphob. / Kyte & Doolittle
蛋白质溶解能力和PROSITE motif search 的分析
利用美国哥伦比亚大学(Columbia University)的PredictProtein服务器(PHD)[14]对ORF 翻译后的氨基酸序列通过发邮件的方式获得蛋白质溶解能力和PROSITE motif search 分析的结果。 网址如下:
http://cubic.bioc.columbia.edu/pp/submit_def.html 磷酸化位点分析
磷酸化和去磷酸化是细胞内信号传导的重要方式,利用丹麦科技大学(DTU)的CBS服务器上的NetPhos2.0 Server程序[15]
做磷酸化位点分析。NetPhos2.0 Server程序是基于神经网络算法,对蛋白序列中的Ser、Thr和Tys三种氨基酸残基可能成为的磷酸化位点作出预测,
网址如下:
http://www.cbs.dtu.dk/services/NetPhos/ 跨膜区分析
蛋白质序列含有跨膜区提示它可能作为膜受体起作用,也可能是定位于膜的锚定蛋白或者离子通道蛋白等,从而,含有跨膜区的蛋白质往往和细胞的功能状态密切相关。[12]利用丹麦科技大学(DTU)的CBS服务器上的TMHMM Server v. 2.0程序进行蛋白序列跨膜区分析。 网址如下:
http://www.cbs.dtu.dk/services/TMHMM/ 参数选择:
Extensive with graphics 亚细胞定位
通过WoLF PSORT工具基于其氨基酸序列预测蛋白质亚细胞定位点 网址如下:
http://wolfpsort.seq.cbrc.jp/ 参数选择:
Fungi;From Text Area 二硫键分析
运用SCRATCH Protein Predictor 对蛋白质的二硫键做出分析。 网址如下:
http://www.ics.uci.edu/~baldig/scratch/index.html 参数选择:
Dlpro(Disulfide Bonds) 二级结构预测
运用PBIL LYON-GERLAND信息库对蛋白质序列进行二级结构预测(Secondary structure prediction),主要用Hopfield神经网络(HNN)预测。 网址如下:
http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_hnn.html
讨论与结果
从一株产?-甘露聚糖酶的新菌种A.tabescens EJLY2098获得的全长cDNA序列如下:
ACGCGGGGGAAAGATGCATCTGCTCGCTTTTCTGTCTCTGAGTACATTCCTGTGCTCTGCGTTCGC
TGCTGTTCCTGAGTGGGGCCAATGTGGCGGCATTGGATGGACAGGACAGACCACTTGCGTTAGTGGTACAGTATGCGCAGCTCTCAATGACTATTATTCTCAATGTGTGCCTGGAACGGCCACAACAACGGCCGCTCCCACGACTGCTACATCAACAACCATTTCTTCCACTTCTCGCACAACTGCTACGTCGACCACAGCTTCCGCACCATCTTCTACTGGCTTTGTAACTACCTCTGGCACAGAGTTCCGCCTCAACGGTGCCAAATTTACTATCTTCGGCGCCAACTCATACTGGGTCGGGTTGATGGGCTATAGCACTACAGATATGAATAAAGCCTTCGCAGACATCGCGGCTACAGGTGCCACCGTCGTCCGCACATGGGGCTTCAATGAGGTAACGAGTCCTAACGGGATTTATTACCAGAGTTGGTCCGGAAGTACACCAACTATCAACACAGGTTCTACGGGTCTTCAAAACTTTGATGCCGTCGTCGCTGCTGCTGCTGCACATGGCTTGAGGCTTATTGTTGCCATAACGAACAACTGGTCCGACTATGGTGGAATGGATGTATACGTTAACCAAATTGTCGGGTCTGGCTCTGCGCACGATTTATTCTATACCGACTGTGAGGTTATATCTACTTACATGAACTACGTCAAGACCTTCGTCTCGCGCTATGTGAACGAACCTACTATTTTAGGTTGGGAGCTTGCAAATGAACCTAGATGCAAGGGGAGTACCGGGACGACCTCTGGATCATGCACTGCAACGACTATCACAAAATGGGCCGCGGCAATTTCAGCGTACATCAAGTCGATCGATCCCAACCATCTTGTCGGGATAGGAGATGAAGGGTTCTACAATGAACCTAGCGCACCAACATATCCATATCAAGGTAGCGAAGGTATCGATTTTGATGCAAATTTGGCCATTAGTAGCATTGATTTCGGTACATTCCATTCCTATCCTATCAGCTGGGGTCAAACCACTGATCCTCAGGGATGGGGTACGCAATGGATCGCTGATCATGCAACGTCAATGACAGCTGCGGGAAAGCCCGTAATCTTAGAGGAGTTTGGAGTCACCACTAATCAAGCAACTGTTTATGGCGCCTGGTATCAGGAAGTTGTCTCTTCGGGTCTTACTGGTGCTCTTATTTGGCAAGCTGGTTCTTATTTATCATCCGGAGCTACTCCGGACGACGGATATGCAATTTATCCTGATGATCCTGTATATTCCCTGGAAACCTCCTATGCGGTTACATTGAAAGCGCGGGCGTAGGATAGGGTACAGAATAAATTTTGCTCCGATGTGGTACTGTAGCCGAGCGGCTTGACTATGTGAATAAAAATAGCACTGTTGTCACGATCGATCAACACCTAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA