三、真核生物基因结构的预测分析
1、蛋白质理化性质分析
蛋白质理化性质是蛋白质研究的基础,分析包括分子质量、理论等电点(pI值)、氨基酸组成、原子组成、呈色反应、胶体沉淀、蛋白质的变形和复性、消光系数、半衰期、不稳定系数、脂肪系数和总平均疏水性等
分析工具:ProtParam 工具http://expasy.org/tools/protparam.html
ProtParam是基于蛋白质序列的组分分析,氨基酸亲疏水性等分析为高级结构预测提供参考
分析方法
(1)查找蛋白质的Swiss-Prot/TrEMBL AC号
蛋白质的Swiss-Prot/TrEMBL AC号可以在UniProt(http://www.ebi.ac.uk /uniprot/index.html)中查找。
UniProt是欧洲生物信息学研究所EBI 将3个蛋白质数据库(即PIR 、SWISS-PROT和TrEMBL)统一起来而建立了一个蛋白质数据仓库
在搜索框输入蛋白质名称(如Pichia pastoris Agglutinin-like protein 3)→Find
(2)如果需要分析的蛋白是SWISS-PROT和TrEMBL数据库中已收录的蛋白质,则在输入蛋白质的Swiss-Prot/TrEMBL AC号(accession number)→点击“Compute parameters”
(3)如果需要分析的是未知序列,则需在搜索框中粘贴氨基酸序列,返回结果即可
得出结果分析:
2、跨膜区分析
使用工具:TMpred
TMpred,它依靠一个跨膜蛋白数据库Tmbase(Hofmann和Stoffel,1993)。Tmbase来源与Swiss-Prot库,并包含了每个序列的一些附加信息:跨膜结构区域的数量、跨膜结构域的位置及其侧翼序列的情况。Tmpred利用这些信息并与若干加权矩阵结合来进行预测。
分析方法
Tmpred的Web界面十分简明。用户将单字符序列输入查询序列文本框,并可以指定预测时采用的跨膜螺旋疏水区的最小长度和最大长度。
得出结果分析:
输出结果包含四个部分:可能的跨膜螺旋区、相关性列表、建议的跨膜拓扑模型以及代表相同结果的图。
每种建议的模型都指出格区段起始和终止位点,及其相对膜的取向(由内到外inside-to-outside,或由外到内outside-to-inside)。算法恰当地指出这些模型基于假设全部跨膜区在预测中都被找到。因而这些模型应被看作是从该方法所得数据的角度出发所的结果。