将测序结果提交到GeneBank中进行blastn(http://www.ncbi.nlm.nih.gov/BLAST)比对,lovE和mkH分别与GeneBank中登录号为AF141925.1和DQ176595.1(分别编码Aspergillus terrus调控蛋白和Monascus pilosus转录因子)的相似性达到99. 9%和100%,表明克隆片段应为洛伐他汀合成酶调控基因。且lovE基因长1 512 bp,编码503个氨基酸,不含内含子结构;而mkH基因长1 464 bp,编码455个氨基酸,且含有一长为96 bp的内含子。
将两基因的测序结果递交DNAMAN软件进行同源性分析比对,两基因相似性较高(核酸序列一致性identity达到67.92%),而将其对应编码的氨基酸序列比对,氨基酸序列一致性identity达到60. 59%,说明了洛伐他汀合成酶调控基因在属间也具有较高的同源性和保守程度。BLASTn比对中得知存在高度相似性(identities分别为67%和74%)。
测序结果的氨基酸序列提交到SWISS?PROT数据库通过实用ProtParam程序(http://www.expasy.ch/tools/protparam.html)输出lovE蛋白情况如下:氨基酸数503;分子量55427.3 Da;分子式C2394H3799N709O757S25;原子总数7 684;理论等电点6.08;脂肪族指数75.31;总平均疏水性-0.397。而mkH蛋白情况如下:氨基酸数455;分子量49305.6 Da;分子式C2139H3394N618O673S24;原子总数6 848;理论等电点5.86;脂肪族指数78.29;总平均疏水性-0.296。
3.3.2 亚细胞定位分析 亚细胞定位研究(http://psort.nibb.ac.jp & http://www.bioinfo.tsinghua.edu.cn/SubLoc/)表明lovE和mkH蛋白未显示典型的N端信号肽区域,SubLoc分别以84%,94%的精确度和RI=3,5的可靠性指数预测两蛋白在核内。SignalP分析(http://www.cbs.dtu.dk/services/SignalP)预测结果显示两蛋白均非分泌蛋白,且存在信号肽的可能性分别为10.4%和0。
3.3.3 疏水性分析 疏水和亲水是氨基酸固有的特性,蛋白质结构的特征是疏水和亲水间的平衡,其结构的稳定在很大程度上有赖于分子内的疏水作用。疏水性预测和分析对于蛋白质次级结构的预测及功能分析都有较为重要的参考意义。将测序结果递交到服务器http://www.expasy.org/cgi?bin/protscale.pl采用kyte和Doolittle的方法得出两蛋白大部分氨基酸是亲水的,因此属于亲水蛋白。这也和signalP以及亚细胞定位分析预测结果一致为核内的非分泌蛋白,蛋白通过核孔复合体进入核内需要亲水基团的参与。
3.3.4 蛋白高级结构及功能分析 蛋白质通常含有一些结构域和特殊的保守位点,而这样的结构涉及某种进化起源或者负责特殊的功能。将测序结果递交到自动比较同源蛋白建模服务器SWISS (http://swissmodel.expasy.org/SWISS?MODEL.html)及PredictProtein(http://www.predictprotein.org/)对lovE和mkH编码氨基酸序列进行高级结构分析。再通过VAST Search Structure(http://www.ncbi.nlm.nih.gov/Structure/VAST/vastsearch.html)分析上述获得的pdb文件,其结果用Cn3D软件如图3所示:
图3 蛋白高级结构分析(A为lovE蛋白,B为mkH蛋白)(略)
Figure 3 Advanced structure analysis(A for lovE protein and B for mkH protein)
图3中两蛋白均具有Zn2Cys6双核簇合物的锌指结构DNA结合结构域,该保守结构域发现于如GAL4型的转录因子,曾在酿酒酵母中证实GAL4为半乳糖诱导的基因表达正调控子。此结构域由2个α螺旋环绕成富集半胱氨酸的锌指基序(参与Zn依赖性的DNA结合)并由无规则卷曲串联起来。该类结构域还涉及精氨酸、脯氨酸、嘧啶、奎尼酸盐、麦芽糖和半乳糖的代谢,以及酰胺和α氨基丁酸的降解与亮氨酸的生物合成等。