8, 注意溶剂扁平化方法得出的品质因子数值往往高得不真实 (通常数值超过0.7),但相角是否确实有改进, 这只能根据蛋白质电子密度图来判断(不能相信溶剂密度图)。
不对称单元(如非晶体学对称)中有几个拷贝的分子进行平均或不同晶型的分子平均,也可用于改进电子密度图。特别是不对称单元中有大量重复部分时可用一套低分辨率的相位作为起始点, 这样abinitio相位可逐渐扩展到全部原始数据(53)。这方法相当复杂,需要占用相当多的计算机时间,使用时要小心。实空间对称平均的最适方法可参见参考书54. 有兴趣的读者可从参考书42中了解到的成功结构解析(主要为病毒)的过程和详细的介绍,对于寡聚蛋白的经验可参阅在参考书40。
为进行实空间平均, 需要建立: 1, 非晶体学对称轴的取向及位置; 2, 非晶体学对称性所适用的区域边界。
起始的非晶体学对称轴取向的初始估计可从自身旋转函数获得,或根据重原子位置及现有的电子密度图中得出。所得的初始分子取向信息往往需要*初始图中非晶体学相关点电子密度间的相关系数的最大化来修正 (如需要的话, 在极低分辨率下开始以改善收敛半径。
相位扩展必须在倒易空间逐步进行,以我们的经验, 约为倒易格子单位三分之一的一系列连续步骤就可从G函数计算出适当的数值(42)。从8 ?到4 ?的分辨率壳层一般含有可确定二级结构位置的信息, 也是倒易空间一个难以正确确定相位的区域。
必须严格注意R因子(收敛后典型的平均R因子值在12-20%之间)及相关系数, 最后检查电子密度图以监测进程。
7. 电子密度图的解释
用平均品质因子大于或等于0.6计算得出的电子密度图的质量较好,一般可以看到:
1, 6 ?分辨率的电子密度图中可见分子轮廓, ?螺旋表现为棒状, ?折叠表现为片状;
2, 3 ?分辨率电子密度图中, 多肽链能完全显现, 氨基酸侧链清晰可见, 羰基的膨胀部显现出来(可确定肽平面的连接) ;
3, 2.5 ?分辨率电子密度图未知氨基酸序列时可正确辨认50%的侧链, 多肽主链上的羰基膨胀部清晰可见, 就象紧密结合的水分子一样;
4, 1.5 ?分辨率电子密度图单个原子几乎都可解决, 水结构很清晰; 5, 1.2 ?分辨率电子密度图可见到很多氢原子。
已知氨基酸序列时,可在3?的分辨率下(在3.5时,要特别好的电子密度图)将蛋白质结构的电子密度图转为结构模型。早期用堆积画在薄塑料片上的电子密度图以建立初始的肽链走向,但目前用于电子密度图解释的主要工具是计算机图象工作站,由于新的方法的发展,过去流行的―mini map‖也趋于消失。程序的应用可以自动获得电子密度图并可获得分子的框架, 然后与初始密度相联系, 在图象工作站上人工进行连接或改进,从而产生一个粗结构模型, 在此基础上进行详细的电子密度图解释或模型构建。从数据库中输入已知的蛋白质结构信息对迅速建立一个立体化学上的可信模型提供了进一步的强有力帮助,在电子密度图解释的初始阶段, 一定要建立氨基酸序列与电子密度区域间的对应关系。因此将数据库中与电子密度图内二级结构长度相应的?螺旋或?折叠添加在图中,这些二级结构将提供结构的基本骨架。对于一个高质量的电子密度图, 这些区域可作为锚点,进一步按顺序联系到一起,给出多肽链折叠的明确解释。同样,来自于数据库的已有?转角等的模板在此阶段可提供有力的立体化学准则, 特别是对那些建立模型不熟的人。遗憾的是联系二级结构区域的无规卷曲(通常是柔性较高的)与电子密度的对应性很差, 这经常成为结构中不能很好确定的部分。对于一个新构建的结构, 检查它是否合理,最简单而又重要的标准是多肽链折叠不能形成一个结,侧链电子密度与序列较为吻合。也可考察重原子位置在化学性质上是否合理;还可与同源结构相比较,考察其保守残基和二级结构单元的保守性;检查氨基酸类型的环境是否合理,如大多数疏水性的氨基酸应埋在蛋白质核内,这也是一个证明。结构模型的基础是电子密度图, 记住这一点很重要, 只有电子密度图才能给
出真正无偏向的信息,其后的所有东西都存在于其中。如果计算电子密度图没有重大错误的话,在这个阶段敏锐的意识可能是极其重要的。根据电子密度图中可清晰解释的区域构建部分结构(例如蛋白质结构域)可提供其余的相位信息。因而采用相位组合方法(见第八部分)可产生一个更易充分解释的电子密度图。电子密度图解释与修正交替使用已证明是一个很有价值的策略(如参考书58). 用分子置换法解出的结构必须特别小心,因为在这种情况下的电子密度图从来都是有偏差的。在整个分子置换过程中模型缺省部分(如辅因子)的电子密度图质量,提供了基于MR相位的电子密度图真实信息的客观测量。
8. 修正
修正可以极大地改善蛋白质结构的精度, 因此在蛋白质结构测定中,修正是必不可少的步骤。然而, 即使有严密的立体化学限制, 观察值对需修正的参数的比例还是太低 (表5), 低于3分辨率时,同时修正蛋白质全部原子(非氢原子)的xyz坐标及各向同性B因子是没有意义的。
表5:修正—观察结果与数的比例
分辨率? FMDV FMDV w/NCS TNF PPb βlac. 4.0 2.2 11.0 1.8 1.3 1.2 3.5 3.3 16.5 2.6 1.9 1.7 3.2 4.3 21.5 3.4 2.5 2.3 3.0 5.2 26.0 4.1 3.0 2.7 2.8 6.4 32.0 5.1 3.6 3.3 2.5 9.0 45.0 7.1 5.1 4.7 2.3 11.5 57.5 9.1 6.5 6.0 2.0 17.5 87.5 13.8 9.8 9.0 1.7 28.5 142.5 22.4 15.8 14.6 1.5 41.4 207.0 32.5 22.9 21.2
1.2 80.7 403.5 63.2 44.3 41.1 1.0 139.2 696.0 109.0 76.2 70.8
表中给出的数值是可观察的独立衍射数据数目(假定为100%)与每个不对称单元的非氢原子数目之比。因此表中数值4相对于对每个非氢原子的x, y, z坐标和温度因子B修正时每个参数一次观察结果。样例来自于我们的经验: FMDV(foot and mouth disease virus口蹄疫病毒)空间群I23, 含超过80%的溶剂及RNA; 含NCS的FMDV, 如上但有严格的非晶体学对称限制, 相应于不对称单元中附加的五重轴对称; TNF(肿瘤坏死因子)空间群P3121, 含65%溶剂;PPb(糖原磷酸化酶b)空间群P43212含50%的溶剂; βlac. (β内酰胺酶I)空间群C2, 溶剂含量低于50%.注意衍射数据与参数的比例独立于晶胞的对称性及蛋白质大小, 该比例受晶体内溶剂体积以及非晶体学对称的影响极大; 因此带NCS的FMDV3.0?时的比例比PPb1.5时的更好; 对于立体化学制约的修正(如X-PLOR, PROLSQ)情况有所改善, 因为含有多余的制约因素。最小二乘法的收敛半径相当小, 因而结构可能滞留在局部能量极小值的错误构象状态, 需要经常返回电子密度图进行手工模型重建。通过使用立体化学制约的分子动力学方法,以增加收敛半径, 一般R因子从48%降至25%时不需要任何手工干预。立体化学制约的分子动力学方法步骤如下:
1. 第一步能量最小化使新建结构消除总的空间障碍和不合理的立体化学等。
2. 第二步估算总的B因子。
3. 第三步将分子模型加热至2000或3000K以进行立体化学制约的分子动力学方法修正
4. 第四步冷却模型, 在给定的一段时间内,进行(如1ps)缓慢降温。 5. 第五步在新的结构基础上进行能量最小化修正。 6. 第六步限制性地修正各向同性B因子。
对于基于分子置换法基础上的模型, 高同源序列的区域 (如核心二级结构) 可认为是基本正确(对于主链原子在0.5?内), 采用上述方法修正时可对这些区域
作较强的制约。修正中要注意利用权重因子,使立体化学制约与衍射数据制约达到平衡。如可能的话, 非晶体学对称应作为一种制约(如在病毒结构中) 或限制因素。来自于晶体中大部分溶剂的散射显著影响了低分辨率数据的精度(在8 ?以下), 因此在把这些观察结果用于修正之前应进行溶剂校正。模型某些区域的多种构象(如一个小抑制剂的两种可能的取向)可按照电子密度图构建多重结构模型,并用当前的修正程序进行修正。这可能对高分辨率下蛋白质的适当描述较为重要。
近些年来,修正方法 (特别是立体化学制约的分子动力学) 降低晶体学R因子的能力开始被滥用,计算机承担了重建错误结构区域的很多工作, 但最终还得由晶体学家来确定其是否正确。最近人们发现,一些错误结构经立体化学制约的分子动力学修正后竟然给出―令人信服‖的R因子。对于任何一个新的蛋白质,一旦模型建立后其中的错误就不容易消除,因而初始模型应建立在尽可能好的MIR或MAD图上,使之从一开始就接近于正确的结构模型是非常重要的。遗憾的是, 对于MR模型, 从一开始就可能有错误存在, 而我们也知道它并不正确。错误的MR结果R因子可修正至30%或27%,当然, 大部分模型可能在R因子25%处需要一些修正。对于以MR为基础的模型, 分辨率的扩展 (如从2.5?到1.9?) 可在修正后大大改善电子密度图质量,这可能主要是由于结构振幅数据大量增加,使相位的质量提高。将当前修正的相位与初始相位相结合,解决以MIR或MAD相位为基础的结构测定中的位相bias问题已被证明是有益的(61,62)。
约缺(omit)图是揭示结构中的错误的最好的方法,但前提是要求没被约缺的结构大部分是正确的。最好的一类约缺图是约缺的那部分从没有包括在模型中(如辅因子或抑制剂), 这种区域的清晰密度特别可信, 尤其是以MR为基础的结构测定。
避免在结构修正过程中的出现灾难性的错误的要点如下 1, 用所有数据 (没有任何删除) 进行修正及计算R因子;
2, 严格应用立体化学制约 (与理想键长r.m.s.偏差必须小于0.02?); 3, 注意被修正参数与衍射数据的比例,不要在修正中加入过多的参数(参见表5);
4, 除非在较高的分辨率的情况下修正过程中的R因子很低, 不要冒然加入过多的水分子(然而这最终决定于相位的质量及电子密度图的清晰性);
5, 要保证结构模型中所有主链的Φ-Ψ角均符合期望的Ramachandran值; 6, 温度因子B的分布也必须合理,
如果上述条件均满足,则结构测定工作大功告成。赶快发表论文并请把你的坐标存入蛋白质数据库。这也是我们在结构测定中所遵循的原则。