60年代早期“分子进化钟”的发现与60年代末期 “中性理论”的提出是本世纪进化学的重大事件,是古老的进化学与新生的分子生物学两者“杂交”的产物。它们的相继问世极大地推动了进化尤其是分子进化研 究,填补了人们对分子进化即微观进化认识上的空白,并在生物医学等领域产生了广泛影响。
随着不同生物来源的大量蛋白质序列的确定,Zucherkandl等发现:某一蛋白在不同物种间的取代数与所研究物种间的分歧时间接近正线性关系,进而将分子水平的这种恒速变异称为“分子钟”。
支持进化钟存在的证据来自哺乳动物与其它脊椎动物诸如血清白蛋与转铁蛋白等的免疫学(如微量补体固定)定量比较。人们发现多肽间的免疫距离(如抗原性)与 其氨基酸取代百分数成良好的线性相关,如鸟溶菌酶、哺乳动物RNase、细胞色素C与白蛋白、大肠杆菌色氨酸合成酶等。虽然这种相关性的分子基础尚不清 楚,但这种客观存在经过反复验证后是不容置疑的。免抗血清由此成为初步估算球形单体蛋白间序列差异的有效工具,但其适用范围0-30%的氨基酸差异。
自从进化钟假设提出之后,存在许多反驳它的相反事实与异议。这些异议主要针对序列进化的恒速。分子进化钟的最明显的例外之一是分子序列证据与化石证据在人 类起源时间上的差异。60年代中期,许多人类学家认为人类在3000年前与我们最近的亲属-- 非洲猿分歧。根据分子钟假设,分歧3000万年的物种氨基酸序列差异的应达4-5%、非重复序列DNA差异应约为8%,但实测值分别为0.8%与 1.1%。对这种6倍左右的差别有两种解释。许多人类学家倾向于怀疑钟的存在,并认为在高等灵长类中分子进化速率下降。总之,虽然大部分分子进化学家同意 序列进化与分歧时间密相关,但进化是以年限还是以代限为刻度则仍有分歧与争议;而且因为纵多因素的影响,与进化钟相左的数据,无论是用氨基酸、核苷酸序列 差异、免疫学距离,还是用DNA杂交复性等参数,均不断有所报道,其论争预计将继续下去。
. 自从60年代初发现分子进化钟--“分子进化速率在不同种系中恒定”以来,人们又陆续发现蛋白质中氨基酸的置换是随机而非模式性的;DNA在哺乳动物种系的总变异速率远远高于形态上的变异速率并远远超出人们的预期的大于0.5核苷酸/ 基因组/ 年;蛋白质电泳表明物种内存在大量的变异即广泛的种内多态性,且这些多态性并无可见的表型效应,与环境条件亦无明显相关。以上这些都是新达尔文主义与综合进化理论所难以解释的。
面对上述问题,日本群体遗传学家木村资生(Motoo Kimura)提出:(1) 进化过程中的核苷酸置换其绝大部分是中性或近似中性的突变随机固定的结果而不是正向达尔文选择的结果:(2) 许多蛋白质多态性必须在选择上为中性或近中性,并在群体中由突变引入与随机灭绝间两者的平衡维持。
上述论著问世遭遇到经典进化学家的强烈批判。他们认 为新的分子生物学数据完全可以用新达尔文主义的原理来解释。直至现在,选择论者与中性论者的议争仍在继续。这两大学派的本质区别可通过它们各自对突变基因 如何在物种内置换老基因这一进化过程的不同解释来洞悉。每一置换刚出现时在群体内均为稀有
的突变等位基因,随后扩散至个群体并被固定,即频率达100%。 选择论者认为:一个突变的等位基因在物种内扩散,就必需具有某些选择上的优势,如在选择上为中性,就必需与一选择上具优势的基因紧密连锁,通过“搭车”而 达到较高频率。与此相反,中性论者认为:一些突变在没有任何选择优势的情况下也能自身在群体中扩散。如果一突变体在选择上等同于已存在的等位基因,其命运 将取决于机会-随机,其频率存在上下起伏,因为在每代每一雌、雄个体所生的大量配子中只有很少数配子最终被“采用”以形成合子以及相应的个体,并出现在下 一代中。在这种随机漂变(random drift)中,绝大部分突变等位基因随机丢失,但有一少部分在群体中被固定下来。如果中性突变在分子水平上普遍存在,且随机漂变在很长时间(如百万年) 一直延续,群体的遗传组成将发生显著性改变。群体中出现的任何中性突变其最终固定的概率都等于其原始频率,其固定的平均时间四倍于有效群体的大小(它近似 等于每一代参与繁殖的个体数,通常远小于物种的个体总数)。中性理论并非认为中性基因无功能,而仅是认为不同的等位基因在促进个体的生存与生殖方面是有等 同的效果。此外,还需强调个体基因突变与群体基因置换的差别,因为只有后者才与分子进化相关。 自Zuckerkandl与Pauling的早期工作以来,已经知道在蛋白质进化中结构和化学性质上相似的氨基酸间的替换比不相似间的替换更为频繁。他们 认为,这种“保守的”的替换看来只造成分子功能的微小改变,因而更容易“被自然选择接受”。同时他们指出,关于氨基酸残基的最重要性质是什么,“化学家和 生物学家间显然没有同样的见解”。从中性学说的立场看,保守替换的性质,只需注意到两种氨基酸间的差异越小,它们等于选择等价而不是突变有害的概率就越 大,就很容易加以解释。因此,选择上呈中性的替换在得类似的氨基酸间则概率越高,而这类氨基酸的进化替换由于随机遗传漂变则出现得更为频繁。 在阐明分子进化中突变型替换的保守性的同时,有越来越多的证据表明,功能上较不重要的分子或某一分子较不重要的部分,其进化(以突变型替换表示)比那些较 重要的要快些。中性论和选择论间的差别,在它们对快速进化的分子(如血纤蛋白肽)或分子的某部分(如胰岛素原的C肽)进行解释时,可以最清楚地看出,按中 性学说解释,它们在功能上不重要,因而大多数突变是中性的,突变通过随机漂变而迅速积累。另一方,选择论的解释是,快速进化的分子或分子的某部分或许有某 些尚不知道的功能,并且通过积累许多由正达尔文选择产生的较微有利的突变,而经历了迅速的适应性方面的改善。这两种解释那一种更为恰当还有待积累更多数据 以后才能判定。为了加深我们对分子进化机制的理解,很有必要研究突变型替换的模式与分子的三级结构和功能的相互关系。 综上,中性学说(或者更确切地说是中性突变-随机漂变假说)是分子生物学与群体遗传学交融的产物。它不象传统的综合理论(或新达尔文派的观点),它明确主 张:进化中大多数突变型的置换,不是由于正达尔文选择,而是由选择上呈中性或近中性的突变型的随机固定所致。它还断言,分子水平上大多数种内遗传多态性, 象以蛋白质多态性形式展现出来的那样,是选择上呈中性或近中性的,并靠着突变输入和等位基因的随机清除或固定这两者之间的平衡而在物种中维持。应该说,这 一理论对于人们所认识的分子进化众多现象与规律的阐释比新达尔文更为科学,且提出的多项预测被随后的实验研究所证实。问题是,它作为一种更基本层次-分子 水平的进化理论未能给更高层次的进化提供理性阐释
与描写。中性论者过多地注目于与功能无关的分子进化,而忽视了与功能相关的分子进化现象与规律的探索,这 恐怕是中性理论之所以能问世,但同时又先天性地带上无视宏观进化,对宏观进化束手无策这一天然缺陷的症结所在。 5.2 进化树
分子钟的发现对于进化研究具有十分重要的意义。它不仅能用于粗略估计不同类群生物间的进化时间,亦可用于构建进化树。实际上,分子钟发现不久,蛋白质序列分析即被广泛用于生物的长时进化研究。
根据蛋白质的序列或结构差异关系可构建分子进化树(evolutionary tree)或种系发生树(phylogenetic tree)。 进化树给出分支层次或拓扑图形,它是产生新的基因复制或享有共同祖先的生物体的歧异点的一种反映,树枝的长度反映当这些事件发生时就存在的蛋白质与现在的 蛋白质之间的进化距离。根据进化树不仅可以研究从单细胞有机体到多细胞有机体的生物进化过程,而且可以粗略估计现存的各类种属生物的分歧时间。通过蛋白质 的分子进化树分析,为从分子水平研究物种进化提供了新的手段,可以比较精确的确定某物种的进化地位。对于物种分类问题,蛋白质的分子进化树亦可作为一个重 要的依据。
构建进化树的方法包括两种:一类是序列类似性比较,主要是基于氨基酸相对突变率矩阵(常用PAM250)计算不同序列差异性积分作为它们的差异性量度(序列进化树);另一类在难以通过序列比较构建序列进化树的情况下,通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化树。 序列进化树
构建序列进化树的主要步骤是比对,建立取代模型,建立进化树以及进化树评估。 1.建立数据模型(比对)
建立一个比对模型的基本步骤包括:选择合适的比对程序;然后从比对结果中提取系统发育的数据集,至于如何提取有效数据,取决于所选择的建树程序如何处理容易引起歧义的比对区域和插入/删除序列(即所谓的indel状态或者空位状态)。
一个典型的比对过程包括:首先应用CLUSTALW 程序,然后进行手工比对,最后提交给一个建树程序。这个过程有如下特征选项:(1)部分依赖于计算机(也就是说,需要手工调整);(2)需要一个先验的系 统发育标准(即需要一个前导树);(3)使用先验评估方法和动态评估方法(推荐)对比对参数进行评估;(4)对基本结构(序列)进行比对(对于亲水氨基 酸,推荐引入部分二级结构特征);(5)应用非统计数学优化。这些特征选项的取舍依赖于系统发育分析方法。
2.决定取代模型
取代模型既影响比对,也影响建树;因此需要采用递 归方法。对于核酸数据而言,可以通过取代模型中的两个要素进行计算机评估,但是对于氨基酸和密码子数据而言,没有什么评估方案。其中一个要素是碱基之间相 互取代的模型;另外一个要素是序列中不同位点的所有取代的相对速率。还没有一种简单的计算机程序可以对较复杂的变量(比如,位点特异性或者系统特异性取代 模型)进行评估,同样,现有的建树软件也不可能理解这些复杂变量。 3.建树方法
三种主要的建树方法分别是距离、最大节约(maximum parsimony, MP)和最大似然(maximum likelihood,ML)。 最大似然方法考察数据组中序列的多重比对结果,优化出拥有一定拓扑结构和树枝长度的进化树,这个进化树能够以最大的概率导致考察的多重比对结果。距离树考 察数据组中所有序列的两两比对结果,通过序列两两之间的差异决定进化树的拓扑结构和树枝长度。最大节约方法考察数据组中序列的多重比对结果,优化出的进化 树能够利用最少的离散步骤去解释多重比对中的碱基差异。
距离方阵方法简单的计算两个序列的差异数量。这个数 量被看作进化距离,而其准确大小依赖于进化模型的选择。然后运行一个聚类算法,从最相似(也就是说,两者之间的距离最短)的序列开始,通过距离值方阵计算 出实际的进化树,或者通过将总的树枝长度最小化而优化出进化树。用最大节约方法搜索进化树的原理是要求用最小的改变来解释所要研究的分类群之间的观察到的 差异。最大似然方法评估所选定的进化模型能够产生实际观察到的数据的可能性。进化模型可能只是简单地假定所有核苷酸(或者氨基酸)之间相互转变的概率一 样。程序会把所有可能的核苷酸轮流置于进化树的内部节点上,并且计算每一个这样的序列产生实际数据的可能性(如果两个姐妹分类群都有核苷酸“A”,那么, 如果假定原先的核苷酸是“C”,得到现在的“A”的可能性比起假定原先就是“A”的可能性要小得多)。所有可能的再现(不仅仅是比较可能的再现)的几率被 加总,产生一个特定位点的似然值,然后这个数据集的所有比对位点的似然值的加和就是整个进化树的似然值。 4.进化树搜索
单一的进化树的数量会随着分类群数量的增长而呈指数增长,从而变为一个天文数字。由于计算能力的限制,现在一般只允许对很小一部分的可能的进化树进行搜索。具体的数目主要依赖于分类群的数量、优化标准、参数设定、数据结构、计算机硬件以及计算机软件。
有两种搜索方法保证可以找到最优化的进化树:穷举法 和树枝
6 基因组序列信息分析
DNA序列自身编码特征的分析是基因组信息学研究的 基础,特别是随着大规模测序的日益增加,它的每一个环节都与信息分析紧密相关。从测序仪的光密度采
样与分析、碱基读出、载体标识与去除、拼接、填补序列间 隙、到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库。特别是拼接和填补序列间隙更需要把实验设计和信息分析时刻联系 在一起。 基因组不仅是基因的简单排列,更重要的是它有其特有的组织结构和信息结构,这种结构是在长期的演化过程中产生的,也是基因发挥其功能所必须的。利用国际EST 数据库 (dbEST) 和各实验室测定的相应数据,经过大规模并行计算识别并预测新基因,新SNPs以及各种功能位点,如剪接与可变剪接位点等。 到1998年底在人类的约10万个基因中有3万多个已被发现,尚有约7万个未被发现。由于新基因带来的显著经济效益和社会效益,它们成为了各国科学家当前争夺的热点。EST序列 (Expressed Sequence Tags) 到1999年12月已搜集了约200万条,它大约覆盖了人类基因的 90%,因此如何利用这些信息发现新基因成了近几年的重要研究课题。同时1998年国际上又开展了以EST为主发现新SNPs的研究。因此利用EST数据库发现新基因、新SNPs以及各种功能位点是近几年的重要研究方向。
虽然对约占人类基因组 95%的非编码区的作用人们还不清楚,但从生物进化的观点看来,这部分序列必定具有重要的生物功能。普遍的认识是,它们与基因在四维时空的表达调控有关。寻找这些区域的编码特征,信息调节与表达规律是未来相当长时间内的热点,是取得重要成果的源泉。
在不同物种、不同进化水平的生物的相关基因之间进行 比较分析,是基因研究的重要手段。目前,模式生物全基因组序列数据越来越多,因此,基因的比较研究,也必须从基因的比较,上升到对不同进化水平的生物在全 基因组水平上的比较研究。这样的研究将更有效地揭示基因在生命系统中的地位和作用,解释整个生命系统的组成和作用方式。
6.1 基因组序列分析工具 1. Wisconsin软件包(GCG)
Genetics Computer Group公司开发的Wisconsin软件包,是一组综合性的序列分析程序,使用公用的核酸和蛋白质数据库。SeqLab是其图形用户界面(GUI),通过它可以使用所有Wisconsin软件包中的程序及其支持的数据库。此外,它还提供了一个环境用于创建、显示、编辑和注释序列。SeqLab也可以被扩展使其可以包括其它公用或非公用的程序和数据库。
Wisconsin软件包由120多个独立的程序组 成,每个程序进行一项单一的分析任务。包括所有程序的完整目录以及详细的描述可以在Wisconsin软件包的程序使用文档中找到。GCG支持两种核酸数 据库(GenBank数据库, 简化版的EMBL核酸序列数据库)和三种蛋白质数据库(PIR,SWISS-PROT, SP-TrEMBL)。这些数据库既有GCG格式的(供大多数Wisconsin软件包程序使用),也有BLAST格式的