数比Haldane作图函数更合理,因此它在遗传学研究中得到了更广泛的应用。
第三节 DNA标记分离数据的数学处理
一、分离数据的收集与数字化
从分离群体中收集分子标记的分离数据,获得不同个体的DNA多态性信息,是进行遗传连锁分析的第一步。通常各种DNA标记基因型的表现形式是电泳带型,将电泳带型数字化是DNA标记分离数据进行数学处理的关键。
下面以RFLP为例来说明将DNA标记带型数字化的方法。假设某个RFLP座位在两个亲本(P1,P2)中各显示一条带,由于RFLP是共显性的,则F1个体中将表现出两条带,而F2群体中不同个体的带型有三种,即P1型、P2型和F1(杂合体)型。可以根据习惯或研究人员的喜好,任意选择一组数字或符号,来记录F2个体的带型。例如,将P1带型记为1,P2带型记为3,F1带型记为2。如果带型模糊不清或由于其它原因使数据缺失,则可记为0。假设全部试验共有120个F2单株,检测了100个RFLP标记,这样可得到一个由100(行)×120(列)的、由简单数字组成的RFLP数据矩阵。
进行DNA标记带型数字化的基本原则是,必须区分所有可能的类型和情况,并赋与相应的数字或符号。比如在上例中,总共有4种类型,即P1型、F1型、P2型和缺失数据,故可用4个数字1、2、3和0分别表示之。如果存在显性标记,则F2中还会出现两种情况。一种是P1对P2显性,于是P1型和F1型无法区分,这时应将P1型和F1型作为一种类型,记为4。另一种情况正好相反,P2对P1显性,无法区分P2型和F1型,故应将它们合为一种类型,记为5。
对于BC1、DH和RI群体,每个分离的基因座都只有两种基因型,不论是共显性标记还是显性标记,两种基因型都可以识别,
34
加上缺失数据的情况,总共只有3种类型。因而用3个数字就可以将标记全部带型数字化。
在分析质量性状基因与遗传标记之间的连锁关系时,也必须将有关的表型数字化,其方法与标记带型的数字化相似。例如,假设在DH群体中,有一个主基因控制株高,那么就可以将株系按植株的高度分为高秆和矮秆两大类,然后根据亲本的表现分别给高秆和矮秆株系赋值,如1和2。将质量性状经过这样的数字化处理,就可以与DNA标记数据放在一起进行连锁分析。
DNA标记数据的收集和处理应注意以下问题:(1)应避免利用没有把握的数据。由于分子多态性分析涉及许多实验步骤,很难避免出现错误,经常会遇到所得试验结果(如X-光片)不清楚等问题。如果硬性地利用这样没有把握的数据,不仅会严重影响该标记自身的定位,而且还会影响到其它标记的定位。因此,应删除没有把握的数据,宁可将其作为缺失数据处理,或重做试验。(2)应注意亲本基因型,对亲本基因型的赋值(如P1型为1,P2型为2),在所有的标记座位上必须统一,千万别混淆。如果已知某两个座位是连锁的,而所得结果表明二者是独立分配的,这就有可能是把亲本类型弄错引起的。(3)当两亲本出现多条带的差异时,应通过共分离分析鉴别这些带是属于同一座位还是分别属于不同座位。如属于不同座位,应逐带记录分离数据。
二、遗传图距与物理距离对应关系的估计
不同生物的1cM图距所对应的实际物理距离(碱基对数量)存在很大差异。一般而言,生物越低等或越简单,1cM图距平均对应的碱基对数量就越少(表3.1)。表3.1中给出的各种生物中遗传图距与物理距离之间的对应关系只是一个大约的平均值,实际上它变化很大。在一条染色体上,由于不同区域上发生交换的频率存在差异,因而遗传图距与物理距离之间的对应关系可以有很大的变化。例如,在着丝粒附近,染色体交换受到抑制,因而所估计的遗传图距小于平均对应的物理距离。在同一种生物中,
35
两个特定基因座之间的遗传图距会因遗传背景的不同而改变,甚至有时由同一对亲本所产生的遗传背景相同的不同群体间也存在很大差异。
表3.1
不同生物中单位图距所相当的平均物理距离
物 种
嗜菌体T4 大肠杆菌 酵 母 真 菌 线 虫 果 蝇 水 稻 小 鼠 人 类 玉 米
基因组大小(kb) 遗传图距(cM)
1.6×102 4.2×103 2.0×104 2.7×104 8.0×104 1.4×105 4.5×105 3.0×106 3.3×106 2.5×10
6
kb / cM
0.2 2.4 4.8 27.0 250.0 500.0 300.0 1,800.0 1,000.0 1,000.0
800 1,750 4,200 1,000 320 280 1,500 1,700 3,300 2,500
三、构建DNA标记图谱的计算机软件
遗传图谱的构建需要对大量标记之间的连锁关系进行统计分析。随着标记数目的增加,计算工作量常常呈指数形式增加,这是手工无法完成的。因此,必须借助计算机进行分析和处理。许多学者为构建遗传图谱设计了专用程序包,通过Internet网址http://linkage.rockefeller.edu/soft/list.html可以获得各种专用程序的相关信息,如软件的名称及简要介绍,源程序编码语言、支持的操作系统、执行程序的名称、参考文献以及获取软件的网址等。应用于植物遗传连锁分析和遗传图谱构建的常用软件有LINKAGE、MAPMAKER/EXP等。LINKAGE软件可通过ftp:// linkage.rockefeller.edu/software/linkage 获得,该软件是利用最大似然法估计两座位或多座位间的重组率和LOD值;MAPMAKER/EXP可通过ftp:// ftp-genome.wi.mit.edu/distri-
36
bution/software/mapmaker3获得,该软件可以应用于各种类型的实验群体进行遗传作图,是目前应用最为广泛的作图软件之一。
第四节 DNA标记连锁图谱的完善
一、DNA标记连锁群的染色体定位
把分子标记所建立的连锁群与经典遗传图谱联系起来,并将其归属到相应的染色体上,是构建了一个比较饱和的分子图谱之后十分重要的工作。通常根据分子标记与已知染色体位置的形态标记的连锁关系来确定分子标记连锁群属于哪条染色体。还可以利用非整倍体或染色体结构变异材料,如水稻中利用三体、玉米中利用A/B易位系、小麦中利用缺体/四体染色体代换系等,将分子标记连锁群归属到相应的染色体上。
以水稻为例,目前已获得全套12条染色体的初级三体(2n+1)。在水稻某种三体中,由于三体染色体有一式3份,其DNA含量为其它11条染色体的1.5倍。在DNA定量相当准确的条件下,用已知能检测某一连锁群的探针分别与12种三体的总DNA杂交。根据剂量效应,杂交强弱与同源序列的含量成正比,杂交后对应三体的DNA滤膜放射自显影显带强度将明显高于其它11种,由此可以判定该标记所对应的序列就在该三体染色体上。
随着技术的进步,原位分子杂交的灵敏度已可以揭示单拷贝序列的杂交位点,因此采用原位分子杂交可以容易地将连锁群的分子标记定位到染色体上。
要得到一个完整的遗传图谱,必须知道染色体上的标记与着丝粒之间的距离。一个完整的染色体具有以下几个主要部分:着丝粒、缢痕、随体及端粒,这些基本结构在生物染色体的运动与复制等方面起着重要的作用,其结构也是遗传图谱制作中不可忽视的重要部分。
由于着丝粒并不是一个基因,不能从表型测知,因此采用常
37
规的两点、三点乃至多点分析方法是无法确定标记与着丝粒之间的关系的。在经典遗传图谱的构建中,一般采用近端着丝粒染色体来对基因与着丝之间的距离进行定位。近端着丝粒染色体是正常染色体在着丝粒附近断裂形成的异常染色体。目前已获得小麦全部42条染色体的近端着丝粒染色体。利用染色体易位材料也可以判断着丝粒在染色体上的位置。一般易位点和着丝粒所在部分的交换被抑制,因而推算位于着丝粒两旁的易位点与标记基因间的重组率时一般都偏小。利用这个现象可以推算连锁图上着丝粒的位置。在细胞学上,利用已知易位点的易位系统进行基因分析也可知道着丝粒的位置。早在1945年,在玉米中就利用易位分析的结果推测了全部染色体的着丝粒位置。
染色体上的端粒是指染色体的自然末端。在遗传图谱的构建中,端粒位置的确定就意味着为染色体的全长设定界标。传统的凝胶电泳方法由于分辨能力有限,大多数情况下无法将具有多态性的端粒片段区分开来。一般要借助具有高分辨率的脉冲场凝胶电泳(PFGE)才能将有差异的端粒片段分离开来。利用PFGE与切割位点稀少的限制性酶相结合,Wu和Tanksley(1993)研究了水稻端粒结构的特征,采用来自拟南芥的端粒探针,将三个水稻的端粒DNA电泳条带分别定位在第8、9、11染色体上,并证实了多态性的端粒片段不仅在遗传上而且在物理上与遗传图谱上最远端的RFLP标记相连锁。
目前,在日本水稻基因组研究计划所构建的包含2275个标记的水稻分子连锁图中,除第9染色体之外,其余11条染色体的着丝粒(区)都已定位(Harushima et al. 1998)。另外,该图中的第5染色体短臂、第11染色体两臂以及第12染色体短臂的端粒也已定位。
二、饱和DNA标记连锁图的制作
遗传图谱饱和度是指单位长度染色体上已定位的标记数或标记在染色体上的密度。一个基本的染色体连锁框架图大概要求
38