西 安 交 通 大 学 实 验 报 告
课 程 生物信息学 实 验 名 称 序列的点阵分析
系 别 实 验 日 期 : 专业班级 组别 交报告日期 : 姓 名 学号 报 告 退 发 :(订正、重做)
同 组 人 无 教师审批签字:
实验目的:点阵分析是双序列分析最直观的工具,通过本实验了解点阵分析的原理和方法。
教学基本要求:了解和熟悉点阵分析的原理和参数对分析结果的影响,可以对结果进行解读和解释。
回答问题:点阵分析的基本原理是什么?
点阵法是双序列比对的基本方法,比对法的基本思想是:将两条待比较的序列分别放在矩阵的两条轴上,从上往下,当对应的行和列的序列字符匹配时,则在矩阵对应的位置作出点标记,逐个比较所有的字符对,最终形成点阵图。两条完全相同的序列在点阵图中表现为一条连续的对角线,相似性很高却又不完全相同的序列,表现为不连续的对角线,中间断掉的部分表示在那些区域字符不匹配。 1. 重复序列
通过点阵分析可以很容易的发现序列中的重复,果蝇的一个蛋白质(索引号码:P24014)中具有几个重复片段,请通过dotlet分析,找到这些序列重复的片段。
如图所示,除了对角线有8条浅色的线,因为对称可知共四条重复片段。
从uniprot注释信息确定有四条重复片段。 2. 低复杂度区域
恶性疟原虫抗原蛋白前体(索引号码:P69192)具有一段低复杂度区域的序列,通过点阵分析找到这个特点
丝氨酸重复域是一个黑色的方形,这是一个低复杂度的地区,其中一个或几个残基表现出或多或少完美的周期性的特点。
西 安 交 通 大 学 实 验 报 告
课 程 生物信息学 实 验 名 称 多序列比对
系 别 实 验 日 期 : 专业班级 组别 交报告日期 : 姓 名 学号 报 告 退 发 :(订正、重做)
同 组 人 无 教师审批签字:
实验目的:在序列分析中,多序列比对具有广泛的应用,是许多其他分析的基础和前提,比如进化发生分析、构建位置特异性打分矩阵、找到一致序列等,本实验的目的是熟悉多序列比对相关的操作和编辑方法。
1. 使用CLUSTALW 算法,比对一组蛋白质序列,序列的索引号码为:P25454,P25453,P0A7G6,P48295。
a. 练习使用EBI CLUSTALW b. 将序列数据拷贝复制到窗口中; c. 采用默认参数进行比对; 结果如下图
clustalw算法的基本原理:
ClustalW的基本原理是首先做序列的两两比对,根据该两两比对计算两两距离矩阵,然后用NJ或者UPGMA方法构建Binary进化树作为guide tree,最后用progressive的方法根据guide tree逐步添加序列进行比对,一直到所有序列都比对好.
2. 在BAliBASE网站查找一组蛋白质:1csy。这些蛋白质的一致性为20-40%,属于BAliBASE参考序列1。
Clustalw2
muscle
T-coffe
分别与下图比较,一致得1分,不一致得0分。
(1) CLUSTALW2比对得分10分; (2) MUSCLE比对得分13分; (3) T-Coffee比对得分 14分; 所以T-coffe结果更好
西 安 交 通 大 学 实 验 报 告
课 程 生物信息学 实 验 名 称 HIV病毒的进化分析
系 别 实 验 日 期 : 专业班级 组别 交报告日期 : 姓 名 学号 报 告 退 发 :(订正、重做)
同 组 人 无 教师审批签字:
实验目的:了解和学习系统发生分析的步骤和基本方法
实验步骤:在MEGA5.05中,Align→Edit/Build Alignment→Retrieve sequences from a file,导入上述的.fasta的文件,选择Alignment→Align By Clustalw或Align By Muscle。选择默认参数进行比对。将结果保存。(为了节约时间,多序列比对的结果我们可以不处理)
结果如下图
在MEGA主程序中,选择Phylogeny,选择一种构建树的方法,导入上述保存的结果,在参数选择中,“Phylogeny Test”选择“Bootstrap method”,选择500或者1000,其他参数默认。 选择500时建树:
对树的解释:
NJ法根据修正净差异值先确定节点,再根据各部分到节点的距离构建树。各节点所标的数值为该节点到前一节点的距离。由图可看出,这16条序列是同源序列,具有共同的祖先序列,即'SIVmon Cercopithecus Monkeys'序列。 1. 系统发生分析的步骤? 主要为三步
(1)分子序列或特征数据的分析; (2)系统发生树的构造; (3)结果的检验。
2. 为什么不直接使用序列的全长,而只是部分序列?
一是由于序列的长度过长,造成比对时的误差较大,同时,由于各序列的长度不同,可能造成比对的失真,同时,比对过长的序列,造成的损耗大,而对比关键的部分序列,效率更大,更能找出差异与联系。
3. 为什么在构建进化树之前需要进行多序列比对?对多序列比对结果应该如何进行处理?
同时比对一组序列对于研究分子结构、功能及进化关系更为有用。例如,某些在生物学上有重要意义的相似性只能通过将多个序列对比排列起来才能识别。同样,只有在多序列比对之后,才能发现与结构域或功能相关的保守序列片段。多序列比对有时用来区分一组序列之间的差异,但其主要用于描述一组序列之间的相似性关系,以便对一个基因家族的特征有一个简明扼要的了解。应进行简单的分析与评判,并进行初步的处理与优化,达到进一步的结果,从而对构建进化树起更加准确的结果。
4. 常用的构建树的方法有几大类?
系统发生树的构建方法分为两大类:
一是基于距离的构建方法。有非加权组平均法、邻近归并法、Fitch-Margoliash法和最小进化方法。
二是基于离散特征的构建方法。有最大简约法、最大似然法、进化简约法和相容性方法。 或者根据建树算法在执行过程中采用的搜索方式,系统发生树的构建方法也可以分为以下3类。 (1)穷尽搜索方法
即产生所有可能的树,然后根据评价标准选择一棵最优的树。 (2)分支约束方法
即根据一定的约束条件将搜索空间限制在一定范围内,产生可能的树,然后择优。 (3)启发式或经验性方法
根据先验知识或一定的指导性规则压缩搜索空间,提高计算速度。 5. 树是如何进行统计学评估的? 对于所构建的系统发生树,统计分析的误差可能会影响所建树的可靠性。运用大量的模拟实验可以比较这些树的建树方法的统计可靠性。即运用多种方法建树,得到的结果应比较类似,这才说明树构建的合理性。