缺点:对于结构复杂的大基因组而言,鸟枪法的序列组装的起始阶段工作量非常大;基因组中普遍存在的重复序列是十分棘手的问题,在序列组装时可能出现错误连接,使某些片段从原位置跳到另一无关位置。
五、间隙类型:测序后将DNA顺序进行组装,会发现存在不连续的区段,它们产生于:
1) 因覆盖率的原因而留下的未能测序的顺序,仍存在于克隆文库中, 这类间隙称为顺序间隙。 解决办法:通过相邻已知顺序作为探针筛选已有的基因组文库
2) 因克隆载体自身的限制或DNA顺序特殊的组成等原因造成某些顺序丢失或未能克隆, 这类间隙称为物理间隙。
解决办法:利用其它宿主菌与载体重新构建文库
六、覆盖面(或深度):每个核苷酸在完成顺序中平均出现的次数,或者说完成顺序的长度与组装顺序长度之比。
在测序前,首先要考虑测序规模,P0=e- m m为覆盖面,即单倍体基因组数;e为自然对数底数 七、重要区域测序
1、人们对感兴趣的基因或与疾病相关的基因优先测序。
如:人类主要组织相容性复合区位于第6号染色体,与人类免疫系统有关,因而优先测序。
2.EST (Expressed sequence tag) 测序
EST是一种重要的基因组图分子标记,以EST为探针很容易从 cDNA文库中筛选全基因,又可从BAC克隆中找到其基因组的基因序列。
3、浏览测序:粗略分析初步测序结果,从中寻找基因编码顺序的方法。 八、名词解释
1) BAC 末端序列(BAC-end sequenced) 一个BAC克隆插入片段两端的已测序的序列,不包括内部顺序. 可用于确定BAC的排列方向以及重叠群(contig)在支架(scaffold)中的排列方向.
2) 重叠群(contig) 一群相互重叠的克隆或DNA顺序,可以是草图顺序或精确顺序(finished), 包括连续的(内部无间隙)或不连续的(内部含间隙)DNA顺序,未锚定到染色体上.
3) 草图顺序(draft sequence) 人类基因组测序计划定义为经Phred Q20软件认可覆盖测序克隆片段3-4倍的DNA顺序. 含间隙或无间隙, 排列方向和位置未定.
4) 精确顺序(finished sequence) 顺序差错率(错误碱基数)低于0.01%的DNA序列, 排列方向确定,内部不含间隙, 一般测序覆盖率在8-10个单倍体基因组
5) 支架(scaffold) 一组已锚定在染色体上的重叠群, 内部含间隙或不含间隙. 九、几种生物的测序方法: ? 大肠杆菌基因组测序——图位法; ? 流感嗜血杆菌基因组测序——鸟枪法; ? 果蝇基因组测序——鸟枪法; ? 人类基因组测序——图位法和鸟枪法; ? 水稻基因组测序—— 图位法和鸟枪法。
第五章
一、内含子出现的问题:
内含子的出现给计算机判读基因带来不少问题,对ORF扫描的基本程序的编写要考虑以下几个问题:
1)密码子偏好;编码同一氨基酸的不同密码子称为同义密码,其差别仅在密码子的第3位碱基不同。特定种属有特征性的密码子偏爱,这些序列在编码区常常出现,非编码区只保持平均的碱基分布水平。 2)外显子—内含子边界;上游外显子-内含子边界序列是判断是否为编码序列之一;但常有例外,导致判读程序编写有一定困难。
3)上游调控序列。几乎所有基因(或操纵子)上游都有调控序列,它们可与DNA结合蛋白作用,控制基因表达,调控序列有明显的特点。 二、同源基因查询:
通过已存入数据库中的基因序列与待查的基因组序列进行比较,从中查找可与之匹配的碱基序列及其比例,用于界定基因的方法称为同源查询。
1)同源性(homology)基因系指起源于同一祖先但序列已经发生变异的基因成员。 分布在不同物种间的同源基因又称直向同源基因。
同一物种的同源基因则称共生同源基因(水平基因), 水平基因由重复后趋异产生。 基因同源性只有“是”和“非”的区别, 无所谓百分比.
2) 一致性(identity):指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示.
3) 相似性(similarity):指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。可取代氨基酸系指具有相同性质如极性氨基酸或非极性氨基酸的成员, 它们之间的代换不影响蛋白质(或酶)的生物学功能。 三、实验确认基因
1、Northern杂交确认DNA片段是否含有表达序列 2、由EST或cDNA指认基因 3、获取基因全长cDNA序列 4、确定DNA顺序中基因的位置 四、计算机预测基因功能
原理:主要依据同源性比较,同源性反应出进化关系。 方法:既存数据库的比较分析。
分析的基础是:如果一个新测序的基因与另一个原来已测序的基因相似,那么就揭示他们可能有进化上的关系,并且新基因的功能很可能与已知基因的功能相同,或至少是相似。 同一物种或不同物种中具有相同结构域的蛋白质可将其划归在同一蛋白质家族。 五、基因功能检测方法: 1、过表达
2、高通量:转座子路线、随机插入法
六、目前已发现两种RNAi抑制靶基因表达的现象:
1) siRNA: 小分子干扰RNA, 主要产生于双链RNA分子, 在细胞内它们被切成短链RNA,然后与靶mRNA序列结合,导致mRNA的进一步降解。
2) miRNA: 微小干扰RNA(一类内源性的具有调控功能的非编码RNA), 主要来自mRNA链内配对产生的双链RNA,在细胞内它们被切成短链RNA,然后与靶mRNA序列结合,使mRNA的翻译受阻或使mRNA降解。