阶段的大多数,或几乎全部组织中持续表达,或变化很小,因此常存在于生物细胞核的常染色质中。它的表达只受启动序列或启动子与RNA聚合酶相互作用的影响,而不受其他机制调节。
(3)管家基因高度保守并且在大多数情况下持续表达,因此管家基因常被用于分子技术--多位点基因分析。
(4)管家基因往往含较少的SNP(选择性限制)(SNP密度与基因表达宽度负相关)
(5)SNP密度与管家的基因的表达水平正相关,当表达水平改变时,TS基因对SNP密度没有倾向
(6)低表达的基因倾向组织特异性,高表达的基因倾向于看家基因,组织特异性基因的SNP较看家基因丰富
(7)较晚复制的基因往往有更多的突变(暴露于辐射的时间更长),看家基因较早复制,组织特异性基因较晚复制
(8)看家基因是维持细胞生存不可缺少的,奢侈基因和细胞分化有关,是组织特异性表达有关的基因,在特定组织中保持非甲基化或低甲基化状态,而在其他组织中呈甲基化状态。几乎所有的甲基化均发生在二核苷序列5'-CG-3'中的C上。使胞嘧啶变为5'-甲基胞嘧啶。而含有这种甲基化CG的序列,对应于染色体上的兼性异染色质区域。 (9)看家基因以组成型方式在所有细胞中表达,而奢侈基因在特定组细胞中得到表达。这些基因的特异表达与否,决定了生命历程中细胞的发育、分化、细胞周期的调控、体内平衡、细胞衰老、甚至于程序化死亡。对不同类型,不同分化时期细胞的基因或基因表达情况的
研究,可以获得整个细胞生命过程的信息。细胞在不同自然或人工理化因子作用下代谢过程变化甚至于病变,基因也将选择性表达。 11、GC含量
GC 含量是基因组 DNA 序列碱基组成的重要特征, 蕴涵基因结构、功能和进化信息。
通过从公共数据库提取 7 992 个非冗余的人类蛋白质编码基因 DNA 序列, 分析了基因序列不同区域的局部 GC 含量和相关性。结果表明:
(1)基因局部 GC 含量呈现不均一性, 5′非翻译区G水平最高,为 62.56%;而 3′非翻译区GC水平最低,为 43.97%。
(2)3′侧翼序列的 GC 含量能较好地代表基因所在区域 DNA 长片段的 GC 水平。虽然开放阅读框的 GC 含量比内含子、3′非翻译区和 3′侧翼序列的 GC 含量高, 但 4 个区域的 GC 含量之间均存在较高的相关性。
(3)密码子第三位置的平均 GC 含量(GC3)为 58.09%, 显著高于密码子第一位置和第二位置的 GC 含量, 且与开放阅读框的 GC 水平高度相关, 相关系数高达 0.91。
(4)GC3 与内含子、3′非翻译区、3′侧翼序列的 GC 水平相关性也较高, GC3 对 3′侧翼序列的 GC 含量的直线回归斜率为 1.25。因此, GC3 可作为基因所在区域 GC 水平变化的敏感性指标。 (5)密码子第一位置和第二位置以及 5′侧翼序列和 5′非翻译区 GC 水平与基因其他区域的 GC水平的相关性较弱。
该研究结果提示: 基因蛋白编码区密码子第三位置、内含子、3′非翻译区和 3′侧翼序列的碱基可能经历了相近的进化过程, 而蛋白编码区密码子第一位置和第二位置、5′侧翼序列和 5′非翻译区由于功能的需要而经历了不同的突变和选择。 补充:
大多数GC含量变化发生基因中,而不是基因之间。较大的基因中,可能有更多的富含AT的外显子或内含子,但GC含量变化的程度在很大程度上不依赖基因的大小。只有人类有小幅下降的趋势。
为什么还要引进C?
G-C碱基对在RNA中不是必须的但在DNA中是必要的,GC含量的变化对于基因组动力学和多样性是很关键的;
从R-Y到 A-U,提高Purine-sensitivity(嘌呤敏感性)
1、Frozen events hypotheis:“Frozen” from some “random events”。The relationship between codon and protein are “frozen” at some time point of some life.Hard to change。Challenged by R. D. Knight, S. J. Freeland and L. F. Landweber in three faces of the genetic code:Selection、History、chemistry
2、Co-evolution Hypothesis:从代谢理论分析遗传密码的起源;氨基酸起源、传密码的进化;氨酰-tRNA的合成;遗传密码的进化 最初的密码子只保证5种基本氨基酸的合成,Ala, Gly, Ser, Asp and Glu. 这些氨基酸都是GC丰富的密码子,其合成途径是最短、最简单的。
接下来产生的4、5个新的氨基酸(Asn, Thr, Pro, Gln,或许还有Arg类似物)产生于遗传密码的下一次扩增阶段。 在这些氨基酸生物合成途径中,反应的数目在路径的复杂性中占据中间位置(实在不知所云,就这样翻译了。原文是On the general net of biosynthetic pathways the complexity of the routes assigned to these amino acids occupies an intermediate position in terms of the number of reactions that are involved in their production.)
密码子进化的最后阶段,终于形成了4个碱基GCAU系统! 最后出现的氨基酸倾向于走最长的代谢途径
重建密码子进化的主要阶段:这些氨基酸的多巨物产生了阴离子多肽链,可以将不带电的氨基酸残基锚定到带正电的金属离子表面;密码子的扩增减少了突变到不可读密码子的风险;非极性(疏水性)氨基酸的量也在增加;带正电荷的氨基酸以及芳香族氨基酸在加入进来,合成具在酸性条件下有催化活性的酶成为可能;这种种类的氨酰-tRNA合成酶参与了这些过程
最优密码子(Optimal genetic code):有人认为三联体密码子起源于2种二联体密码。一种是基于前两个的'prefix' codons,一种的基于后两个的'suffix' codons,这种假说解释了现在密码子的许多特性,如翻译错误率的降低,为什么只编码20种氨基酸??
successive binary decisions(连续的二分法)可以减少翻译的错误率,具体如下图:其中R代表嘌呤A或G;Y代表嘧啶C或U:N代表种碱基的任何一个
重排密码表:
相应的给出了不同GC content下的不同类型密码子(GC-rich,AU-rich,GCp1,GCp2)的使用频率,由下图可以看到,随着DNA GC content的增加,GC-rich密码子(上图中的右下象限的黄色区域)的使用频率逐渐增高,而AU-rich密码子(上图中的左上象限的蓝色区域)的使用频率逐渐减小。
下图给出了不同类型密码子所编码的氨基酸的多样性(diversity)和鲁棒性(robustness),可以看到,随着GC-rich的密码子其鲁棒性也强(多数为4-fold简并密码子:三联密码的最后一个字母是N);而AU-rich的密码子鲁棒性若(多样性强)。
下图是根据密码子所编码氨基酸的物理化学性质(基本AA、酸性AA、极性AA、非极性AA)来编排的密码子表,可以看出,3个6-fold煎饼的密码子(Leu, Arg, Ser),它们都可以分为一个2-fold 简并和一个4-fold简并。
GC突变偏好性:钟摆模型:几乎一半的密码子都是嘌呤敏感purine-sensitive的。
为什么会出现6-fold简并密码子?如下图: 平衡作用引入Arg (reduced Lys(K) when GC increases) 引入Ser
Reducing C pressure Reducing purine pressure