其中2874种属于细菌,353种属于古细菌,173种属于真核生物;而全球正在进行的全基因组测序计划还有10479个.另有1970个宏基因组测序计划正在进行或已经完成。美国国家生物技术信息中心(NCBI)网站的统计数据显示(http://www.ncbi.him.nih.gov/Genbank/index.html).截止到2011年4月.该网站中传统的Genbank数据库中已有近1.3亿多条序列.而全基因组鸟枪法(wholegenome shotgun,WGS)测序数据库记录的来自个体和宏基因组的序列已有6200多万条.碱基数量累计1480亿个。在如此庞大的基因组数据库中无疑包含着海量的工业酶基因资源。新的基因资源的发现也从“挖土”筛选微生物转向从数据库中“挖基因”,也就是所谓的“基因组打猎”(genome hunting)或”数据挖掘”(datamining),该方法实际上是根据某一已知的探针酶的基因序列去搜索数据库来发现结构和功能类似的同源酶的编码序列。在此基础上,研究者可以方便地设计引物,利用聚合酶链反应(PCR)技术从目标物种中大量地扩增获得目的酶基因.并进行异源重组表达。 基本流程:
1. 从数据库(GenBank,EMBL,DDBJ等)中查询目标酶在不同物种中的编码基因
信息和序列(或者相关生物的基因组数据)。
2. 分析相关的基因(同源基因或物种相近的基因)序列,从中寻找目标酶的编
码基因的全ORF或EST序列。
3. 设计引物进行扩增或者进行基因合成,表达分析。 实例 克隆碱性脂肪酶基因:
1 查阅现有的相关碱性脂肪酶报道文献,了解碱性脂肪酶的信息。 2 可在GenBank,EMBL,DDBJ数据库中检索碱性脂肪酶基因信息。以GenBank为例检索。在http://www.ncbi.nlm.nih.gov/genbank/的检索框里输入 alkaline lipase如图:
搜索的结果如下:
然后下载相关的alkaline lipase基因序列,在vector NTI(或者NNASTAR等DNA分析软件)分析基因的ORF等信息。如没有相关模板用来扩增,则可以直接将分析的NC_007195,和NC_011585.1基因的编码框进行全基因合成,进行基因表达分析。在有特定的DNA 模板的情况下,可以将来源相近的菌株的相关脂肪酶基因利用Clustal X 进行比对,需找同源区域设计引物单次或多次扩增获得全长基因。
该方法关键在于能找到多个基因的同源片段,或者能找到目标酶一致性较高的基因。
设备:计算机,PCR仪,紫外成像系统等 优点:周期短,耗费少,操作简单
缺点:受现有的基因资源和研究者水平限制,有点机会主义。
五 利用基因工程技术开发新基因资源
天然酶的性能是其对自然环境适应的结果,通常不能全面满足科研和工业生产的要求。因此利用新兴的基因工程技术对天然酶基因进行分子改造也是获得新的基因资源很好的途径,也是我们研究的重点。定向进化技术是研究者从基因水平改造蛋白质的最常规的手段之一。常规的方法有:基因突变(定点或随机突变),基因重组,融合酶等方法。但盲目的进行分子改造,筛选效率低,费时费力。因此生物信息学与实验检测相结合,为蛋白质序列改造设计提供可靠的预测
模型,使得研究者能以更具目的性的半理性方式来对基因进行改造,获得有实际应用的新基因资源。 基本流程:
对现有基因和同源的基因Clustal X,vector NTI,DNASTAR进行比对,分析总结个基因的异同可能导致蛋白质上的差异,然后通过smart(http://smart.embl
-heidelberg.de/)对各基因进行结构域分析,再利用SWISSMODEL对其进行三维同源建模,
分析模型,选取位点进行突变,或者选取不同的DOMIAN进行重组,先利用prosa2003软件进行能量分析,然后实验验证,PCR扩增构建新基因,并进行基因表达分析。