图7-6 有问题的拼接
图7-7 正常的拼接结果
5、Unigene开放阅读框(ORF)的预测 1)ORF的预测
软件:getorf(EMBOSS软件包里的程序)
基本用法:getorf要预测的序列预测的ORF序列 -minsize 100 –find 3 –reverse 1 参数说明:
-minsize:预测的ORF最小长度,基本上此参数设定的越大,预测的越准确。 -find:要生成核酸序列,从翻译起始为点到翻译终止位点,请设定为 3。
-reverse:如果要在互补链上找ORF,设定此参数为1,否则设定此参数为 0。
使用说明:一般一个unigene预测出很多可能的ORF,我们一般选取最长的ORF,作为这条基因的开放阅读框。
2)cDNA 是否为全长的判断方法: (1)直接从序列上评价:
5'端:如果有同源全长基因的比较,可以通过与其它生物已知的对应基因5'末端进行比较来判断。如果无同源基因的新基因,则首先判断编码框架是否完整,即在开放阅读框(ORF)的第1个ATG上游有无同框架的终止密码子;其次,判断是否有转录起始点,一般加在5'帽结构后有一段富含嘧啶的区域,或者是cDNA 5'序列与基因组序列中经过酶切保护的部分相同,则可以确定得到的cDNA的5'端是完整的。
3'端:同样可以用其它生物已知的对应基因3'末端进行比较来判断,或编码框架的下游有终止密码子,或有1个以上的PolyA加尾信号,或无明显加尾信号的则也有PolyA尾。 (2)用实验方法证实:
可以通过引物延伸法确定5'端和3'端的长度,如:5'端RACE,3'端RACE,或者通过Northern Blot证实大小是否一致。 6、基因的特异表达分析
我们构建没有均一化的cDNA文库,进行EST测序的一个重要目的就是,它可以帮助我们了解基因在不同组织,不同的发育时期的表达情况。我在上面已经将EST聚类拼接成Unigene,这样我们就可以统计同一个Unigene在不同的文库里的表达情况,即EST在这个文库的数目。进而我们可以从统计学上,对基因的表达情况做出评估,通常用p值来衡量在不同库间表达是否显著。p≤0.05为一般的显著,p≤0.01为非常显著。 软件:IDEG.6
网址:http://telethon.bio.unipd.it/bioinfo/IDEG6/
介绍:IDEG.6集合多种目前常用的统计方法,如Audic and Claverie两个样品的检验,Fish精准检验,卡方检验,R检验等。 7、基因的注释和功能分类 1)NCBI NT数据库
介绍:这是一个非冗余的核酸数据库,包括了GenBank、RefSeq、PDB的数据。 网址:http://www.ncbi.nlm.nih.gov 软件:blastn 一般标准:le-5 2)NCBI NR数据库 介绍:这是一个非冗余的蛋白质数据库,包括了SwissProt、PIR(Protein Information Resource)、PRF(Protein Research Foundation)、PDB(Protein Data Bank)蛋白质数据库非冗余的数据以及从GenBank 和RefSeq的CDS数据翻译来的蛋白质数据。 网址:http://www.ncbi.nlm.nih.gov 软件:blastp(blastx) 一般标准:1e-5 3)SwissProt数据库
介绍:SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。Swiss-Prot中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。
网址:http://www.expasy.org/sprot/ 软件:blastp(blastx) 一般标准:1e-5 4)KEGG数据库
介绍:KEGG(Kyoto Encyclopedia of Genes and Genomes)京都基因和基因组百科全书是系统分析基因功能,联系基因组信息和功能信息的知识库。基因组信息存储在GENES数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在PATHWAY数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;KEGG的另一个数据库是LIGAND,包含关于化学物质、酶分子、酶反应等信息。KEGG提供了Java的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。 网址:http://www.genome.jp/kegg/ 软件:blastp(blastx) 一般标准:1e-5
使用提示:通过与KEGG数据库进行比对,我们可以了解基因可能参与的代谢途径。
图7-8 KEGG的代谢途径 5)COG数据库 介绍:COGs(Clusters of Orthologous Groups of proteins)蛋白质直系同源簇数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成。COG 库
对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。通过某个蛋白质与所有COGs中的蛋白质进行比对,可以把它归入适当的COG家族。 网址:http://www.ncbi.nlm.nih.gov/COG 软件:blastp(blastx) 一般标准:1e-5
使用说明:做完全部基因与COG数据库比对后,我可以对基因在功能上进行一下分类,如图7-9所示。
图 7-9 COG功能分类图 6)Interpro
介绍:Interpro是一个关于蛋白家族、功能保守区域、和功能位点的数据库,它整合了已知功能蛋白的特点,并应用于功能未知的蛋白进行注释。 网址:http://www.ebi.ac.uk/interpro/ 软件:interproscan (7)GO
介绍:GO(Gene Ontology)是用一套具有动态形式的控制字汇来解释真核生物的基因或蛋白质在细胞内所扮演的角色及生医学方面的知识,同时这些字汇随着生命科学研究的进步,一直不断的累积与改变。一个本体会被一个控制字汇来描述并给予统一的名称,到目前为止,在Gene Ontology下有三大独立的本体被建立:biological process,molecular function及cellular component。一个基因或蛋白质可从3个层面进行注解,首先是构成在细胞内的特定组件cellular 过程(biologicalprocess),因此科学家试着收集各真核生物(如SGD、MGI、FlyBase、..)的基因或蛋白质,利用已知component,其次是此组件在分子功能上所扮演的角色,最后是基因或蛋白质参与的生物的文献资料及序列比较资讯为基础,将所有的真核生物的基因或蛋白质都基于在此系统下作注解与分类。
网址:http://www.geneontology.org/ or http://www.ebi.ac.uk/GO/index.html 软件:interproscan
提示:我么也可以通过基因与SwissProt/COG数据比对,把已知蛋白的GO信息转加给你的基因,比对的标准,可以设定为 1e-10或更高一点。图7-10是一张GO的功能分类图,可以到http://wego.genomics.org.cn/cgi-bin/wego/index.pl画GO的分类图。
图7-10 GO功能分类图
7.1.3 BGI EST Pipeline(BEP)介绍
北京华大基因研究中心(BGI)总结了多年EST分析的经验,开发了一套EST分析的软件包,它整合了上面介绍的各项分析,使得EST分析简易化、流程化,以适应高通量的EST分析要求。使用该软件包进行EST分析,可以大大提高分析的速度和准确性,进而提高了科学研究的速度。下面介绍一下该软件包的用法,如需获得该软件包请与BGI EST分析小组联系。
1、硬件和软件配置
操作系统:BEP是Linux下开发并运行的。
程序语言:BEP后台程序使用Perl和C SHELL编写。 软件和数据库需求:
BEP需要下列第三方软件和公共数据库:
Perl5.0或更高版本,可以到下面网址下载http://perl.org(特别要注意安装Perl的GD模块,分析中要用到GD模块画图)。
Linux平台的blastall和formatdb,可以到下面网址下载: ftp://ftp.ncbi.nih.gov/blast/executables/ Phred,请与swxfr@u.washington.edu联系索要软件。
Cross_match,请与phg@u.washington.edu联系索要软件。
uicluster2-1.1可以到下面网址下载:http://genome.uiowa.edu/pubsoft/software.html Getorf,可以到下面网址下载:http://emboss.sourceforge.net
InterProScan,可以到下面网址下载:ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/t Non-Redundant Protein Database(NR):可以到下面网址下载:ftp://ftp.ncbi.nlm.gov Non-Redundant Nucleotide Database(NT):可以到下面网址下载:ftp://ftp.ncbi.nlm.gov SWISSPROT数据库:可以到下面网址下载:http://www.ebi.ac.ck/swissprot Cluster of Othologues Groups Proteins Database(COG),可以到下面网址下载:http://www.ncbi.nlm.gov/COG