Kyoto Encyclopedia of Genes and Genomes Database(KEGG),可以到下面网址下载:http://www.genome.ad.jp/kegg 2、程序的安装:
(1)解压文件BEP_Backend_Programs.tar.gz $ gzip - d BEP_Backend_Programs.tar.gz $ tar - xvf BEP_Backend_Programs.tar.gz
(2)在解压后的目录里有一个BEP.Config文件,请修改第三方软件和数据库的位置,下面是个例子:
binpath = /disk2/prj0317/Est_Pipeline/bin perl = /usr/local/bin/perl
phred = /usr/local/genome/bin/phred
phd2fasta = /usr/local/genome/bin/phd2fasta
cross_match = /usr/local/genome/bin/cross_match blastall = /usr/local/genome/bin/blastall
phrap_manyreads = /usr/local/genome/bin/phrap phrap = /usr/local/genome/bin/phrap
getorf = /ust/local/genome/EMBOSS -2.6.0/bin/getorf
InterProScan = /disk16/prj0317/interpro_bin/iprscan/interProScan.pl
nr = /disk2/database/public.3800A/NCBI/ftp.ncbi.nlm.nih.gov/BLAST/nr/2006 - 07 - 11/nr nt = /disk2/database/public.3800A/NCBI/ftp.ncbi.nlm.nih.gov/BLAST/nr/2006 - 07 - 11/nt swissprot = /disk2/prj0317/Database/swissprot/uniprot_sprot_2006_06_27.fasta kegg = /disk2/prj0317/Est_Pipeline/Database/kegg/kegg_35.fa cog = /disk2/prj0317/Est_Pipeline/Database/cog/myva
uicluster = /disk2/prj0317/Est_Pipeline/Bio_Soft/uicluster2 - 1.1/bin/uicluster2
请确保上面第三方软件和数据库已经在你系统中安装并测试完毕。 (3)运行.prel BEP_Byte.pl适当调整参数就可以进行EST分析了。 3、程序使用说明及结果介绍 1)项目信息参数 参数:
-project:EST项目的名称,给一个项目说明性标识符号,如WTEA。(必需参数)
-outdir:结果的输出目录,会在该目录下面生一个Output目录(各项分析的结果会在这个目录下面,还有一个Script目录,生成程序运行的过程日志文件。(必需参数)
-system:程序默认为直接投放任务,同时支持SGE qsub投放任务,需要将此参数设定为“-system sge”。 2)输入选项参数 参数:
-input_chromato:如果输入的是峰图文件,请选择“-input_chromato峰图文件”。可以输入峰图的文件夹,或文件夹的压缩文件,目前支持zip和tar.gz压缩格式。
-input_sequence:如果输入的是序列文件,请选择“-input_sequence序列文件”。 -input_qual:如果有输入序列文件的质量文件,请选择“-input_qual质量文件”。
-input_vector:要屏蔽的载体序列,如果你选择了下面的“-crossmatch”要屏蔽载体,那么这个参数是必须的。 注意:
(1)请输入你要做分析的EST序列的峰图文件或序列文件,目前只支持fasta格式的序
列文件,要屏蔽载体,不要忘记输入载体序列。
(2)下面介绍各项分析的参数,如果你要做哪些分析,请选上该项分析的标识参数,例如:如果你要处理峰图生成序列文件,请选择-phred参数,要做nt库注释,请选择-nt参数。
3)EST基本的分析选各项
(1)处理峰图,生成序列文件。 参数:
-phred:要处理峰图,请选上这个参数。
-phred_trim_cutoff:设定去除低质量碱基时,碱基可能出现错误的概率。默认是0.05。 结果示范与说明: Phred:(Output目录下面)
FASTA: Phred结果中fasta结果文件夹 PHD: Phred结果中phd结果文件夹 WTEA.seq: 序列文件
WTEA.seq.qual: 序列的质量文件
(2)提纯序列文件(去除载体,polyA,短序列)。 参数:
-crossmatch:要屏蔽序列中载体序列,请选上这个参数。
-wipe_polya:要去除载体中的polyA尾巴,请选上这个参数。如果不想去除polyA尾,请将这个参数设定为“-wipe_polya 0”,流程默认去除polyA尾巴序列。
-filter_short:过滤短的序列,默认过滤小于100bp的序列,可以自由设定过滤的标准。如果不想过滤,请设定此参数为“-filter_short 0”。 结果示范与说明: Raw:
WTEA.seq: 序列文件
WTEA.seq.qual: 序列的质量文件
WTEA.seq.screen: 去除载体序列后的文件
WTEA.seq.screen.checked: 去除载体序列后的文件进一步检测 WTEA.seq.screen.qual: 去除载体序列后的文件的质量文件
WTEA_Raw_EST_Info.xls: 为提纯前的EST序列信息(长度、GC等) nopolyA.seq: 去除polyA后的序列
nopolyA.seq.qual: 去除polyA后的序列的质量文件
(3)序列聚类(也可以不做这步,直接用下步的phrap聚类拼接) 参数:
-clustering: 要聚类EST,请选上这个参数
-clu_matchlen: 两个EST聚类在一起的最小比配长度,默认是40bp
-clu_errlimit: 在clu_matchlen匹配长度中最大的错误匹配碱基数,默认是2 (4)序列拼接 参数:
-phrap: 要拼接EST,得到一致序列,请选上这个参数
-phrap_minmatch: 两个EST拼接在一起的最小比配长度,默认是30bp -phrap_minscore: 匹配的最小分值,默认是30
-phrap_stringency: 匹配区域的identiry,默认是0.95 结果示范与说明:
a . 先聚类后拼接的结果(有两部分) Clustering_Assembly:
WTEA.CleanEST.seq.clus: 聚类的结果
WTEA_Cluster_Assembly.fasta: 类大于等于2个EST的拼接结果
WTEA_Cluster_Assembly.list: 每一类拼接后得到一致序列与EST的对应关系列表 WTEA_Sinlets.fasta: 单独得EST为一类的序列
WTEA_Sinlets.list: 单独得EST为一类的序列与EST的对应关系列表 Unigene:
WTEA.Unigene2EST.xls: 拼接后每一个一致序列(unigene)与原来的EST的对应关系 WTEA.Unigene.seq: 拼接后一致序列(unigene)文件 b . 直接用phrap拼接的结果 Unigene:
Contigs_EST.xls: 拼接后每条contigs对应的ESTs信息 WTEA.CleanEST.seq.ace: 拼接的ACE文件 WTEA.CleanEST.seq.contigs: 拼接的congtigs文件
WTEA.CleanEST.seq.contigs.qual: 拼接的congtigs文件的质量文件 WTEA.CleanEST.seq.singlets: 拼接的singlets文件
WTEA.Unigene.seq: 拼接的congtigs+singlets文件 phrap.list: Phrap的输出结果简化信息 phrap.out: Phrap的输出结果 (5)开放阅读框(ORF)的预测: 参数:
-orf: 要预测unigene的开放阅读框,请选上这个参数 -orf_minsize: 开放阅读框的最小长度,默认是100bp 结果示范与说明: Orf:
WTEA.Unigene.seq.orf.codon.usage.list: Codon Usage的统计信息 WTEA.Unigene.seq_3_20.orf: 预测的ORF
WTEA.Unigene.seq_3_20.orf.longest: 预测的ORF每条基因选取了一条最长的
WTEA.Unigene.seq_3_20.orf.longest.pro: 预测的ORF每条基因选取了一条最长的蛋白序列 (6)基因的功能注释和分类: a . NCBI NT Database
参数:
-nt: 用NT数据库对unigene进行注释 -nt_e: BLAST E VALUE,经验参数le-5
-nt_group: 并行的处理数据,将输入的序列分成分去注释,默认是3 -nt_blast_type: BLAST的类型,默认是blastn 结果示范与说明: Nt:
WTEA.Unigene.Nt.B: 与NT库比对的BLASTN原始结果 WTEA.Unigene.Nt.B.O: 与NT库比对的BLASTN提取结果
WTEA.Unigene.Nt.B.O.Best: 与NT库比对的BLASTN提取结果,选取一个最好的 b . NCBI NR Database 参数:
-nr: 用NR数据库对unigene进行注释 -nr_e: BLAST E VALUE,经验参数1e-5
-nr_group: 并行的处理数据,将输入的序列分成分去注释,默认是3 -nr_blast_type: BLAST的类型,默认是blastx 结果示范与说明: Nr:
WTEA.Unigene.Nr.B: 与NR库比对的BLASTX原始结果 WTEA.Unigene.Nr.B.O: 与NR库比对的BLASTX提取结果
WTEA.Unigene.Nr.B.O.Best: 与NR库比对的BLASTX提取结果,选取一个最好的 c . SwissProt Database
参数:
-swissprot: 用NR数据库对unigene进行注释 -swissprot_e: BLAST E VALUE,经验参数1e-5
-swissprot_group: 并行的处理数据,将输入的序列分成分去注释,默认是3 -swissprot_blast_type: BLAST的类型,默认是blastx 结果示范与说明: Swissprot:
WTEA.Unigene.Swissprot.B: 与Swissprot库比对的BLASTX原始结果 WTEA.Unigene.Swissprot.B.O: 与Swissprot库比对的BLASTX提取结果
WTEA.Unigene.Swissprot.B.O.Best:与Swissprot库比对的BLASTX提取结果,选取一个最好的 d . COG Database(Clusters of Orthologous Groups of proteins) 参数:
-cog: 用COG数据库对unigene进行注释 -cog_e: BLAST E VALUE,经验参数le-5
-cog_group: 并行的处理数据,将输入的序列分成分去注释,默认是3 -cog_blast_type: BLAST的类型,默认是blastx 结果示范与说明: COG:
WTEA.Unigene.COG.B: 与COG库比对的BLASTX原始结果 WTEA.Unigene.COG.B.O: 与COG库比对的BLASTX提取结果 WTEA_COG_Class.txt: COG注释信息
WTEA_COG_Class.txt_Statistic.xls: COG分类的统计信息 WTEA_COG_Map.png: COG分类的图
e . KEGG Pathway Database(Clusters of Orthologous Groups of proteins) 参数:
-kegg: 用KEGG数据库对unigene进行注释 -kegg_e: BLAST E VALUE,经验参数1e-5
-kegg_group: 并行的处理数据,将输入的序列分成分去注释,默认是3 -kegg_blast_type: BLAST的类型,默认是blastx 结果示范与说明: Kegg:
WTEA.Unigene.ec: 基因注释的ec号
WTEA.Unigene.ec.map: 基因注释的ec号对应代谢图
WTEA.Unigene.kegg.B: 与KEGG库比对的BLASTX原始结果
WTEA.Unigene.kegg.B.O: 与KEGG库比对的BLASTX提取结果
WTEA.Unigene.kegg.B.O.Best: 与KEGG库比对的BLASTX提取结果,选取一个最好的 WTEA.Unigene.kegg.Pathway: 基因对应的PANTHWAY信息
f . Interpro and GO(这套系统用interproscan去注释基因,得到基因GO注释信息) 参数:
-interpro: 用interproscan对基因进行注释,并得到基因的GO信息
-interpro_type: 如果序列是核酸序列参数为nt,如果序列是蛋白序列参数为aa -interpro_group: 将序列分成几份,默认是3 结果示范与说明: Interpro:
WTEA.gene.interpro.txt:基因的intepro注释信息
WTEA.go.Biological.Process:基因Biological Process方面GO注释的信息 WTEA.go.Cellular.Component:基因Cellular Component方面GO注释的信息 WTEA.go.Molecular.Function:基因Molecular Function方面GO注释的信息 WTEA.go.seg:GO的分类图
WTEA.go.txt:基因的GO注释信息
WTEA.go.txt_gene_list.txt:每一类GO分类对应的基因 WTEA.interpro.classify.txt:基因interpro注释信息的统计 WTEA.ipr.go:基因interpro以及GO注释信息 WTEA_.GO_Anno.txt:基因的GO注释信息 merged.txt:Interproscan结果 (7)常规分析举例:
①从峰图开始分析,要做这套流程的所有分析,可以参照下面的命令行:
$ perl BEP_Byte.pl -project WTEA -outdir ./ -input_chromato test_scf.tar.gz - input_vector../../.. /bin/vector/pBluescript +. fa -phred -crossmatch -clustering -phrap - orf - swissprot - cog - kegg - interpro
注解:test_ scf.tar.gz是峰图文件夹的压缩文件,也可以输入峰图文件夹的位置。 ②从序列文件开始分析,要做这套流程的所有分析,可以参照下面的命令行:
$ perl BEP_Byte.pl -project WTEA -outdir ./ -input_sequence test.seq - input_qual test.seq.qual -input_vector../../.. /bin/vector/pBluescript +. fa -crossmatch -clustering -phrap - orf -nt - swissprot - cog - kegg - interpro
注解:如果输入序列,就没有必要加上-phred选项了。
③如果是用SGE qsub对列管理系统,请加上“- system sge”。例如:
$ perl BEP_Byte.pl -project WTEA -outdir ./ -system sge - input_chromato test_scf.tar.gz - input_vector../../.. /bin/vector/pBluescript +. fa -phred -crossmatch -clustering -phrap - orf - nt - nr -swissprot - cog - kegg - interpro 7.1.4 EST的应用
1 基因可变剪切的识别
在真核等高等生物中,基因在转录以后存在多种剪切形式,剪切成mRNA来翻译蛋白质序列,这体现了基因的多样性。我们通过建立cDNA文库,测得EST序列,可以了解基因的不同剪切形式。
可变剪切的可分类为: (1)内含子残留
(2)可变的donor位点
(3)可变的acceptor位点 (4)exon越迁
(5)互相排斥的exon
图7-11 可变剪切的不同类型 7.1.4 实例
下面我们以水稻的Rubisco activase基因为例,看一下它的可变剪切形式有哪些? 方法步骤:
(1)在NCBI数据库中搜索水稻的Rubisco activase基因相关的EST数据,包括CDS (2)收集到180条EST数据
(3)用phrap软件拼接这些序列,得到6个contigs
(4)将这6个congtigs用sim4软件比对到水稻的基因组上
(5)可以看出Rubisco activase至少存在两种剪切形式。如图7-12所示。
图7-12 水稻Rubisco activase基因的剪切形式 2 基于EST序列比较的SNPs的筛查
(1)Picoult等利用公共的EST数据库快速筛查候选的SNPs。他们从EST数据库中提取了19个不同的cDNA文库,利用Phred软件对300,000条EST序列进行碱基判读,然后用Phrap软件进行重叠群组装,最后用Consed软件进行SNP的查看分析。他们共筛查出850个候选的SNPs位点,然后他们选取88个位点,证实了55个,证实率62.5%。
(2)Useche等采用Phrap/CAT/PolyBayes软件从公共数据库下载了68,000条玉米的EST序列,发现了2439个候选的SNPs位点以及822个插入/缺失多态性位点(InDel)。
(3)Jalving等通过对来自ChickEST计划的327,000条EST检测候选的SNP位点,利用Phred/Phrap/Consed软件包共筛查出32,268个候选SNPs位点。并构建了一个高密度的SNP遗传图谱。为了证实其可靠性,选取24个BalⅡ酶作用的SNPs位点,进行RFLP检测,并证实了21个位点,检出率87.5%。