基因表达分析(4)

2018-11-23 21:53

Kyoto Encyclopedia of Genes and Genomes Database（KEGG），可以到下面网址下载：http://www.genome.ad.jp/kegg 2、程序的安装：

（1）解压文件BEP_Backend_Programs.tar.gz $ gzip - d BEP_Backend_Programs.tar.gz $ tar - xvf BEP_Backend_Programs.tar.gz

（2）在解压后的目录里有一个BEP.Config文件，请修改第三方软件和数据库的位置，下面是个例子：

binpath = /disk2/prj0317/Est_Pipeline/bin perl = /usr/local/bin/perl

phred = /usr/local/genome/bin/phred

phd2fasta = /usr/local/genome/bin/phd2fasta

cross_match = /usr/local/genome/bin/cross_match blastall = /usr/local/genome/bin/blastall

phrap_manyreads = /usr/local/genome/bin/phrap phrap = /usr/local/genome/bin/phrap

getorf = /ust/local/genome/EMBOSS -2.6.0/bin/getorf

InterProScan = /disk16/prj0317/interpro_bin/iprscan/interProScan.pl

nr = /disk2/database/public.3800A/NCBI/ftp.ncbi.nlm.nih.gov/BLAST/nr/2006 - 07 - 11/nr nt = /disk2/database/public.3800A/NCBI/ftp.ncbi.nlm.nih.gov/BLAST/nr/2006 - 07 - 11/nt swissprot = /disk2/prj0317/Database/swissprot/uniprot_sprot_2006_06_27.fasta kegg = /disk2/prj0317/Est_Pipeline/Database/kegg/kegg_35.fa cog = /disk2/prj0317/Est_Pipeline/Database/cog/myva

uicluster = /disk2/prj0317/Est_Pipeline/Bio_Soft/uicluster2 - 1.1/bin/uicluster2

请确保上面第三方软件和数据库已经在你系统中安装并测试完毕。（3）运行.prel BEP_Byte.pl适当调整参数就可以进行EST分析了。 3、程序使用说明及结果介绍 1）项目信息参数参数：

-project：EST项目的名称，给一个项目说明性标识符号，如WTEA。（必需参数）

-outdir：结果的输出目录，会在该目录下面生一个Output目录（各项分析的结果会在这个目录下面，还有一个Script目录，生成程序运行的过程日志文件。（必需参数）

-system：程序默认为直接投放任务，同时支持SGE qsub投放任务，需要将此参数设定为“-system sge”。 2）输入选项参数参数：

-input_chromato：如果输入的是峰图文件，请选择“-input_chromato峰图文件”。可以输入峰图的文件夹，或文件夹的压缩文件，目前支持zip和tar.gz压缩格式。

-input_sequence：如果输入的是序列文件，请选择“-input_sequence序列文件”。 -input_qual：如果有输入序列文件的质量文件，请选择“-input_qual质量文件”。

-input_vector：要屏蔽的载体序列，如果你选择了下面的“-crossmatch”要屏蔽载体，那么这个参数是必须的。注意：

（1）请输入你要做分析的EST序列的峰图文件或序列文件，目前只支持fasta格式的序

列文件，要屏蔽载体，不要忘记输入载体序列。

（2）下面介绍各项分析的参数，如果你要做哪些分析，请选上该项分析的标识参数，例如：如果你要处理峰图生成序列文件，请选择-phred参数，要做nt库注释，请选择-nt参数。

3）EST基本的分析选各项

（1）处理峰图，生成序列文件。参数：

-phred：要处理峰图，请选上这个参数。

-phred_trim_cutoff：设定去除低质量碱基时，碱基可能出现错误的概率。默认是0.05。结果示范与说明： Phred：（Output目录下面）

FASTA： Phred结果中fasta结果文件夹 PHD： Phred结果中phd结果文件夹 WTEA.seq：序列文件

WTEA.seq.qual：序列的质量文件

（2）提纯序列文件（去除载体，polyA，短序列）。参数：

-crossmatch：要屏蔽序列中载体序列，请选上这个参数。

-wipe_polya：要去除载体中的polyA尾巴，请选上这个参数。如果不想去除polyA尾，请将这个参数设定为“-wipe_polya 0”，流程默认去除polyA尾巴序列。

-filter_short：过滤短的序列，默认过滤小于100bp的序列，可以自由设定过滤的标准。如果不想过滤，请设定此参数为“-filter_short 0”。结果示范与说明： Raw：

WTEA.seq：序列文件

WTEA.seq.qual：序列的质量文件

WTEA.seq.screen：去除载体序列后的文件

WTEA.seq.screen.checked：去除载体序列后的文件进一步检测 WTEA.seq.screen.qual：去除载体序列后的文件的质量文件

WTEA_Raw_EST_Info.xls：为提纯前的EST序列信息（长度、GC等） nopolyA.seq：去除polyA后的序列

nopolyA.seq.qual：去除polyA后的序列的质量文件

（3）序列聚类（也可以不做这步，直接用下步的phrap聚类拼接）参数：

-clustering：要聚类EST，请选上这个参数

-clu_matchlen：两个EST聚类在一起的最小比配长度，默认是40bp

-clu_errlimit：在clu_matchlen匹配长度中最大的错误匹配碱基数，默认是2 （4）序列拼接参数：

-phrap：要拼接EST，得到一致序列，请选上这个参数

-phrap_minmatch：两个EST拼接在一起的最小比配长度，默认是30bp -phrap_minscore：匹配的最小分值，默认是30

-phrap_stringency：匹配区域的identiry，默认是0.95 结果示范与说明：

a . 先聚类后拼接的结果（有两部分） Clustering_Assembly：

WTEA.CleanEST.seq.clus：聚类的结果

WTEA_Cluster_Assembly.fasta：类大于等于2个EST的拼接结果

WTEA_Cluster_Assembly.list：每一类拼接后得到一致序列与EST的对应关系列表 WTEA_Sinlets.fasta：单独得EST为一类的序列

WTEA_Sinlets.list：单独得EST为一类的序列与EST的对应关系列表 Unigene：

WTEA.Unigene2EST.xls：拼接后每一个一致序列（unigene）与原来的EST的对应关系 WTEA.Unigene.seq：拼接后一致序列（unigene）文件 b . 直接用phrap拼接的结果 Unigene：

Contigs_EST.xls：拼接后每条contigs对应的ESTs信息 WTEA.CleanEST.seq.ace：拼接的ACE文件 WTEA.CleanEST.seq.contigs：拼接的congtigs文件

WTEA.CleanEST.seq.contigs.qual：拼接的congtigs文件的质量文件 WTEA.CleanEST.seq.singlets：拼接的singlets文件

WTEA.Unigene.seq：拼接的congtigs+singlets文件 phrap.list： Phrap的输出结果简化信息 phrap.out： Phrap的输出结果（5）开放阅读框（ORF）的预测：参数：

-orf：要预测unigene的开放阅读框，请选上这个参数 -orf_minsize：开放阅读框的最小长度，默认是100bp 结果示范与说明： Orf：

WTEA.Unigene.seq.orf.codon.usage.list： Codon Usage的统计信息 WTEA.Unigene.seq_3_20.orf：预测的ORF

WTEA.Unigene.seq_3_20.orf.longest：预测的ORF每条基因选取了一条最长的

WTEA.Unigene.seq_3_20.orf.longest.pro：预测的ORF每条基因选取了一条最长的蛋白序列（6）基因的功能注释和分类： a . NCBI NT Database

参数：

-nt：用NT数据库对unigene进行注释 -nt_e： BLAST E VALUE，经验参数le-5

-nt_group：并行的处理数据，将输入的序列分成分去注释，默认是3 -nt_blast_type： BLAST的类型，默认是blastn 结果示范与说明： Nt：

WTEA.Unigene.Nt.B：与NT库比对的BLASTN原始结果 WTEA.Unigene.Nt.B.O：与NT库比对的BLASTN提取结果

WTEA.Unigene.Nt.B.O.Best：与NT库比对的BLASTN提取结果，选取一个最好的 b . NCBI NR Database 参数：

-nr：用NR数据库对unigene进行注释 -nr_e： BLAST E VALUE，经验参数1e-5

-nr_group：并行的处理数据，将输入的序列分成分去注释，默认是3 -nr_blast_type： BLAST的类型，默认是blastx 结果示范与说明： Nr：

WTEA.Unigene.Nr.B：与NR库比对的BLASTX原始结果 WTEA.Unigene.Nr.B.O：与NR库比对的BLASTX提取结果

WTEA.Unigene.Nr.B.O.Best：与NR库比对的BLASTX提取结果，选取一个最好的 c . SwissProt Database

参数：

-swissprot：用NR数据库对unigene进行注释 -swissprot_e： BLAST E VALUE，经验参数1e-5

-swissprot_group：并行的处理数据，将输入的序列分成分去注释，默认是3 -swissprot_blast_type： BLAST的类型，默认是blastx 结果示范与说明： Swissprot：

WTEA.Unigene.Swissprot.B：与Swissprot库比对的BLASTX原始结果 WTEA.Unigene.Swissprot.B.O：与Swissprot库比对的BLASTX提取结果

WTEA.Unigene.Swissprot.B.O.Best：与Swissprot库比对的BLASTX提取结果，选取一个最好的 d . COG Database（Clusters of Orthologous Groups of proteins）参数：

-cog：用COG数据库对unigene进行注释 -cog_e： BLAST E VALUE，经验参数le-5

-cog_group：并行的处理数据，将输入的序列分成分去注释，默认是3 -cog_blast_type： BLAST的类型，默认是blastx 结果示范与说明： COG：

WTEA.Unigene.COG.B：与COG库比对的BLASTX原始结果 WTEA.Unigene.COG.B.O：与COG库比对的BLASTX提取结果 WTEA_COG_Class.txt： COG注释信息

WTEA_COG_Class.txt_Statistic.xls： COG分类的统计信息 WTEA_COG_Map.png： COG分类的图

e . KEGG Pathway Database（Clusters of Orthologous Groups of proteins）参数：

-kegg：用KEGG数据库对unigene进行注释 -kegg_e： BLAST E VALUE，经验参数1e-5

-kegg_group：并行的处理数据，将输入的序列分成分去注释，默认是3 -kegg_blast_type： BLAST的类型，默认是blastx 结果示范与说明： Kegg：

WTEA.Unigene.ec：基因注释的ec号

WTEA.Unigene.ec.map：基因注释的ec号对应代谢图

WTEA.Unigene.kegg.B：与KEGG库比对的BLASTX原始结果

WTEA.Unigene.kegg.B.O：与KEGG库比对的BLASTX提取结果

WTEA.Unigene.kegg.B.O.Best：与KEGG库比对的BLASTX提取结果，选取一个最好的 WTEA.Unigene.kegg.Pathway：基因对应的PANTHWAY信息

f . Interpro and GO（这套系统用interproscan去注释基因，得到基因GO注释信息）参数：

-interpro：用interproscan对基因进行注释，并得到基因的GO信息

-interpro_type：如果序列是核酸序列参数为nt，如果序列是蛋白序列参数为aa -interpro_group：将序列分成几份，默认是3 结果示范与说明： Interpro：

WTEA.gene.interpro.txt：基因的intepro注释信息

WTEA.go.Biological.Process：基因Biological Process方面GO注释的信息 WTEA.go.Cellular.Component：基因Cellular Component方面GO注释的信息 WTEA.go.Molecular.Function：基因Molecular Function方面GO注释的信息 WTEA.go.seg：GO的分类图

WTEA.go.txt：基因的GO注释信息

WTEA.go.txt_gene_list.txt：每一类GO分类对应的基因 WTEA.interpro.classify.txt：基因interpro注释信息的统计 WTEA.ipr.go：基因interpro以及GO注释信息 WTEA_.GO_Anno.txt：基因的GO注释信息 merged.txt：Interproscan结果（7）常规分析举例：

①从峰图开始分析，要做这套流程的所有分析，可以参照下面的命令行：

$ perl BEP_Byte.pl -project WTEA -outdir ./ -input_chromato test_scf.tar.gz - input_vector../../.. /bin/vector/pBluescript +. fa -phred -crossmatch -clustering -phrap - orf - swissprot - cog - kegg - interpro

注解：test_ scf.tar.gz是峰图文件夹的压缩文件，也可以输入峰图文件夹的位置。 ②从序列文件开始分析，要做这套流程的所有分析，可以参照下面的命令行：

$ perl BEP_Byte.pl -project WTEA -outdir ./ -input_sequence test.seq - input_qual test.seq.qual -input_vector../../.. /bin/vector/pBluescript +. fa -crossmatch -clustering -phrap - orf -nt - swissprot - cog - kegg - interpro

注解：如果输入序列，就没有必要加上-phred选项了。

③如果是用SGE qsub对列管理系统，请加上“- system sge”。例如：

$ perl BEP_Byte.pl -project WTEA -outdir ./ -system sge - input_chromato test_scf.tar.gz - input_vector../../.. /bin/vector/pBluescript +. fa -phred -crossmatch -clustering -phrap - orf - nt - nr -swissprot - cog - kegg - interpro 7.1.4 EST的应用

1 基因可变剪切的识别

在真核等高等生物中，基因在转录以后存在多种剪切形式，剪切成mRNA来翻译蛋白质序列，这体现了基因的多样性。我们通过建立cDNA文库，测得EST序列，可以了解基因的不同剪切形式。

可变剪切的可分类为：（1）内含子残留

（2）可变的donor位点

（3）可变的acceptor位点（4）exon越迁

（5）互相排斥的exon

图7-11 可变剪切的不同类型 7.1.4 实例

下面我们以水稻的Rubisco activase基因为例，看一下它的可变剪切形式有哪些？方法步骤：

（1）在NCBI数据库中搜索水稻的Rubisco activase基因相关的EST数据，包括CDS （2）收集到180条EST数据

（3）用phrap软件拼接这些序列，得到6个contigs

（4）将这6个congtigs用sim4软件比对到水稻的基因组上

（5）可以看出Rubisco activase至少存在两种剪切形式。如图7-12所示。

图7-12 水稻Rubisco activase基因的剪切形式 2 基于EST序列比较的SNPs的筛查

（1）Picoult等利用公共的EST数据库快速筛查候选的SNPs。他们从EST数据库中提取了19个不同的cDNA文库，利用Phred软件对300，000条EST序列进行碱基判读，然后用Phrap软件进行重叠群组装，最后用Consed软件进行SNP的查看分析。他们共筛查出850个候选的SNPs位点，然后他们选取88个位点，证实了55个，证实率62.5%。

（2）Useche等采用Phrap/CAT/PolyBayes软件从公共数据库下载了68,000条玉米的EST序列，发现了2439个候选的SNPs位点以及822个插入/缺失多态性位点（InDel）。

（3）Jalving等通过对来自ChickEST计划的327,000条EST检测候选的SNP位点，利用Phred/Phrap/Consed软件包共筛查出32,268个候选SNPs位点。并构建了一个高密度的SNP遗传图谱。为了证实其可靠性，选取24个BalⅡ酶作用的SNPs位点，进行RFLP检测，并证实了21个位点，检出率87.5%。

共5页:

基因表达分析(4).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档