基因表达分析(4)

2018-11-23 21:53

Kyoto Encyclopedia of Genes and Genomes Database(KEGG),可以到下面网址下载:http://www.genome.ad.jp/kegg 2、程序的安装:

(1)解压文件BEP_Backend_Programs.tar.gz $ gzip - d BEP_Backend_Programs.tar.gz $ tar - xvf BEP_Backend_Programs.tar.gz

(2)在解压后的目录里有一个BEP.Config文件,请修改第三方软件和数据库的位置,下面是个例子:

binpath = /disk2/prj0317/Est_Pipeline/bin perl = /usr/local/bin/perl

phred = /usr/local/genome/bin/phred

phd2fasta = /usr/local/genome/bin/phd2fasta

cross_match = /usr/local/genome/bin/cross_match blastall = /usr/local/genome/bin/blastall

phrap_manyreads = /usr/local/genome/bin/phrap phrap = /usr/local/genome/bin/phrap

getorf = /ust/local/genome/EMBOSS -2.6.0/bin/getorf

InterProScan = /disk16/prj0317/interpro_bin/iprscan/interProScan.pl

nr = /disk2/database/public.3800A/NCBI/ftp.ncbi.nlm.nih.gov/BLAST/nr/2006 - 07 - 11/nr nt = /disk2/database/public.3800A/NCBI/ftp.ncbi.nlm.nih.gov/BLAST/nr/2006 - 07 - 11/nt swissprot = /disk2/prj0317/Database/swissprot/uniprot_sprot_2006_06_27.fasta kegg = /disk2/prj0317/Est_Pipeline/Database/kegg/kegg_35.fa cog = /disk2/prj0317/Est_Pipeline/Database/cog/myva

uicluster = /disk2/prj0317/Est_Pipeline/Bio_Soft/uicluster2 - 1.1/bin/uicluster2

请确保上面第三方软件和数据库已经在你系统中安装并测试完毕。 (3)运行.prel BEP_Byte.pl适当调整参数就可以进行EST分析了。 3、程序使用说明及结果介绍 1)项目信息参数 参数:

-project:EST项目的名称,给一个项目说明性标识符号,如WTEA。(必需参数)

-outdir:结果的输出目录,会在该目录下面生一个Output目录(各项分析的结果会在这个目录下面,还有一个Script目录,生成程序运行的过程日志文件。(必需参数)

-system:程序默认为直接投放任务,同时支持SGE qsub投放任务,需要将此参数设定为“-system sge”。 2)输入选项参数 参数:

-input_chromato:如果输入的是峰图文件,请选择“-input_chromato峰图文件”。可以输入峰图的文件夹,或文件夹的压缩文件,目前支持zip和tar.gz压缩格式。

-input_sequence:如果输入的是序列文件,请选择“-input_sequence序列文件”。 -input_qual:如果有输入序列文件的质量文件,请选择“-input_qual质量文件”。

-input_vector:要屏蔽的载体序列,如果你选择了下面的“-crossmatch”要屏蔽载体,那么这个参数是必须的。 注意:

(1)请输入你要做分析的EST序列的峰图文件或序列文件,目前只支持fasta格式的序

列文件,要屏蔽载体,不要忘记输入载体序列。

(2)下面介绍各项分析的参数,如果你要做哪些分析,请选上该项分析的标识参数,例如:如果你要处理峰图生成序列文件,请选择-phred参数,要做nt库注释,请选择-nt参数。

3)EST基本的分析选各项

(1)处理峰图,生成序列文件。 参数:

-phred:要处理峰图,请选上这个参数。

-phred_trim_cutoff:设定去除低质量碱基时,碱基可能出现错误的概率。默认是0.05。 结果示范与说明: Phred:(Output目录下面)

FASTA: Phred结果中fasta结果文件夹 PHD: Phred结果中phd结果文件夹 WTEA.seq: 序列文件

WTEA.seq.qual: 序列的质量文件

(2)提纯序列文件(去除载体,polyA,短序列)。 参数:

-crossmatch:要屏蔽序列中载体序列,请选上这个参数。

-wipe_polya:要去除载体中的polyA尾巴,请选上这个参数。如果不想去除polyA尾,请将这个参数设定为“-wipe_polya 0”,流程默认去除polyA尾巴序列。

-filter_short:过滤短的序列,默认过滤小于100bp的序列,可以自由设定过滤的标准。如果不想过滤,请设定此参数为“-filter_short 0”。 结果示范与说明: Raw:

WTEA.seq: 序列文件

WTEA.seq.qual: 序列的质量文件

WTEA.seq.screen: 去除载体序列后的文件

WTEA.seq.screen.checked: 去除载体序列后的文件进一步检测 WTEA.seq.screen.qual: 去除载体序列后的文件的质量文件

WTEA_Raw_EST_Info.xls: 为提纯前的EST序列信息(长度、GC等) nopolyA.seq: 去除polyA后的序列

nopolyA.seq.qual: 去除polyA后的序列的质量文件

(3)序列聚类(也可以不做这步,直接用下步的phrap聚类拼接) 参数:

-clustering: 要聚类EST,请选上这个参数

-clu_matchlen: 两个EST聚类在一起的最小比配长度,默认是40bp

-clu_errlimit: 在clu_matchlen匹配长度中最大的错误匹配碱基数,默认是2 (4)序列拼接 参数:

-phrap: 要拼接EST,得到一致序列,请选上这个参数

-phrap_minmatch: 两个EST拼接在一起的最小比配长度,默认是30bp -phrap_minscore: 匹配的最小分值,默认是30

-phrap_stringency: 匹配区域的identiry,默认是0.95 结果示范与说明:

a . 先聚类后拼接的结果(有两部分) Clustering_Assembly:

WTEA.CleanEST.seq.clus: 聚类的结果

WTEA_Cluster_Assembly.fasta: 类大于等于2个EST的拼接结果

WTEA_Cluster_Assembly.list: 每一类拼接后得到一致序列与EST的对应关系列表 WTEA_Sinlets.fasta: 单独得EST为一类的序列

WTEA_Sinlets.list: 单独得EST为一类的序列与EST的对应关系列表 Unigene:

WTEA.Unigene2EST.xls: 拼接后每一个一致序列(unigene)与原来的EST的对应关系 WTEA.Unigene.seq: 拼接后一致序列(unigene)文件 b . 直接用phrap拼接的结果 Unigene:

Contigs_EST.xls: 拼接后每条contigs对应的ESTs信息 WTEA.CleanEST.seq.ace: 拼接的ACE文件 WTEA.CleanEST.seq.contigs: 拼接的congtigs文件

WTEA.CleanEST.seq.contigs.qual: 拼接的congtigs文件的质量文件 WTEA.CleanEST.seq.singlets: 拼接的singlets文件

WTEA.Unigene.seq: 拼接的congtigs+singlets文件 phrap.list: Phrap的输出结果简化信息 phrap.out: Phrap的输出结果 (5)开放阅读框(ORF)的预测: 参数:

-orf: 要预测unigene的开放阅读框,请选上这个参数 -orf_minsize: 开放阅读框的最小长度,默认是100bp 结果示范与说明: Orf:

WTEA.Unigene.seq.orf.codon.usage.list: Codon Usage的统计信息 WTEA.Unigene.seq_3_20.orf: 预测的ORF

WTEA.Unigene.seq_3_20.orf.longest: 预测的ORF每条基因选取了一条最长的

WTEA.Unigene.seq_3_20.orf.longest.pro: 预测的ORF每条基因选取了一条最长的蛋白序列 (6)基因的功能注释和分类: a . NCBI NT Database

参数:

-nt: 用NT数据库对unigene进行注释 -nt_e: BLAST E VALUE,经验参数le-5

-nt_group: 并行的处理数据,将输入的序列分成分去注释,默认是3 -nt_blast_type: BLAST的类型,默认是blastn 结果示范与说明: Nt:

WTEA.Unigene.Nt.B: 与NT库比对的BLASTN原始结果 WTEA.Unigene.Nt.B.O: 与NT库比对的BLASTN提取结果

WTEA.Unigene.Nt.B.O.Best: 与NT库比对的BLASTN提取结果,选取一个最好的 b . NCBI NR Database 参数:

-nr: 用NR数据库对unigene进行注释 -nr_e: BLAST E VALUE,经验参数1e-5

-nr_group: 并行的处理数据,将输入的序列分成分去注释,默认是3 -nr_blast_type: BLAST的类型,默认是blastx 结果示范与说明: Nr:

WTEA.Unigene.Nr.B: 与NR库比对的BLASTX原始结果 WTEA.Unigene.Nr.B.O: 与NR库比对的BLASTX提取结果

WTEA.Unigene.Nr.B.O.Best: 与NR库比对的BLASTX提取结果,选取一个最好的 c . SwissProt Database

参数:

-swissprot: 用NR数据库对unigene进行注释 -swissprot_e: BLAST E VALUE,经验参数1e-5

-swissprot_group: 并行的处理数据,将输入的序列分成分去注释,默认是3 -swissprot_blast_type: BLAST的类型,默认是blastx 结果示范与说明: Swissprot:

WTEA.Unigene.Swissprot.B: 与Swissprot库比对的BLASTX原始结果 WTEA.Unigene.Swissprot.B.O: 与Swissprot库比对的BLASTX提取结果

WTEA.Unigene.Swissprot.B.O.Best:与Swissprot库比对的BLASTX提取结果,选取一个最好的 d . COG Database(Clusters of Orthologous Groups of proteins) 参数:

-cog: 用COG数据库对unigene进行注释 -cog_e: BLAST E VALUE,经验参数le-5

-cog_group: 并行的处理数据,将输入的序列分成分去注释,默认是3 -cog_blast_type: BLAST的类型,默认是blastx 结果示范与说明: COG:

WTEA.Unigene.COG.B: 与COG库比对的BLASTX原始结果 WTEA.Unigene.COG.B.O: 与COG库比对的BLASTX提取结果 WTEA_COG_Class.txt: COG注释信息

WTEA_COG_Class.txt_Statistic.xls: COG分类的统计信息 WTEA_COG_Map.png: COG分类的图

e . KEGG Pathway Database(Clusters of Orthologous Groups of proteins) 参数:

-kegg: 用KEGG数据库对unigene进行注释 -kegg_e: BLAST E VALUE,经验参数1e-5

-kegg_group: 并行的处理数据,将输入的序列分成分去注释,默认是3 -kegg_blast_type: BLAST的类型,默认是blastx 结果示范与说明: Kegg:

WTEA.Unigene.ec: 基因注释的ec号

WTEA.Unigene.ec.map: 基因注释的ec号对应代谢图

WTEA.Unigene.kegg.B: 与KEGG库比对的BLASTX原始结果

WTEA.Unigene.kegg.B.O: 与KEGG库比对的BLASTX提取结果

WTEA.Unigene.kegg.B.O.Best: 与KEGG库比对的BLASTX提取结果,选取一个最好的 WTEA.Unigene.kegg.Pathway: 基因对应的PANTHWAY信息

f . Interpro and GO(这套系统用interproscan去注释基因,得到基因GO注释信息) 参数:

-interpro: 用interproscan对基因进行注释,并得到基因的GO信息

-interpro_type: 如果序列是核酸序列参数为nt,如果序列是蛋白序列参数为aa -interpro_group: 将序列分成几份,默认是3 结果示范与说明: Interpro:

WTEA.gene.interpro.txt:基因的intepro注释信息

WTEA.go.Biological.Process:基因Biological Process方面GO注释的信息 WTEA.go.Cellular.Component:基因Cellular Component方面GO注释的信息 WTEA.go.Molecular.Function:基因Molecular Function方面GO注释的信息 WTEA.go.seg:GO的分类图

WTEA.go.txt:基因的GO注释信息

WTEA.go.txt_gene_list.txt:每一类GO分类对应的基因 WTEA.interpro.classify.txt:基因interpro注释信息的统计 WTEA.ipr.go:基因interpro以及GO注释信息 WTEA_.GO_Anno.txt:基因的GO注释信息 merged.txt:Interproscan结果 (7)常规分析举例:

①从峰图开始分析,要做这套流程的所有分析,可以参照下面的命令行:

$ perl BEP_Byte.pl -project WTEA -outdir ./ -input_chromato test_scf.tar.gz - input_vector../../.. /bin/vector/pBluescript +. fa -phred -crossmatch -clustering -phrap - orf - swissprot - cog - kegg - interpro

注解:test_ scf.tar.gz是峰图文件夹的压缩文件,也可以输入峰图文件夹的位置。 ②从序列文件开始分析,要做这套流程的所有分析,可以参照下面的命令行:

$ perl BEP_Byte.pl -project WTEA -outdir ./ -input_sequence test.seq - input_qual test.seq.qual -input_vector../../.. /bin/vector/pBluescript +. fa -crossmatch -clustering -phrap - orf -nt - swissprot - cog - kegg - interpro

注解:如果输入序列,就没有必要加上-phred选项了。

③如果是用SGE qsub对列管理系统,请加上“- system sge”。例如:

$ perl BEP_Byte.pl -project WTEA -outdir ./ -system sge - input_chromato test_scf.tar.gz - input_vector../../.. /bin/vector/pBluescript +. fa -phred -crossmatch -clustering -phrap - orf - nt - nr -swissprot - cog - kegg - interpro 7.1.4 EST的应用

1 基因可变剪切的识别

在真核等高等生物中,基因在转录以后存在多种剪切形式,剪切成mRNA来翻译蛋白质序列,这体现了基因的多样性。我们通过建立cDNA文库,测得EST序列,可以了解基因的不同剪切形式。

可变剪切的可分类为: (1)内含子残留

(2)可变的donor位点

(3)可变的acceptor位点 (4)exon越迁

(5)互相排斥的exon

图7-11 可变剪切的不同类型 7.1.4 实例

下面我们以水稻的Rubisco activase基因为例,看一下它的可变剪切形式有哪些? 方法步骤:

(1)在NCBI数据库中搜索水稻的Rubisco activase基因相关的EST数据,包括CDS (2)收集到180条EST数据

(3)用phrap软件拼接这些序列,得到6个contigs

(4)将这6个congtigs用sim4软件比对到水稻的基因组上

(5)可以看出Rubisco activase至少存在两种剪切形式。如图7-12所示。

图7-12 水稻Rubisco activase基因的剪切形式 2 基于EST序列比较的SNPs的筛查

(1)Picoult等利用公共的EST数据库快速筛查候选的SNPs。他们从EST数据库中提取了19个不同的cDNA文库,利用Phred软件对300,000条EST序列进行碱基判读,然后用Phrap软件进行重叠群组装,最后用Consed软件进行SNP的查看分析。他们共筛查出850个候选的SNPs位点,然后他们选取88个位点,证实了55个,证实率62.5%。

(2)Useche等采用Phrap/CAT/PolyBayes软件从公共数据库下载了68,000条玉米的EST序列,发现了2439个候选的SNPs位点以及822个插入/缺失多态性位点(InDel)。

(3)Jalving等通过对来自ChickEST计划的327,000条EST检测候选的SNP位点,利用Phred/Phrap/Consed软件包共筛查出32,268个候选SNPs位点。并构建了一个高密度的SNP遗传图谱。为了证实其可靠性,选取24个BalⅡ酶作用的SNPs位点,进行RFLP检测,并证实了21个位点,检出率87.5%。


基因表达分析(4).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:宜家家居开题报告

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: