基因表达分析(2)

2018-11-23 21:53

QUALITY_LEVELS: 99

TIME: Wed Dec 20 07:00:52 2006 TRACE_ARRAY_MIN_INDEX: 0

TRACE_ARRAY_MAX_INDEX: 11108 TRIM: 0 630 -1.00 CHEM: unknown DYE: unknown

END_COMMENT BEGIN_DNA t 15 750 g 19 766 c 25 782 a 18 793 g 18 804 g 17 819 .........

a 32 10595 t 32 10611 g 32 10635 g 32 10651 t 24 10669 c 15 10689 a 12 10707 t 12 10722 a 12 10751 c 14 10771 c 9 10785 t 19 10801 g 20 10824 t 15 10838 t 14 10854 t 14 10878 c 21 10891 c 24 10913 t 20 10933 g 22 10952 END_DNA

END_SEQUENCE

B、将 phd 文件转化成 fasta 文件。 软件:phd2fatsa 基本用法:phred –id phd:文件夹

–os:输出的fasta文件

–oq:输出的质量文件

③屏蔽序列中的载体序列 软件:crossmatch

基本用法:cross_match 序列文件 载体序列 –screen >screen.out ④去除嵌合(chimeric)的克隆序列 软件:perl Chimeric_Check.pl –s:序列文件 –q:质量文件

–ns:新的序列文件 –nq:新的质量文件 说明:嵌合(chimeric)的克隆是在文库构建过程的反应中产生的,其序列特征表现为,序列的中间有很长的polyA序列,或载体序列,其形式如下: >Back-to-back poly(A)+ tails

AAAGCTGGAGCTCACCGCGGTGGCGGCCGCTCTAGAACTAGTGGATCCCCCGGGCTGCAGGAATTCGAATTCGAATTCCGACAATGTCTAAGAGAGGACGTGGTGGGTCATCGGGAGCCAAGTTCCGTATTTCACTGGGTCTCCCAGTGGGAGCGGTCATCAACTGCGCTGACAACACAGGTGCCAAGAACCTGTACATCATATCCGTCAAAGGCATCAAGGGTCGTCTGAACAGGCTCCCTGCCGCTGGTGTGGGCGACATGGTTATGGCCACAGTGAAGAAAGGCAAGCCAGAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGAAGTCGTATCGGCGAAAAGATGGCGTGTTTCTTTACTTCGAAGACAATGCAGGGGTCATAGTAAATAACAAAGGAGAAATGAAAGGATCAGCCATCACAGGACCCGTAGCCAAGGAATGCGCAGACCTGTGGCCCAGGATTGCTTCCAATGCTGGTAGCATTGCCTGAGCGCAAATGTGGCTTGTCGTTTTCAATAAAATACTCAAAGTTTCTCGAGGGGGGGCCCGGTAACCAATTCGCCCTATAGTGAGTCGTATTA >Linker-to-linker in middle of the sequence

AAAGCTGGAGCTCACCGCGGTGGCGGCCGCTCTAGAACTAGTGGATCCCCCGGGCTGCAGGAATTCGAATTCGAATTCCGACAATGTCTAAGAGAGGACGTGGTGGGTCATCGGGAGCCAAGTTCCGTATTTCACTGGGTCTCCCAGTGGGAGCGGTCATCAACTGCGCTGACAACACAGGTGCCAAGAACCTGTACATCATATCCGTCAAAGGCATCAAGGGTCGTCTGAACAGGCTCCCTGCCGCTGGTGTGGGCGACATGGTTATGGXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGCGTGTTTCTTTACTTCGAAGACAATGCAGGGGTCATAGTAAATAACAAAGGAGAAATGAAAGGATCAGCCATCACAGGACCCGTAGCCAAGGAATGCGCAGACCTGTGGCCCAGGATTGCTTCCAATGCTGGTAGCATTGCCTGAGCGCAAATGTGGCTTGTCGTTTTCAATAAAATACTCAAAGTTTCTCGAGGGGGGGCCCGGTAACCAATTCGCCCTATAGTGAGTCGTATTA

⑤去除序列中的污染序列,如大肠杆菌等 软件:blast

说明:把EST数据与已知的可能污染序列数据库进行比对,去除污染。通常用e值衡量是否为污染(e<1e-100)。 ⑥屏蔽序列中的重复序列 软件:repeatemasker

说明:如果EST的数据量比较大,在拼接之前要进行聚类分析,可以先屏蔽一下序列中的载体,可以提高聚类的准确性。 ⑦去除序列中的polyA 软件:PolyA_Check.pl

基本用法:perl PolyA_Check.pl –s:序列文件

–q:质量文件

–ns:新的序列文件 –nq:新的质量文件 –drop 1 参数说明:

–drop:如果只想在新生成的序列文件中标记出是否有polyA(T),请设定此参数为“-drop 0”。

⑧去除过短的序列

说明:我们通常把那些<100bp的序列去除掉,不参加后续的聚类拼接和注释分析。 经过上面的处理,我们得到了干净高质量的EST数据集,用于后续分析。 下面是一条EST数据经过预处理的过程: 屏蔽载体之前 >BGI.scf

AAAGCTGGAGCTCACCGCGGTGGCGGCCGCTCTAGAACTAGTGGATCCCCCGGGCTGCAGGAATTCGAATTCGAATTCCGACAATGTCTAAGAGAGGACGTGGTGGGTCATCGGGAGCCAAGTTCCGTATTTCACTGGGTCTCCCAGTGGGAGCGGTCATCAACTGCGCTGACAACACAGGTGCCAAGAACCTGTACATCATATCCGTCAAAGGCATCAAGGGTCGTCTGAACAGGCTCCCTGCCGCTGGTGTGGGCGACATGGTTATGGCCACAGTGAAGAAAGGCAAGCCAGAGCTCAGGAAAAAGGTGCATCCTGCGGTGGTGATACGACAGCGGAAGTCGTATCGGCGAAAAGATGGCGTGTTTCTTTACTTCGAAGACAATGCAGGGGTCATAGTAAATAACAAAGGAGAAATGAAAGGATCAGCCATCACAGGACCCGTAGCCAAGGAATGCGCAGACCTGTGGCCCAGGATTGCTTCCAATGCTGGTAGCATTGCCTGAGCGCAAATGTGGCTTGTCGTTTTCAATAAAATACTCAAAGTTTAAAAAAAAAAAAAAAAAAAAAACTCGAGGGGGGGCCCGGTAACCAATTCGCCCTATAGTGAGTCGTATTA

屏蔽载体后

> BGI.scf vector EcoR Ⅰ AAAGCXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXATTCGAATTCCGACAATGTCTAAGAGAGGACGTGGTGGGTCATCGGGAGCCAAGTTCCGTATTTCACTGGGTCTCCCAGTGGGAGCGGTCATCAACTGCGCTGACAACACAGGTGCCAAGAACCTGTACATCATATCCGTCAAAGGCATCAAGGGTCGTCTGAACAGGCTCCCTGCCGCTGGTGTGGGCGACATGGTTATGGCCACAGTGAAGAAAGGCAAGCCAGAGCTCAGGAAAAAGGTGCATCCTGCGGTGGTGATACGACAGCGGAAGTCGTATCGGCGAAAAGATGGCGTGTTTCTTTACTTCGAAGACAATGCAGGGGTCATAGTAAATAACAAAGGAGAAATGAAAGGATCAGCCATCACAGGACCCGTAGCCAAGGAATGCGCAGACCTGTGGCCCAGGATTGCTTCCAATGCTGGTAGCATTGCCTGAGCGCAAATGTGGCTTGTCGTTTTCAATAAAATACTCAAAGTTTAAAAAAAAAAAAAAAAAAAAAACTCGAGGGGGGGGCCCGGTAA XXXXXXXXXXXXXXXXXXXXXXXXXXXX

Xho Ⅰ polyA signal polyA tail 预处理后得到的干净的EST 数据 > BGI.scf

ATTCGAATTCCGACAATGTCTAAGAGAGGACGTGGTGGGTCATCGGGAGCCAAGTTCCGTATTTCACTGGGTCTCCCAGTGGGAGCGGTCATCAACTGCGCTGACAACACAGGTGCCAAGAACCTGTACATCATATCCGTCAAAGGCATCAAGGGTCGTCTGAACAGGCTCCCTGCCGCTGGTGTGGGCGACATGGTTATGGCCACAGTGAAGAAAGGCAAGCCAGAGCTCAGGAAAAAGGTGCATCCTGCGGTGGTGATACGACAGCGGAAGTCGTATCGGCGAAAAGATGGCGTGTTTCTTTACTTCGAAGACAATGCAGGGGTCATAGTAAATAACAAAGGAGAAATGAAAGGATCAGCCATCACAGGACCCGTAGCCAAGGAATGCGCAGACCTGTGGCCCAGGATTGCTTCCAATGCTGGTAGCATTGCCTGAGCGCAAATGTGGCTTGTCGTTTTCAATAAAATACTCAAAGTTT 3、EST数据的聚类(Clustering)

聚类的目的:把同属于一个基因的EST数据聚在一起。

聚类的作用:有助于产生更长的一致性序列,可以降低数据的冗余性,更正数据的错误,有助发现同一基因的不同剪切形式。 聚类方法:

有指导的聚类:利用物种或邻近物种的基因/蛋白质数据做指导,将EST数据比对到参考序列上。

无指导的聚类:利用序列自身的相似性。 常用 EST 聚类软件介绍: BLASTclust

介绍:利用单链法的聚类方法,通过序列间的两两比对,建立距离矩阵,它有两个聚类标准(i)序列的相似性水平,如匹配的同一性水平(ii)匹配区域的长度,一般来说,两个序列要聚在一起,匹配区域至少要覆盖每个序列的 70%。NCBI Unigene数据库就利用了BLASTclust。BLASTclust的速度较快,适合中等规模的EST数据。

网址:http://biowulf.nih.gov/apps/blast/doc/blastclust.html CLOBB(Cluster on the basis of BLAST similarity)

介绍:它以Blast作为搜索引擎,所以速度较慢,适合中小规模的EST数据。它能记录类的合并过程,鉴别那些大的类,定义了不同类型的重叠区域(overlap),最大程度的避免错误的聚类,提高了准确性。它要求的最小重叠区域是≥30bp,相似度≥95%。 网址:http://nema.cap.ed.ac.uk/CLOBB/ D2cluster

介绍:它用了字符串的搜索方法,最小的字符串是6bp,用了最小单连接的聚类方法,快速准确地把EST聚类,它允许的最小重叠区域≥100bp,相似度≥90%。 Unicluster

介绍:这个软件运用了并行的处理机制和一些启发式算法,使聚类更加快速,适合大规模的EST数据。

网址:http://genome.uiowa.edu/pubsoft/software.html 4、EST数据的拼接(Assembly)

拼接是把同属于的一个转录本的EST序列,联结起来,得到一个一致性(consensus sequences)序列,降低数据的冗余性。

4.1 常用的拼接软件: (1)phrap

网址:http://www.phrap.org/phredphrap/phrap.html

基本用法:phrap要拼接的序列-new_ace -minamtch 30 -minscore 30 -repeate_stringency 0.95 >phrap.out

参数说明:

-new_ace:生成ace文件,便于后面有consed查看拼接的结果。 -minmatch:序列最小的匹配长度,默认是30bp。 -minscore:序列匹配的最小分值,默认是30。 -repeate_stringency:匹配的相似度,默认是0.95。 使用提示:

当EST数据比较大,有几千条时,在拼接之前并没有聚类,直接用phrap聚类拼接了,可以适当提高拼接的标准,一般经验的参数是:-minamtch 42 –minscore 40 –repeate_stringency 0.99

(2)cap3

网址:http://seq.cs.iastate.edu/

http://pbil.univ-lyon1.fr/cap3.php 基本用法:cap3要拼接的序列 -o 30 -p 90 参数说明:

-o:序列最小的匹配长度,默认是30bp。 -s:序列匹配的最小分值,默认是500。 -p:匹配的相似度,默认是75。 使用提示:

一般说来,cap3要比phrap运行速度要慢,phrap牺牲了一些匹配的敏感性,phrap拼接的序列要比cap3长,cap3拼接得比phrap准确。 (3)d2_cluster

网址:http://www.sanbi.ac.za/ 4.2 拼接结果的检测 软件:consed

基本用法:在拼接的目录下运行(目录下面有ace文件)cosned –nophd 参数说明:

-nophd:如果你只有序列文件,没有峰图和phd文件,请加上这个参数。 使用提示:

(1)cosned需要图形页面的支持,所以你登录所用的终端可选用xwin32。

(2)主要检查那些cluster比较大的contig就可以,如果发现有问题,可以把这个congtig的序列提出来,用更加严格的参数再次拼接一下,下面有两个例子。


基因表达分析(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:宜家家居开题报告

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: