QUALITY_LEVELS: 99
TIME: Wed Dec 20 07:00:52 2006 TRACE_ARRAY_MIN_INDEX: 0
TRACE_ARRAY_MAX_INDEX: 11108 TRIM: 0 630 -1.00 CHEM: unknown DYE: unknown
END_COMMENT BEGIN_DNA t 15 750 g 19 766 c 25 782 a 18 793 g 18 804 g 17 819 .........
a 32 10595 t 32 10611 g 32 10635 g 32 10651 t 24 10669 c 15 10689 a 12 10707 t 12 10722 a 12 10751 c 14 10771 c 9 10785 t 19 10801 g 20 10824 t 15 10838 t 14 10854 t 14 10878 c 21 10891 c 24 10913 t 20 10933 g 22 10952 END_DNA
END_SEQUENCE
B、将 phd 文件转化成 fasta 文件。 软件:phd2fatsa 基本用法:phred –id phd:文件夹
–os:输出的fasta文件
–oq:输出的质量文件
③屏蔽序列中的载体序列 软件:crossmatch
基本用法:cross_match 序列文件 载体序列 –screen >screen.out ④去除嵌合(chimeric)的克隆序列 软件:perl Chimeric_Check.pl –s:序列文件 –q:质量文件
–ns:新的序列文件 –nq:新的质量文件 说明:嵌合(chimeric)的克隆是在文库构建过程的反应中产生的,其序列特征表现为,序列的中间有很长的polyA序列,或载体序列,其形式如下: >Back-to-back poly(A)+ tails
AAAGCTGGAGCTCACCGCGGTGGCGGCCGCTCTAGAACTAGTGGATCCCCCGGGCTGCAGGAATTCGAATTCGAATTCCGACAATGTCTAAGAGAGGACGTGGTGGGTCATCGGGAGCCAAGTTCCGTATTTCACTGGGTCTCCCAGTGGGAGCGGTCATCAACTGCGCTGACAACACAGGTGCCAAGAACCTGTACATCATATCCGTCAAAGGCATCAAGGGTCGTCTGAACAGGCTCCCTGCCGCTGGTGTGGGCGACATGGTTATGGCCACAGTGAAGAAAGGCAAGCCAGAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGAAGTCGTATCGGCGAAAAGATGGCGTGTTTCTTTACTTCGAAGACAATGCAGGGGTCATAGTAAATAACAAAGGAGAAATGAAAGGATCAGCCATCACAGGACCCGTAGCCAAGGAATGCGCAGACCTGTGGCCCAGGATTGCTTCCAATGCTGGTAGCATTGCCTGAGCGCAAATGTGGCTTGTCGTTTTCAATAAAATACTCAAAGTTTCTCGAGGGGGGGCCCGGTAACCAATTCGCCCTATAGTGAGTCGTATTA >Linker-to-linker in middle of the sequence
AAAGCTGGAGCTCACCGCGGTGGCGGCCGCTCTAGAACTAGTGGATCCCCCGGGCTGCAGGAATTCGAATTCGAATTCCGACAATGTCTAAGAGAGGACGTGGTGGGTCATCGGGAGCCAAGTTCCGTATTTCACTGGGTCTCCCAGTGGGAGCGGTCATCAACTGCGCTGACAACACAGGTGCCAAGAACCTGTACATCATATCCGTCAAAGGCATCAAGGGTCGTCTGAACAGGCTCCCTGCCGCTGGTGTGGGCGACATGGTTATGGXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGCGTGTTTCTTTACTTCGAAGACAATGCAGGGGTCATAGTAAATAACAAAGGAGAAATGAAAGGATCAGCCATCACAGGACCCGTAGCCAAGGAATGCGCAGACCTGTGGCCCAGGATTGCTTCCAATGCTGGTAGCATTGCCTGAGCGCAAATGTGGCTTGTCGTTTTCAATAAAATACTCAAAGTTTCTCGAGGGGGGGCCCGGTAACCAATTCGCCCTATAGTGAGTCGTATTA
⑤去除序列中的污染序列,如大肠杆菌等 软件:blast
说明:把EST数据与已知的可能污染序列数据库进行比对,去除污染。通常用e值衡量是否为污染(e<1e-100)。 ⑥屏蔽序列中的重复序列 软件:repeatemasker
说明:如果EST的数据量比较大,在拼接之前要进行聚类分析,可以先屏蔽一下序列中的载体,可以提高聚类的准确性。 ⑦去除序列中的polyA 软件:PolyA_Check.pl
基本用法:perl PolyA_Check.pl –s:序列文件
–q:质量文件
–ns:新的序列文件 –nq:新的质量文件 –drop 1 参数说明:
–drop:如果只想在新生成的序列文件中标记出是否有polyA(T),请设定此参数为“-drop 0”。
⑧去除过短的序列
说明:我们通常把那些<100bp的序列去除掉,不参加后续的聚类拼接和注释分析。 经过上面的处理,我们得到了干净高质量的EST数据集,用于后续分析。 下面是一条EST数据经过预处理的过程: 屏蔽载体之前 >BGI.scf
AAAGCTGGAGCTCACCGCGGTGGCGGCCGCTCTAGAACTAGTGGATCCCCCGGGCTGCAGGAATTCGAATTCGAATTCCGACAATGTCTAAGAGAGGACGTGGTGGGTCATCGGGAGCCAAGTTCCGTATTTCACTGGGTCTCCCAGTGGGAGCGGTCATCAACTGCGCTGACAACACAGGTGCCAAGAACCTGTACATCATATCCGTCAAAGGCATCAAGGGTCGTCTGAACAGGCTCCCTGCCGCTGGTGTGGGCGACATGGTTATGGCCACAGTGAAGAAAGGCAAGCCAGAGCTCAGGAAAAAGGTGCATCCTGCGGTGGTGATACGACAGCGGAAGTCGTATCGGCGAAAAGATGGCGTGTTTCTTTACTTCGAAGACAATGCAGGGGTCATAGTAAATAACAAAGGAGAAATGAAAGGATCAGCCATCACAGGACCCGTAGCCAAGGAATGCGCAGACCTGTGGCCCAGGATTGCTTCCAATGCTGGTAGCATTGCCTGAGCGCAAATGTGGCTTGTCGTTTTCAATAAAATACTCAAAGTTTAAAAAAAAAAAAAAAAAAAAAACTCGAGGGGGGGCCCGGTAACCAATTCGCCCTATAGTGAGTCGTATTA
屏蔽载体后
> BGI.scf vector EcoR Ⅰ AAAGCXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXATTCGAATTCCGACAATGTCTAAGAGAGGACGTGGTGGGTCATCGGGAGCCAAGTTCCGTATTTCACTGGGTCTCCCAGTGGGAGCGGTCATCAACTGCGCTGACAACACAGGTGCCAAGAACCTGTACATCATATCCGTCAAAGGCATCAAGGGTCGTCTGAACAGGCTCCCTGCCGCTGGTGTGGGCGACATGGTTATGGCCACAGTGAAGAAAGGCAAGCCAGAGCTCAGGAAAAAGGTGCATCCTGCGGTGGTGATACGACAGCGGAAGTCGTATCGGCGAAAAGATGGCGTGTTTCTTTACTTCGAAGACAATGCAGGGGTCATAGTAAATAACAAAGGAGAAATGAAAGGATCAGCCATCACAGGACCCGTAGCCAAGGAATGCGCAGACCTGTGGCCCAGGATTGCTTCCAATGCTGGTAGCATTGCCTGAGCGCAAATGTGGCTTGTCGTTTTCAATAAAATACTCAAAGTTTAAAAAAAAAAAAAAAAAAAAAACTCGAGGGGGGGGCCCGGTAA XXXXXXXXXXXXXXXXXXXXXXXXXXXX
Xho Ⅰ polyA signal polyA tail 预处理后得到的干净的EST 数据 > BGI.scf
ATTCGAATTCCGACAATGTCTAAGAGAGGACGTGGTGGGTCATCGGGAGCCAAGTTCCGTATTTCACTGGGTCTCCCAGTGGGAGCGGTCATCAACTGCGCTGACAACACAGGTGCCAAGAACCTGTACATCATATCCGTCAAAGGCATCAAGGGTCGTCTGAACAGGCTCCCTGCCGCTGGTGTGGGCGACATGGTTATGGCCACAGTGAAGAAAGGCAAGCCAGAGCTCAGGAAAAAGGTGCATCCTGCGGTGGTGATACGACAGCGGAAGTCGTATCGGCGAAAAGATGGCGTGTTTCTTTACTTCGAAGACAATGCAGGGGTCATAGTAAATAACAAAGGAGAAATGAAAGGATCAGCCATCACAGGACCCGTAGCCAAGGAATGCGCAGACCTGTGGCCCAGGATTGCTTCCAATGCTGGTAGCATTGCCTGAGCGCAAATGTGGCTTGTCGTTTTCAATAAAATACTCAAAGTTT 3、EST数据的聚类(Clustering)
聚类的目的:把同属于一个基因的EST数据聚在一起。
聚类的作用:有助于产生更长的一致性序列,可以降低数据的冗余性,更正数据的错误,有助发现同一基因的不同剪切形式。 聚类方法:
有指导的聚类:利用物种或邻近物种的基因/蛋白质数据做指导,将EST数据比对到参考序列上。
无指导的聚类:利用序列自身的相似性。 常用 EST 聚类软件介绍: BLASTclust
介绍:利用单链法的聚类方法,通过序列间的两两比对,建立距离矩阵,它有两个聚类标准(i)序列的相似性水平,如匹配的同一性水平(ii)匹配区域的长度,一般来说,两个序列要聚在一起,匹配区域至少要覆盖每个序列的 70%。NCBI Unigene数据库就利用了BLASTclust。BLASTclust的速度较快,适合中等规模的EST数据。
网址:http://biowulf.nih.gov/apps/blast/doc/blastclust.html CLOBB(Cluster on the basis of BLAST similarity)
介绍:它以Blast作为搜索引擎,所以速度较慢,适合中小规模的EST数据。它能记录类的合并过程,鉴别那些大的类,定义了不同类型的重叠区域(overlap),最大程度的避免错误的聚类,提高了准确性。它要求的最小重叠区域是≥30bp,相似度≥95%。 网址:http://nema.cap.ed.ac.uk/CLOBB/ D2cluster
介绍:它用了字符串的搜索方法,最小的字符串是6bp,用了最小单连接的聚类方法,快速准确地把EST聚类,它允许的最小重叠区域≥100bp,相似度≥90%。 Unicluster
介绍:这个软件运用了并行的处理机制和一些启发式算法,使聚类更加快速,适合大规模的EST数据。
网址:http://genome.uiowa.edu/pubsoft/software.html 4、EST数据的拼接(Assembly)
拼接是把同属于的一个转录本的EST序列,联结起来,得到一个一致性(consensus sequences)序列,降低数据的冗余性。
4.1 常用的拼接软件: (1)phrap
网址:http://www.phrap.org/phredphrap/phrap.html
基本用法:phrap要拼接的序列-new_ace -minamtch 30 -minscore 30 -repeate_stringency 0.95 >phrap.out
参数说明:
-new_ace:生成ace文件,便于后面有consed查看拼接的结果。 -minmatch:序列最小的匹配长度,默认是30bp。 -minscore:序列匹配的最小分值,默认是30。 -repeate_stringency:匹配的相似度,默认是0.95。 使用提示:
当EST数据比较大,有几千条时,在拼接之前并没有聚类,直接用phrap聚类拼接了,可以适当提高拼接的标准,一般经验的参数是:-minamtch 42 –minscore 40 –repeate_stringency 0.99
(2)cap3
网址:http://seq.cs.iastate.edu/
http://pbil.univ-lyon1.fr/cap3.php 基本用法:cap3要拼接的序列 -o 30 -p 90 参数说明:
-o:序列最小的匹配长度,默认是30bp。 -s:序列匹配的最小分值,默认是500。 -p:匹配的相似度,默认是75。 使用提示:
一般说来,cap3要比phrap运行速度要慢,phrap牺牲了一些匹配的敏感性,phrap拼接的序列要比cap3长,cap3拼接得比phrap准确。 (3)d2_cluster
网址:http://www.sanbi.ac.za/ 4.2 拼接结果的检测 软件:consed
基本用法:在拼接的目录下运行(目录下面有ace文件)cosned –nophd 参数说明:
-nophd:如果你只有序列文件,没有峰图和phd文件,请加上这个参数。 使用提示:
(1)cosned需要图形页面的支持,所以你登录所用的终端可选用xwin32。
(2)主要检查那些cluster比较大的contig就可以,如果发现有问题,可以把这个congtig的序列提出来,用更加严格的参数再次拼接一下,下面有两个例子。