基因表达分析(2)

2018-11-23 21:53

QUALITY_LEVELS: 99

TIME: Wed Dec 20 07:00:52 2006 TRACE_ARRAY_MIN_INDEX: 0

TRACE_ARRAY_MAX_INDEX: 11108 TRIM: 0 630 -1.00 CHEM: unknown DYE: unknown

END_COMMENT BEGIN_DNA t 15 750 g 19 766 c 25 782 a 18 793 g 18 804 g 17 819 .........

a 32 10595 t 32 10611 g 32 10635 g 32 10651 t 24 10669 c 15 10689 a 12 10707 t 12 10722 a 12 10751 c 14 10771 c 9 10785 t 19 10801 g 20 10824 t 15 10838 t 14 10854 t 14 10878 c 21 10891 c 24 10913 t 20 10933 g 22 10952 END_DNA

END_SEQUENCE

B、将 phd 文件转化成 fasta 文件。软件：phd2fatsa 基本用法：phred –id phd：文件夹

–os：输出的fasta文件

–oq：输出的质量文件

③屏蔽序列中的载体序列软件：crossmatch

基本用法：cross_match 序列文件载体序列 –screen >screen.out ④去除嵌合（chimeric）的克隆序列软件：perl Chimeric_Check.pl –s：序列文件 –q：质量文件

–ns：新的序列文件 –nq：新的质量文件说明：嵌合（chimeric）的克隆是在文库构建过程的反应中产生的，其序列特征表现为，序列的中间有很长的polyA序列，或载体序列，其形式如下： >Back-to-back poly(A)+ tails

AAAGCTGGAGCTCACCGCGGTGGCGGCCGCTCTAGAACTAGTGGATCCCCCGGGCTGCAGGAATTCGAATTCGAATTCCGACAATGTCTAAGAGAGGACGTGGTGGGTCATCGGGAGCCAAGTTCCGTATTTCACTGGGTCTCCCAGTGGGAGCGGTCATCAACTGCGCTGACAACACAGGTGCCAAGAACCTGTACATCATATCCGTCAAAGGCATCAAGGGTCGTCTGAACAGGCTCCCTGCCGCTGGTGTGGGCGACATGGTTATGGCCACAGTGAAGAAAGGCAAGCCAGAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGAAGTCGTATCGGCGAAAAGATGGCGTGTTTCTTTACTTCGAAGACAATGCAGGGGTCATAGTAAATAACAAAGGAGAAATGAAAGGATCAGCCATCACAGGACCCGTAGCCAAGGAATGCGCAGACCTGTGGCCCAGGATTGCTTCCAATGCTGGTAGCATTGCCTGAGCGCAAATGTGGCTTGTCGTTTTCAATAAAATACTCAAAGTTTCTCGAGGGGGGGCCCGGTAACCAATTCGCCCTATAGTGAGTCGTATTA >Linker-to-linker in middle of the sequence

AAAGCTGGAGCTCACCGCGGTGGCGGCCGCTCTAGAACTAGTGGATCCCCCGGGCTGCAGGAATTCGAATTCGAATTCCGACAATGTCTAAGAGAGGACGTGGTGGGTCATCGGGAGCCAAGTTCCGTATTTCACTGGGTCTCCCAGTGGGAGCGGTCATCAACTGCGCTGACAACACAGGTGCCAAGAACCTGTACATCATATCCGTCAAAGGCATCAAGGGTCGTCTGAACAGGCTCCCTGCCGCTGGTGTGGGCGACATGGTTATGGXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGCGTGTTTCTTTACTTCGAAGACAATGCAGGGGTCATAGTAAATAACAAAGGAGAAATGAAAGGATCAGCCATCACAGGACCCGTAGCCAAGGAATGCGCAGACCTGTGGCCCAGGATTGCTTCCAATGCTGGTAGCATTGCCTGAGCGCAAATGTGGCTTGTCGTTTTCAATAAAATACTCAAAGTTTCTCGAGGGGGGGCCCGGTAACCAATTCGCCCTATAGTGAGTCGTATTA

⑤去除序列中的污染序列，如大肠杆菌等软件：blast

说明：把EST数据与已知的可能污染序列数据库进行比对，去除污染。通常用e值衡量是否为污染（e<1e-100）。 ⑥屏蔽序列中的重复序列软件：repeatemasker

说明：如果EST的数据量比较大，在拼接之前要进行聚类分析，可以先屏蔽一下序列中的载体，可以提高聚类的准确性。 ⑦去除序列中的polyA 软件：PolyA_Check.pl

基本用法：perl PolyA_Check.pl –s：序列文件

–q：质量文件

–ns：新的序列文件 –nq：新的质量文件 –drop 1 参数说明：

–drop：如果只想在新生成的序列文件中标记出是否有polyA（T），请设定此参数为“-drop 0”。

⑧去除过短的序列

说明：我们通常把那些<100bp的序列去除掉，不参加后续的聚类拼接和注释分析。经过上面的处理，我们得到了干净高质量的EST数据集，用于后续分析。下面是一条EST数据经过预处理的过程：屏蔽载体之前 >BGI.scf

AAAGCTGGAGCTCACCGCGGTGGCGGCCGCTCTAGAACTAGTGGATCCCCCGGGCTGCAGGAATTCGAATTCGAATTCCGACAATGTCTAAGAGAGGACGTGGTGGGTCATCGGGAGCCAAGTTCCGTATTTCACTGGGTCTCCCAGTGGGAGCGGTCATCAACTGCGCTGACAACACAGGTGCCAAGAACCTGTACATCATATCCGTCAAAGGCATCAAGGGTCGTCTGAACAGGCTCCCTGCCGCTGGTGTGGGCGACATGGTTATGGCCACAGTGAAGAAAGGCAAGCCAGAGCTCAGGAAAAAGGTGCATCCTGCGGTGGTGATACGACAGCGGAAGTCGTATCGGCGAAAAGATGGCGTGTTTCTTTACTTCGAAGACAATGCAGGGGTCATAGTAAATAACAAAGGAGAAATGAAAGGATCAGCCATCACAGGACCCGTAGCCAAGGAATGCGCAGACCTGTGGCCCAGGATTGCTTCCAATGCTGGTAGCATTGCCTGAGCGCAAATGTGGCTTGTCGTTTTCAATAAAATACTCAAAGTTTAAAAAAAAAAAAAAAAAAAAAACTCGAGGGGGGGCCCGGTAACCAATTCGCCCTATAGTGAGTCGTATTA

屏蔽载体后

> BGI.scf vector EcoR Ⅰ AAAGCXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXATTCGAATTCCGACAATGTCTAAGAGAGGACGTGGTGGGTCATCGGGAGCCAAGTTCCGTATTTCACTGGGTCTCCCAGTGGGAGCGGTCATCAACTGCGCTGACAACACAGGTGCCAAGAACCTGTACATCATATCCGTCAAAGGCATCAAGGGTCGTCTGAACAGGCTCCCTGCCGCTGGTGTGGGCGACATGGTTATGGCCACAGTGAAGAAAGGCAAGCCAGAGCTCAGGAAAAAGGTGCATCCTGCGGTGGTGATACGACAGCGGAAGTCGTATCGGCGAAAAGATGGCGTGTTTCTTTACTTCGAAGACAATGCAGGGGTCATAGTAAATAACAAAGGAGAAATGAAAGGATCAGCCATCACAGGACCCGTAGCCAAGGAATGCGCAGACCTGTGGCCCAGGATTGCTTCCAATGCTGGTAGCATTGCCTGAGCGCAAATGTGGCTTGTCGTTTTCAATAAAATACTCAAAGTTTAAAAAAAAAAAAAAAAAAAAAACTCGAGGGGGGGGCCCGGTAA XXXXXXXXXXXXXXXXXXXXXXXXXXXX

Xho Ⅰ polyA signal polyA tail 预处理后得到的干净的EST 数据 > BGI.scf

ATTCGAATTCCGACAATGTCTAAGAGAGGACGTGGTGGGTCATCGGGAGCCAAGTTCCGTATTTCACTGGGTCTCCCAGTGGGAGCGGTCATCAACTGCGCTGACAACACAGGTGCCAAGAACCTGTACATCATATCCGTCAAAGGCATCAAGGGTCGTCTGAACAGGCTCCCTGCCGCTGGTGTGGGCGACATGGTTATGGCCACAGTGAAGAAAGGCAAGCCAGAGCTCAGGAAAAAGGTGCATCCTGCGGTGGTGATACGACAGCGGAAGTCGTATCGGCGAAAAGATGGCGTGTTTCTTTACTTCGAAGACAATGCAGGGGTCATAGTAAATAACAAAGGAGAAATGAAAGGATCAGCCATCACAGGACCCGTAGCCAAGGAATGCGCAGACCTGTGGCCCAGGATTGCTTCCAATGCTGGTAGCATTGCCTGAGCGCAAATGTGGCTTGTCGTTTTCAATAAAATACTCAAAGTTT 3、EST数据的聚类（Clustering）

聚类的目的：把同属于一个基因的EST数据聚在一起。

聚类的作用：有助于产生更长的一致性序列，可以降低数据的冗余性，更正数据的错误，有助发现同一基因的不同剪切形式。聚类方法：

有指导的聚类：利用物种或邻近物种的基因/蛋白质数据做指导，将EST数据比对到参考序列上。

无指导的聚类：利用序列自身的相似性。常用 EST 聚类软件介绍： BLASTclust

介绍：利用单链法的聚类方法，通过序列间的两两比对，建立距离矩阵，它有两个聚类标准(i)序列的相似性水平，如匹配的同一性水平(ii)匹配区域的长度，一般来说，两个序列要聚在一起，匹配区域至少要覆盖每个序列的 70%。NCBI Unigene数据库就利用了BLASTclust。BLASTclust的速度较快，适合中等规模的EST数据。

网址：http://biowulf.nih.gov/apps/blast/doc/blastclust.html CLOBB（Cluster on the basis of BLAST similarity）

介绍：它以Blast作为搜索引擎，所以速度较慢，适合中小规模的EST数据。它能记录类的合并过程，鉴别那些大的类，定义了不同类型的重叠区域（overlap），最大程度的避免错误的聚类，提高了准确性。它要求的最小重叠区域是≥30bp，相似度≥95%。网址：http://nema.cap.ed.ac.uk/CLOBB/ D2cluster

介绍：它用了字符串的搜索方法，最小的字符串是6bp，用了最小单连接的聚类方法，快速准确地把EST聚类，它允许的最小重叠区域≥100bp，相似度≥90%。 Unicluster

介绍：这个软件运用了并行的处理机制和一些启发式算法，使聚类更加快速，适合大规模的EST数据。

网址：http://genome.uiowa.edu/pubsoft/software.html 4、EST数据的拼接（Assembly）

拼接是把同属于的一个转录本的EST序列，联结起来，得到一个一致性（consensus sequences）序列，降低数据的冗余性。

4.1 常用的拼接软件：（1）phrap

网址：http://www.phrap.org/phredphrap/phrap.html

基本用法：phrap要拼接的序列-new_ace -minamtch 30 -minscore 30 -repeate_stringency 0.95 >phrap.out

参数说明：

-new_ace：生成ace文件，便于后面有consed查看拼接的结果。 -minmatch：序列最小的匹配长度，默认是30bp。 -minscore：序列匹配的最小分值，默认是30。 -repeate_stringency：匹配的相似度，默认是0.95。使用提示：

当EST数据比较大，有几千条时，在拼接之前并没有聚类，直接用phrap聚类拼接了，可以适当提高拼接的标准，一般经验的参数是：-minamtch 42 –minscore 40 –repeate_stringency 0.99

（2）cap3

网址：http://seq.cs.iastate.edu/

http://pbil.univ-lyon1.fr/cap3.php 基本用法：cap3要拼接的序列 -o 30 -p 90 参数说明：

-o：序列最小的匹配长度，默认是30bp。 -s：序列匹配的最小分值，默认是500。 -p：匹配的相似度，默认是75。使用提示：

一般说来，cap3要比phrap运行速度要慢，phrap牺牲了一些匹配的敏感性，phrap拼接的序列要比cap3长，cap3拼接得比phrap准确。（3）d2_cluster

网址：http://www.sanbi.ac.za/ 4.2 拼接结果的检测软件：consed

基本用法：在拼接的目录下运行（目录下面有ace文件）cosned –nophd 参数说明：

-nophd：如果你只有序列文件，没有峰图和phd文件，请加上这个参数。使用提示：

（1）cosned需要图形页面的支持，所以你登录所用的终端可选用xwin32。

（2）主要检查那些cluster比较大的contig就可以，如果发现有问题，可以把这个congtig的序列提出来，用更加严格的参数再次拼接一下，下面有两个例子。

共5页:

基因表达分析(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档