NGS研究策略和应用技术-转录组上机文档

2020-02-22 14:26

转录组分析上机文档

一、过putty登录服务器

1. 通过SSH客户端putty登录服务器，以及安装xming

点击链接http://the.earth.li/~sgtatham/putty/latest/x86/putty.exe下载putty.exe，点击链接http://jaist.dl.sourceforge.net/project/xming/Xming/6.9.0.31/Xming-6-9-0-31-setup.exe下载xming，至任意位置，安装xming后运行程序。

双击打开putty，在Connection-SSH-X11栏，勾选“enable X11 forwarding”,在x11 display在location中填入“localhost:0”；在Session栏的主机地址输入服务器地址192.168.30.31，点击Load打开。如果出现安全警告框，点击YES。再输入用户名和密码登陆服务器。

设置linux的可视化界面：

登陆linux终端：

终端进入，欢迎界面：

二、软件和数据

1) 分析用到的软件

基因组比对部分用到的软件是：

bowtie[官网：http://bowtie-bio.sourceforge.net/bowtie2/index.shtml] tophat[官网：http://tophat.cbcb.umd.edu/]；表达量估算用到的软件是：

cufflinks[官网：http://cufflinks.cbcb.umd.edu/]；

差异分析用到的软件是cuffdiff,为cufflinks软件包的一部分。分析软件均为开源软件，可以下载最新版本，进行安装。

2) 准备分析数据

在服务器的家目录下建立文件夹RNA-seq,然后建立软链接，把teacher/RNA-seq的数据，在本地建立快捷方式。此后的工作目录均为是在RNA-seq下进行。

命令行： mkdir RNA-seq ln -s /home/teacher/RNA-seq/data RNA-seq/ cd RNA-seq; ls -l data

打开data文件夹进行查看，

文件说明：

fq文件为测序数据，C460和P460表示测序样本条件1和测序样本条件2，R1.fq和R2.fq表示双末端pair-end数据；

GRCh37chr21.fa文件是human 染色体第21号染色体的fasta序列，用来做比对的参考基因组；

GRCh37chr21.fa.fai文件是基因组文件的索引文件。 genes.gtf文件是gtf格式的基因组结果注释文件；

三、分析流程

1. 认识和查看FASTQ测序数据

利用基础的Linux命令，查看FASTQ格式的测序数据： head data/C460-R1.fq head 查看文件的前十行信息

FASTQ是基于文本的，保存生物序列（通常是核酸序列）和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示，最初由Sanger开发，目的是将FASTA序列与质量数据放到一起，目前已经成为高通量测序结果的事实标准。FASTQ文件中每个序列通常有四行：

1. 序列标识以及相关的描述信息，以‘@’开头； 2. 第二行是序列

3. 第三行以‘+’开头，后面是序列标示符、描述信息，或者什么也不加

4. 第四行，是质量信息，和第二行的序列相对应，每一个序列都有一个质量评分，根据评分体系的不同，每个字符的含义表示的数字也不相同。

2. 使用FastQC进行测序数据质量检测

cd$HOME/RNA-seq mkdirqc_out fastqcdata/*.fq -o qc_out 组装参数的说明： *.fq表示对当前目录下面的所有以fq为后缀名的文件进行质控，-o表示输出的目录。

结果：qc_out目录下会生成四个文件夹及四个压缩文件，四个文件夹的质控结果分别对应前面的四个fastq文件

3. 基因组比对

基因组比对是以参考基因组为模版，把测序的短片段reads比对到参考基因组的具体位置上。在转录组的分析中，我们使用tophat软件进行比对，由于tophat需要调用bowtie，在使用前需用bowtie建立参考基因组的索引文件。

共2页:

NGS研究策略和应用技术-转录组上机文档.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档