转录组分析上机文档
一、 过putty登录服务器
1. 通过SSH客户端putty登录服务器,以及安装xming
点击链接http://the.earth.li/~sgtatham/putty/latest/x86/putty.exe下载putty.exe,点击链接http://jaist.dl.sourceforge.net/project/xming/Xming/6.9.0.31/Xming-6-9-0-31-setup.exe下载xming,至任意位置,安装xming后运行程序。
双击打开putty,在Connection-SSH-X11栏,勾选“enable X11 forwarding”,在x11 display在location中填入“localhost:0”;在Session栏的主机地址输入服务器地址192.168.30.31,点击Load打开。如果出现安全警告框,点击YES。再输入用户名和密码登陆服务器。
设置linux的可视化界面:
登陆linux终端:
终端进入,欢迎界面:
二、 软件和数据
1) 分析用到的软件
基因组比对部分用到的软件是:
bowtie[官网:http://bowtie-bio.sourceforge.net/bowtie2/index.shtml] tophat[官网:http://tophat.cbcb.umd.edu/]; 表达量估算用到的软件是:
cufflinks[官网:http://cufflinks.cbcb.umd.edu/];
差异分析用到的软件是cuffdiff,为cufflinks软件包的一部分。 分析软件均为开源软件,可以下载最新版本,进行安装。
2) 准备分析数据
在服务器的家目录下建立文件夹RNA-seq,然后建立软链接,把teacher/RNA-seq的数据,在本地建立快捷方式。此后的工作目录均为是在RNA-seq下进行。
命令行: mkdir RNA-seq ln -s /home/teacher/RNA-seq/data RNA-seq/ cd RNA-seq; ls -l data
打开data文件夹进行查看,
文件说明:
fq文件为测序数据,C460和P460表示测序样本条件1和测序样本条件2,R1.fq和R2.fq表示双末端pair-end数据;
GRCh37chr21.fa文件是human 染色体第21号染色体的fasta序列,用来做比对的参考基因组;
GRCh37chr21.fa.fai文件是基因组文件的索引文件。 genes.gtf文件是gtf格式的基因组结果注释文件;
三、 分析流程
1. 认识和查看FASTQ测序数据
利用基础的Linux命令,查看FASTQ格式的测序数据: head data/C460-R1.fq head 查看文件的前十行信息
FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。FASTQ文件中每个序列通常有四行:
1. 序列标识以及相关的描述信息,以‘@’开头; 2. 第二行是序列
3. 第三行以‘+’开头,后面是序列标示符、描述信息,或者什么也不加
4. 第四行,是质量信息,和第二行的序列相对应,每一个序列都有一个质量评分,根据评分体系的不同,每个字符的含义表示的数字也不相同。
2. 使用FastQC进行测序数据质量检测
cd$HOME/RNA-seq mkdirqc_out fastqcdata/*.fq -o qc_out 组装参数的说明: *.fq表示对当前目录下面的所有以fq为后缀名的文件进行质控,-o表示输出的目录。
结果:qc_out目录下会生成四个文件夹及四个压缩文件,四个文件夹的质控结果分别对应前面的四个fastq文件
3. 基因组比对
基因组比对是以参考基因组为模版,把测序的短片段reads比对到参考基因组的具体位置上。在转录组的分析中,我们使用tophat软件进行比对,由于tophat需要调用bowtie,在使用前需用bowtie建立参考基因组的索引文件。