个是映射到某个区域上的reads个数,这个区域或者是已知注释的基因或者跨两个外显子的边界或者是某个基因已经注释的转录本的内含子、外显子。对于真核生物来说,外显子和它们自己内部的关系由某类型的mRNA来注释。
Exonlength: This is the number in the column with the header Exon length inthe row for the gene, divided by 1000. This is calculated as the sum of thelengths of all exons annotated for the gene. Each exon is included only once inthis sum, even if it is present in more annotated transcripts for the gene.Partly overlapping exons will count with their full length, even though theyshare the same region.外显子的长度。计算时,计算所有某个基因已注释的所有外显子长度的总和。即使某个基因以多种注释的转录本呈现,这个外显子在求和时只被包含一次。即使部分重叠的外显子共享相同的区域,重叠的外显子以其总长来计算。
Mapped reads: The sum of all the numbers in the column with header Totalgene reads. The Total gene reads for a gene is the total number ofreads that after mapping have been mapped to the region of the gene. Thus thisincludes all the reads uniquely mapped to the region of the gene as well asthose of the reads which match in more places (below the limit set in thedialog in figure 18.110) that have been allocated tothis gene's region. A gene's region is that comprised of the flanking regions(if it was specified in figure 18.110), the exons, the introns andacross exon-exon boundaries of all transcripts annotated for the gene. Thus,the sum of the total gene reads numbers is the number of mapped reads for thesample (you can find the number in the RNA-Seq report).map的reads总和。映射到某个基因上的所有reads总数。因此这包含所有的唯一映射到这个区域上的reads。
举例:比如对应到该基因的read有1000个,总reads个数有100万,而该基因的外显子总长为5kb,那么它的RPKM为:10^9*1000(reads个数)/10^6(总reads个数)*5000(外显子长度)=200或者:1000(reads个数)/1(百万)*5(K)=200这个值反映基因的表达水平。
FPKM(fragments per kilobase of exon per million fragments mapped). FPKM与RPKM计算方法基本一致。不同点就是FPKM计算的是fragments,而RPKM计算的是reads。Fragment比read的含义更广,因此FPKM包含的意义也更广,可以是pair-end的一个fragment,也可以是一个read。
什么是转录本重构
用测序的数据组装成转录本。有两种组装方式:1,de-novo构建; 2,有参考基因组重构。其中de-novo组装是指在不依赖参考基因组的情况下,将有overlap的reads连接成一个更长的序列,经过不断的延伸,拼成一个个的contig及scaffold。常用工具包括velvet,trans-ABYSS,Trinity等。有参考基因组重构,是指先将read贴回到基因组上,然后在基因组通过reads覆盖度,junction位点的信息等得到转录本,常用工具包括scripture、cufflinks。
什么是genefusion
将基因组位置不同的两个基因中的一部分或全部整合到一起,形成新的基因,称作融合基因,或嵌合体基因。该基因有可能翻译出融合或嵌合体蛋白。
什么是表达谱
基因表达谱(geneexpression profile):指通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱
什么是功能基因组学
功能基因组学(Functuionalgenomics)又往往被称为后基因组学(Postgenomics),它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质得研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入对基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等。采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的分析,新的技术应运而生,包括基因表达的系统分析(serial analysis of gene expression,SAGE),cDNA微阵列(cDNA microarray),DNA 芯片(DNA chip)和序列标志片段显示(sequence tagged fragmentsdisplay。
什么是比较基因组学
比较基因组学(ComparativeGenomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构。
什么是表观遗传学
表观遗传学是研究基因的核苷酸序列不发生改变的情况下,基因表达了可遗传的变化的一门遗传学分支学科。表观遗传的现象很多,已知的有DNA甲基化(DNAmethylation),基因组印记(genomicimpriting),母体效应(maternaleffects),基因沉默(genesilencing),核仁显性,休眠转座子激活和RNA编辑(RNA editing)等。
什么是计算生物学
计算生物学是指开发和应用数据分析及理论的方法、数学建模、计算机仿真技术等。当前,生物学数据量和复杂性不断增长,每14个月基因研究产生的数据就会翻一番,单单依靠观察和实验已难以应付。因此,必须依靠大规模计算模拟技术,从海量信息中提取最有用的数据。
什么是基因组印记
基因组印记(又称遗传印记)是指基因根据亲代的不同而有不同的表达。印记基因的存在能导致细胞中两个等位基因的一个表达而另一个不表达。基因组印记是一正常过程,此现象在一些低等动物和植物中已发现多年。印记的基因只占人类基因组中的少数,可能不超过5%,但在胎儿的生长和行为发育中起着至关重要的作用。基因组印记病主要表现为过度生长、生长迟缓、智力障碍、行为异常。目前在肿瘤的研究中认为印记缺失是引起肿瘤最常见的遗传学因素之一。
什么是基因组学
基因组学(英文genomics),研究生物基因组和如何利用基因的一门学问。用于概括涉及基因作图、测序和整个基因组功能分析的遗传学分支。该学科提供基因组信息以及相关数据系统利用,试图解决生物,医学,和工业领域的重大问题。
什么是DNA甲基化
DNA甲基化是指在DNA甲基化转移酶的作用下,在基因组CpG二核苷酸的胞嘧啶5'碳位共价键结合一个甲基基团。正常情况下,人类基因组“垃圾”序列的CpG二核苷酸相对稀少,并且总是处于甲基化状态,与之相反,人类基因组中大小为100—1000 bp左右且富含CpG二核苷酸的CpG岛则总是处于未甲基化状态,并且与56%的人类基因组编码基因相关。人类基因组序列草图分析结果表明,人类基因组CpG岛约为28890个,大部分染色体每1 Mb就有5—15个CpG岛,平均值为每Mb含10.5个CpG岛,CpG岛的数目与基因密度有良好的对应关系[9]。由于DNA甲基化与人类发育和肿瘤疾病的密切关系,特别是CpG岛甲基化所致抑癌基因转录失活问题,DNA甲基化已经成为表观遗传学和表观基因组学的重要研究内容。
什么是基因组注释
基因组注释(Genomeannotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。