2 生物信息数据库与查询

2018-11-19 21:36

1 概述

当前人类基因组研究已进入一个重要时期,2000年将获得人类基因组的全部序列,这是基因组研究的转折点和关键时刻,意味着人类基因组的研究将全面 进入信息提取和数据分析阶段,即生物信息学发挥重要作用的阶段。到1999年12月15日发布的第115版为止,GenBank中的DNA碱基数目已达 46亿5千万,DNA序列数目达到535万;其中EST序列超过339万条; UniGene的数目已达到7万个;已有25个模式生物的完整基因组被测序完成,另外的70个模式生物基因组正在测序当中;到2000年1月28日为止, 人类基因组已有16%的序列完成测定,另外37.7%的序列已经初步完成;同时功能基因组和蛋白质组的大量数据已开始涌现。如何分析这些数据,从中获得生 物结构、功能的相关信息是基因组研究取得成果的决定性步骤。

生物信息学是在此背景下发展起来的综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。生物信息学是内涵非 常丰富的学科,其核心是基因组信息学,包括基因组信息的获取、处理、存储、分配和解释。基因组信息学的关键是“读懂”基因组的核苷酸顺序,即全部基因在染 色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。了解基因表 达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断、治疗内在规律。它的研究目标是揭示\基因组信息结构的复杂 性及遗传语言的根本规律\,解释生命的遗传语言。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。 近来的研究表明,基因组不仅是基因的简单排列,它有其特有的组织结构和信息结构,这种结构是在长期的演化过程中产生的,也是基因发挥其功能所必须的。弄清楚生物体基因组特有的组织结构和信息结构,解译生命的遗传语言的关键。 目前在数据库中已经有越来越多的模式生物全基因组序列,第一个人类染色体全序列--第22号染色体的测序工作已经在1999年12月完成,整个人类 基因组计划工作草图将在最近完成。这无疑给基因组组织结构和信息结构的研究工作提供了大量的第一手材料,同时也为基因组研究取得突破性进展提供了可能。人 类对基因的认识,将从以往的对单个基因的了解,上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间在位置、结构和功能上的相互关系。 从目前生物信息学的研究情况来看,国际上公认的生物信息学的研究内容,大致包括以下几个方面:

1. 生物信息的收集、存储、管理与提供。包括建立国际基本生物信息库和生

物信息传输的国际联网系统;建立生物信息数据质量的评估与检测系统;生物信息的在线服务;生物信息可视化和专家系统。

2. 基因组序列信息的提取和分析。包括基因的发现与鉴定,如利用国际EST

数据库 (dbEST) 和各自实验室测定的相应数据,经过大规模 并行计算发现新基因和新SNPs以及各种功能位点;基因组中非编码区的信息结构分析,提出理论模型,阐明该区域的重要生物学功能;进行模式生物完整基

因组 的信息结构分析和比较研究;利用生物信息研究遗传密码起源、基因组结构的演化、基因组空间结构与DNA折叠的关系以及基因组信息与生物进化关系等生物学的 重大问题。

3. 功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、软

件研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白质空间结构的预测和模拟,以及蛋白质功能预测的研究。

4. 生物大分子结构模拟和药物设计。包括RNA(核糖核酸)的结构模拟和反义

RNA的分子设计;蛋白质空间结构模拟和分子设计;具有不同 功能域的复合蛋白质以及连接肽的设计;生物活性分子的电子结构计算和设计;纳米生物材料的模拟与设计;基于酶和功能蛋白质结构、细胞表面受体结构的药物设 计;基于DNA结构的药物设计等。 5. 生物信息分析的技术与方法研究。包括发展有效的能支持大尺度作图与测

序需要的软件、数据库以及若干数据库工具,诸如电子网络等远程通 讯工具;改进现有的理论分析方法,如统计方法、模式识别方法、隐马尔科夫过程方法、分维方法、神经网络方法、复杂性分析方法、密码学方法、多序列比较方法 等;创建一切适用于基因组信息分析的新方法、新技术。包括引入复杂系统分析技术、信息系统分析技术等;建立严格的多序列比较方法;发展与应用密码学方法以 及其他算法和分析技术,用于解释基因组的信息,探索DNA序列及其空间结构信息的新表征;发展研究基因组完整信息结构和信息网络的研究方法等;发展生物大 分子空间结构模拟、电子结构模拟和药物设计的新方法与新技术。

6. 应用与发展研究。汇集与疾病相关的人类基因信息,发展患者样品序列信

息检测技术和基于序列信息选择表达载体、引物的技术,建立与动植物良种繁育相关的数据库以及与大分子设计和药物设计相关的数据库。 利用生物信息学方法进行结构功能预测要注意的是同一问题采用不同算法,可能产生相同或不同的结果。因此,必要弄清楚某种方法的基本原理,而不是仅把 算法当作一个“黑箱”。因为一种方法可能对特定实例很合适,而对另一个则完全不对。因此,本章采用原理和实用方法并重的原则进行介绍。因生物信息学覆盖面 广,限于篇幅,本章并未将生物信息学的全部内容详细加以讲述,仅针对与目前分子生物学实验数据分析密切相关的生物信息学策略及实用工具进行扼要介绍,文中 涉及问题的更详细信息可参考相关网站。生物信息学是新兴发展中的学科,该领域的研究日新月异,书中的描述可能滞后于生物信息学的最新发展为在所难免,作者 期望本章的介绍对读者的研究工作有所助益。

2 生物信息数据库与查询

近年来大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理的服务。随着因特网的普及,这些数据库大多可以通过网络来访问,或者通过网络下载。

一般而言,这些生物信息数据库可以分为一级数据库 和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针 对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。 下面将顺序简要介绍一些著名和有特色的生物信息数据库。 2.1 基因和基因组数据库 1. Genbank

Genbank 库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。它的数据直 接来源于测序工作者提交的序列;由测序中心提交的大量EST序列和其它测序数据;以及与其它数据机构协作交换数据而来。Genbank每天都会与欧洲分子 生物学实验室(EMBL)的数据库,和日本的DNA数据库(DDBJ)交换数据,使这三个数据库的数据同步。到1999年8月,Genbank中收集的序 列数量达到460万条,34亿个碱基,而且数据增长的速度还在不断加快。Genbank的数据可以从NCBI的FTP服务器上免费下载完整的库,或下载积 累的新数据。NCBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从NCBI的主页上找到这些服务。

Genbank库里的数据按来源于约55,000 个物种,其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列)。每条Genbank数据记录包含了对序列的简要描述,它的科学命名,物 种分类名称,参考文献,序列特征表,以及序列本身。序列特征表里包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等。所有数 据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被各自分成若干个文件。 (1)Genbank数据检索

NCBI 的数据库检索查询系统是Entrez。Entrez是基于Web界面的综合生物信息数据库检索系统。利用Entrez系统,用户不仅可以方便地检索 Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结 构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。

Entrez提供了方便实用的检索服务,所有操作都可以在网络浏览器上完成。用户可以利用Entrez界面上提供的限制条件(Limits)、索引 (Index)、检索历史(History)和剪贴板(Clipboard)等功能来实现复杂的检索查询工作。对于检索获

得的记录,用户可以选择需要显示 的数据,保存查询结果,甚至以图形方式观看检索获得的序列。更详细的Entrez使用说明可以在该主页上获得。 (2)向Genbank提交序列数据

测序工作者可以把自己工作中获得的新序列提交给NCBI,添加到Genbank数据库。这个任务可以由基于Web界面的BankIt或独立程序Sequin来完成。 BankIt是一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等。用户提交序列后,会从电子邮件收到自动生成的数 据条目,Genbank的新序列编号,以及完成注释后的完整的数据记录。用户还可以在BankIt页面下修改已经发布序列的信息。BankIt适合于独立 测序工作者提交少量序列,而不适合大量序列的提交,也不适合提交很长的序列,EST序列和GSS序列也不应用BankIt提交。BankIt使用说明和对 序列的要求可详见其主页面。

大量的序列提交可以由Sequin程序完成。Sequin程序能方便的编辑和处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保证。它还被设计 用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数据。Sequin除了用于编辑和修改序列数据记录,还可以用于序列的分析,任何以 FASTA或ASN.1格式序列为输入数据的序列分析程序都可以整合到Sequin程序下。在不同操作系统下运行的Sequin程序都可以在 ftp://ncbi.nlm.nih.gov/sequin/下找到,Sequin的使用说明可详见其网页。 NCBI的网址是:http://www.ncbi.nlm.nih.gov。

Entrez的网址是:http://www.ncbi.nlm.nih.gov/entrez/。 BankIt的网址是:http://www.ncbi.nlm.nih.gov/BankIt。 Sequin的相关网址是:http://www.ncbi.nlm.nih.gov/Sequin/。 2. EMBL核酸序列数据库

EMBL 核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,由于与Genbank和DDBJ的数据合作交换,它也是一个全面的核酸序列数据 库。该数据库由Oracal数据库系统管理维护,查询检索可以通过通过因特网上的序列提取系统(SRS)服务完成。向EMBL核酸序列数据库提交序列可以 通过基于Web的WEBIN工具,也可以用Sequin软件来完成。 数据库网址是:http://www.ebi.ac.uk/embl/。 SRS的网址是:http://srs.ebi.ac.uk/。

WEBIN的网址是:http://www.ebi.ac.uk/embl/Submission/webin.html。

3. DDBJ数据库

日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库,与Genbank和EMBL核酸库合作交换数据。可以使用其主页上提供的SRS工具进行数据检索和序列分析。可以用Sequin软件向该数据库提交序列。 DDBJ的网址是:http://www.ddbj.nig.ac.jp/。 4. GDB

基 因组数据库(GDB)为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB的目标是构建关于人类基因组的百科全书,除了构建基因组图谱之外,还开 发了描述序列水平的基因组内容的方法,包括序列变异和其它对功能和表型的描述。目前GDB中有:人类基因组区域(包括基因、克隆、amplimers PCR 标记、断点breakpoints、细胞遗传标记cytogenetic markers、易碎位点fragile sites、EST序列、综合区域syndromic regions、contigs和重复序列);人类基因组图谱(包括细胞遗传图谱、连接图谱、放射性杂交图谱、content contig图谱和综合图谱等);人类基因组内的变异(包括突变和多态性,加上等位基因频率数据)。GDB数据库以对象模型来保存数据,提供基于Web的 数据对象检索服务,用户可以搜索各种类型的对象,并以图形方式观看基因组图谱。 GDB的网址是:http://www.gdb.org。

GDB的国内镜像是:http://gdb.pku.edu.cn/gdb/。 2.2 蛋白质数据库 1. PIR和PSD

PIR 国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护 的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,包含超过142,000条蛋白质序列(至99年9月),其 中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PSD的 注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活 化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。

PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、 FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。


2 生物信息数据库与查询.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:湖南省湘潭市2012届高三第三次模拟考试文综试卷

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: