2 生物信息数据库与查询(2)

2018-11-19 21:36

PIR和PSD的网址是：http://pir.georgetown.edu/。数据库下载地址是：ftp://nbrfa.georgetown.edu/pir/。 2. SWISS-PROT

SWISS- PROT是经过注释的蛋白质序列数据库，由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成，每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等，注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列，并与其它30多个数据建立了交叉引用，其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。 SWISS-PROT只接受直接测序获得的蛋白质序列，序列提交可以在其Web页面上完成。

SWISS-PROT的网址是：http://www.ebi.ac.uk/swissprot/。 3. PROSITE

PROSITE 数据库收集了生物学有显著意义的蛋白质位点和序列模式，并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下，某个蛋白质与已知功能蛋白质的整体序列相似性很低，但由于功能的需要保留了与功能密切相关的序列模式，这样就可能通过PROSITE的搜索找到隐含的功能motif，因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等；除了序列模式之外，PROSITE还包括由多序列比对构建的profile，能更敏感地发现序列与profile 的相似性。PROSITE的主页上提供各种相关检索服务。 PROSITE的网址是：http://www.expasy.ch/prosite/。 4. PDB

蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库，由美国Brookhaven国家实验室建立。PDB收集的数据来源于X光晶体衍射和核磁共振(NMR)的数据，经过整理和确认后存档而成。目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务，以及关于PDB数据文件格式和其它文档的说明，PDB数据还可以从发行的光盘获得。使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构。

RCSB的PDB数据库网址是：http://www.rcsb.org/pdb/。

5. SCOP

蛋白质结构分类(SCOP)数据库详细描述了已知的蛋白质结构之间的关系。分类基于若干层次：家族，描述相近的进化关系；超家族，描述远源的进化关系；折叠子(fold)，描述空间几何结构的关系；折叠类，所有折叠子被归于全α、全β、α/β、α＋β和多结构域等几个大类。SCOP还提供一个非冗余的ASTRAIL序列库，这个库通常被用来评估各种序列比对算法。此外，SCOP还提供一个PDB-ISL中介序列库，通过与这个库中序列的两两比对，可以找到与未知结构序列远缘的已知结构序列。

SCOP的网址是：http://scop.mrc-lmb.cam.ac.uk/scop/。 6. COG

蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白，根据系统进化关系分类构建而成。COG库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。利用COGNITOR程序，可以把某个蛋白质与所有COGs中的蛋白质进行比对，并把它归入适当的COG簇。 COG库提供了对COG分类数据的检索和查询，基于Web的COGNITOR服务，系统进化模式的查询服务等。

COG库的网址是：http://www.ncbi.nlm.nih.gov/COG。

下载COG库和COGNITOR程序在：ftp://ncbi.nlm.nih.gov/pub/COG。 2.3 功能数据库 1. KEGG

京都基因和基因组百科全书(KEGG)是系统分析基因功能，联系基因组信息和功能信息的知识库。基因组信息存储在GENES数据库里，包括完整和部分测序的基因组序列；更高级的功能信息存储在PATHWAY数据库里，包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期，还包括同系保守的子通路等信息；KEGG的另一个数据库是LIGAND，包含关于化学物质、酶分子、酶反应等信息。KEGG提供了Java的图形工具来访问基因组图谱，比较基因组图谱和操作表达图谱，以及其它序列比较、图形比较和通路计算的工具，可以免费获取。 KEGG的网址是：http://www.genome.ad.jp/kegg/。 2. DIP

相互作用的蛋白质数据库(DIP)收集了由实验验证的蛋白质－蛋白质相互作用。数据库包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术三个部分。用户可以根据蛋白质、生物物种、蛋白质超家族、关键词、实验技术或引用文献来查询DIP数据库。

DIP的网址是：http://dip.doe-mbi.ucla.edu/。 3. ASDB

可变剪接数据库(ASDB)包括蛋白质库和核酸库两部分。ASDB(蛋白质)部分来源于SWISS-PROT蛋白质序列库，通过选取有可变剪接注释的序列，搜索相关可变剪接的序列，经过序列比对、筛选和分类构建而成。ASDB(核酸)部分来自Genbank中提及和注释的可变剪接的完整基因构成。数据库提供了方便的搜索服务。 ASDB的网址是：http://cbcg.nersc.gov/asdb。 4. TRRD

转录调控区数据库(TRRD)是在不断积累的真核生物基因调控区结构－功能特性信息基础上构建的。每一个TRRD的条目里包含特定基因各种结构－功能特性：转录因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等。TRRD包括五个相关的数据表：TRRDGENES(包含所有TRRD库基因的基本信息和调控单元信息)；TRRDSITES(包括调控因子结合位点的具体信息)；TRRDFACTORS(包括TRRD中与各个位点结合的调控因子的具体信息)；TRRDEXP(包括对基因表达模式的具体描述)；TRRDBIB(包括所有注释涉及的参考文献)。TRRD主页提供了对这几个数据表的检索服务。

TRRD的网址是：http://wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/。 5. TRANSFAC

TRANSFAC 数据库是关于转录因子、它们在基因组上的结合位点和与DNA结合的profiles的数据库。由SITE、GENE、FACTOR、CLASS、 MATRIX、CELLS、METHOD和REFERENCE等数据表构成。此外，还有几个与TRANSFAC密切相关的扩展库：PATHODB库收集了可能导致病态的突变的转录因子和结合位点；S/MART DB收集了与染色体结构变化相关的蛋白因子和位点的信息；TRANSPATH库用于描述与转录因子调控相关的信号传递的网络；CYTOMER库表现了人类转录因子在各个器官、细胞类型、生理系统和发育时期的表达状况。TRANSFAC及其相关数据库可以免费下载，也可以通过Web进行检索和查询。

TRANSFAC的网址是：http://transfac.gbf.de/TRANSFAC/。 2.4 其它数据库资源 1. DBCat

DBCat是生物信息数据库的目录数据库，它收集了500多个生物信息学数据库的信息，并根据它们的应用领域进行了分类。包括DNA、RNA、蛋白质、基因组、图谱、蛋白质结构、文献著作等基本类型。数据库可以免费下载或在网络上检索查询。

DBCat的网址是：http://www.infobiogen.fr/services/dbcat/。下载DBCat在：ftp://ftp.infobiogen.fr/pub/db/dbcat。 2. PubMed

PubMed是NCBI维护的文献引用数据库，提供对MEDLINE、Pre-MEDLINE等文献数据库的引用查询和对大量网络科学类电子期刊的链接。利用Entrez系统可以对PubMed进行方便的查询检索。

PubMed的网址是：http://www.ncbi.nlm.nih.gov/。

除了以上提及的数据之外，还有许许多多的专门生物信息数据库，涉及了目前生物学研究的各个层面和领域，由于篇幅所限无法一一详述。国内也有一些大数据库的镜像站点和自己开发的有特色的数据库，如欧洲分子生物学网络组织EMBNet中国节点北京大学分子生物信息镜像系统，上海博容基因公司与上海嘉瑞软件公司合作开发的国产汉化基因数据库及分析管理系统，同时国家级的生物信息学中心也在筹建之中。我们期待国内能有更多高质量和使用便利的数据库资源，推动我国生物信息学和整个生命科学的发展。

清华大学生物信息学研究所网址：http://bioinfo.tsinghua.edu.cn 北京大学生物信息镜像系统网址：http://cbi.pku.edu.cn

3 序列比对和数据库搜索

比较是科学研究中最常见的方法，通过将研究对象相互比较来寻找对象可能具备的特性。在生物信息学研究中，比对是最常用和最经典的研究手段。

最常见的比对是蛋白质序列之间或核酸序列之间的两两比对，通过比较两个序列之间的相似区域和保守性位点，寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较，寻找这些有进化关系的序列之间共同的保守区域、位点和profile，从而探索导致它们产生共同功能的序列模式。此外，还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架；把蛋白质序列与具有三维结构信息的蛋白质相比，从而获得蛋白质折叠类型的信息。比对还是数据库搜索算法的基础，将查询序列与整个数据库]的所有序列进行比对，从数据库中获得与其最相似序列的已有的数据，能最快速的获得有关查询序列的大量有价值的参考信息，对于进一步分析其结构和功能都会有很大的帮助。近年来随着生物信息学数据大量积累和生物学知识的整理，通过比对方法可以有效地分析和预测一些新发现基因的功能。 3.1 序列两两比对

序列比对的理论基础是进化学说，如果两个序列之间具有足够的相似性，就推测二者可能有共同的进化祖先，经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。序列相似和序列同源是不同的概念，序列之间的相似程度是可以量化的参数，而序列是否同源需要有进化事实的验证。在残基－残基比对中，可以明显看到序列中某些氨基酸残基比其它位置上的残基更保守，这些信息揭示了这些保守位点上的残基对蛋白质的结构和功能是至关重要的，例如它们可能是酶的活性位点残基，形成二硫键的半胱氨酸残基，与配体结合部位的残基，与金属离子结合的残基，形成特定结构motif的残基等等。但并不是所有保守的残基都一定是结构功能重要的，可能它们只是由于历史的原因被保留下来，而不是由于进化压力而保留下来。因此，如果两个序列有显著的保守性，要确定二者具有共同的进化历史，进而认为二者有近似的结构和功能还需要更多实验和信息的支持。通过大量实验和序列比对的分析，一般认为蛋白质的结构和功能比序列具有更大的保守性，因此粗略的说，如果序列之间的相似性超过30%，它们就很可能是同源的。

早期的序列比对是全局的序列比较，但由于蛋白质具有的模块性质，可能由于外显子的交换而产生新蛋白质，因此局部比对会更加合理。通常用打分矩阵描述序列两两比对，两条序列分别作为矩阵的两维，矩阵点是两维上对应两个残基的相似性分数，分数越高则说明两个残基越相似。因此，序列比对问题变成在矩阵里寻找最佳比对路径，目前最有效的方法是Needleman-Wunsch动态规划算法，在此基础上又改良产生了Smith-Waterman算法和SIM算法。在 FASTA程序包中可以找到用动态规划算法进行序列比对的工具LALIGN，它能给出多个不相互交叉的最佳比对结果。

在进行序列两两比对时，有两方面问题直接影响相似性分值：取代矩阵和空位罚分。粗糙的比对方法仅仅用相同/不同来描述两个残基的关系，显然这种方法无法描述残基取代对结构和功能的不同影响效果，缬氨酸对异亮氨酸的取代与谷氨酸对异亮氨酸的取代应该给予不同的打分。因此如果用一个取代矩阵来描述氨基酸残基两两取代的分值会大大提高比对的敏感性和生物学意义。虽然针对不同的研究目标和对象应该构建适宜的取代矩阵，但国际上常用的取代矩阵有PAM和BLOSUM 等，它们来源于不同的构建方法和不同的参数选择，包括PAM250、BLOSUM62、BLOSUM90、BLOSUM30等。对于不同的对象可以采用不同的取代矩阵以获得更多信息，例如对同源性较高的序列可以采用BLOSUM90矩阵，而对同源性较低的序列可采用BLOSUM30矩阵。

空位罚分是为了补偿插入和缺失对序列相似性的影响，由于没有什么合适的理论模型能很好地描述空位问题，因此空位罚分缺乏理论依据而更多的带有主观特色。一般的处理方法是用两个罚分值，一个对插入的第一个空位罚分，如10－15；另一个对空位的延伸罚分，如1－2。对于具体的比对问题，采用不同的罚分方法会取得不同的效果。

对于比对计算产生的分值，到底多大才能说明两个序列是同源的，对此有统计学方法加以说明，主要的思想是把具有相同长度的随机序列进行比对，把分值与最初的比对分值相比，看看比对结果是否具有显著性。相关的参数E代表随机比对分值不低于实际比对分值的概率。对于严格的比对，必须E值低于一定阈值才

共8页:

2 生物信息数据库与查询(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档