蛋白质序列PIR和PDB使用方法 - 图文(3)

2019-08-30 21:44

以及其他相关内容，此处不一一列举；

下载序列分析，点击右侧的Download files即可下载相关结构信息

在此只列举下载文件的一部分：

HEADER RNA BINDING PROTEIN/IMMUNE SYSTEM 03-FEB-12TITLE STRUCTURE OF EDITOSOME PROTEIN COMPND MOL_ID: 1;

COMPND 2 MOLECULE: SINGLE DOMAIN ANTIBODY VHH; COMPND 3 CHAIN: A, B; COMPND 4 ENGINEERED: YES; COMPND 5 MOL_ID: 2;

COMPND 6 MOLECULE: RNA-EDITING COMPLEX PROTEIN MP81; COMPND 7 CHAIN: C, D; COMPND 8 ENGINEERED: YES; COMPND 9 MUTATION: YES SOURCE MOL_ID: 1;

SOURCE 2 ORGANISM_SCIENTIFIC: LAMA; SOURCE 3 ORGANISM_TAXID: 9839;

SOURCE 4 EXPRESSION_SYSTEM: ESCHERICHIA COLI; SOURCE 5 EXPRESSION_SYSTEM_TAXID: 562; SOURCE 6 EXPRESSION_SYSTEM_STRAIN: BL21DE3; SOURCE 7 EXPRESSION_SYSTEM_VECTOR_TYPE: PLASMID; SOURCE 8 EXPRESSION_SYSTEM_PLASMID: PRSF; SOURCE 9 MOL_ID: 2;

SOURCE 10 ORGANISM_SCIENTIFIC: TRYPANOSOMA BRUCEI; SOURCE 11 ORGANISM_TAXID: 5691;

SOURCE 12 EXPRESSION_SYSTEM: ESCHERICHIA COLI;

4DK6 SOURCE 13 EXPRESSION_SYSTEM_TAXID: 562; SOURCE 14 EXPRESSION_SYSTEM_STRAIN: BL21DE3; SOURCE 15 EXPRESSION_SYSTEM_VECTOR_TYPE: PLASMID; SOURCE 16 EXPRESSION_SYSTEM_PLASMID: PRSF

KEYWDS KREPA1, VHH, SINGLE DOMAIN ANTIBODY, PROTEIN BINDING, RNA BINDING

KEYWDS 2 PROTEIN-IMMUNE SYSTEM COMPLEX EXPDTA X-RAY DIFFRACTION AUTHOR Y.-J.PARK,W.HOL

PDB数据库格式 PDB的ID编码

PDB中登记入册的结构记录拥有一个唯一的包含字母与数字的被称为PDB-ID或PDB编码的四位字符串，可由数字0～9和大写字母A～Z组合而成。因此可能的组合方案超过了130万种，没有按某特定顺序分配PDB-ID。但蛋白质数据库PDB的索引编撰者尽量设计好的记忆方法，使结构名称易于记忆。

PDB格式相关介绍

PDB和它的一些镜像站点提供由每个PDB记录的所有文本信息索引的文本搜索引擎，可按一些专门的查询项目（如提交数据、作者姓名、结构表达）检索。PDB最新的搜索引擎，3DB Atlas，可用于PDB记录检索。3DB Atlas也是链接有PDB结构数据第三方注解的基本数据库，支持大量的到基于因特网三维结构服务的其它网点的链接。其中包括了一些二维、三维浏览器。创建的图像有助于调整三维结构方向，以获得观察结合位点这类确定特征的最好视角。3DB可相应链接NCBI的MMDB服务（Hogue等，1996），提供了一条到Entrez（Schuler等，1996）系统（包括序列、分类、PubMed/MEDICINE服务和VAST结构相似性比较）的通路。

源自PDB结构记录的序列因为不能确保结构的完整，PDB记录包括两个序列信息备份：隐性序列和显性序列。两者都被用于重构生物高聚体的化学图像。显性序列在PDB文件中以关键词SEQRES打头逐行存储。不同于其它序列数据库，PDB记录用三字母氨基酸编码，任意选择三个字母作为名称的非标准氨基酸在许多PDB记录序列条目中可被找到。在PDB中，一些双螺旋核酸序列条目被指定依照在条目中按从3’到5’端的顺序排列的一条链在上，从5’到3’端排列的互补链在下的方式排列。虽然这些以双螺旋形式表达的序列对人类而言是容易理解的，但直接由计算机阅读此类从3’到5’端排列的显性序列是荒堂的。因为三维结构可能对应有多个生物高聚物链，所以使用者必须借助PDB链识别标记方可确定需要的序列。PDB文件SEQRES入口用一个大写字母或空格作为链识别标记，以识别条目中的每个单独的生物高聚体链。PDB记录中的隐性序列蕴涵在由PDB文件中的ATOM记录及相应（X，Y，Z）位置坐标构成的化学立体结构中。在解决诸如核酸序列后向编码或非标准氨基酸识别等利用显性序列无法明确解决的问题时，隐性序列是十分有用的。

结论

随着人类基因组计划各项任务的完成，有关核酸、蛋白质的序列和结构数据呈指数增长，面对巨大而复杂的数据，运用计算机技术更加有效管理数据，加速分析过程势在必行。随着生物信息学的发展，蛋白质数据库在生命科学研究中会变得越来越重要。

共3页:

蛋白质序列PIR和PDB使用方法 - 图文(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档