蛋白质序列PIR和PDB使用方法 - 图文

2019-08-30 21:44

摘要

随着核酸数据库不断发展以及数据库的建立，蛋白质序列、结构、功能不断引起人们的重视，生命科学的研究中蛋白质的研究显得尤为重要，一系列的蛋白质序列数据随之产生，数据库也在研究蛋白质的过程中有着不可或缺的地位。本文主要通过实验说明蛋白质序列数据库PIR及蛋白质结构数据库PDB的使用方法，返回结果的含义，以及如何下载数据和批量下载数据。

前言

由于蛋白质序列测定技术先于DNA序列测定技术问世，蛋白质序列的搜集也早于DNA序列。蛋白质序列数据库的雏形可以追溯到60年代。60年代中期到80年代初，美国国家生物医学研究基金会(National Biomedical Research Foundation，简称NBRF)Dayhoff领导的研究组将搜集到的蛋白质序列和结构信息以“蛋白质序列和结构地图集”(Atlas of Protein Sequence and Structure)的形式发表，主要用来研究蛋白质的进化关系。

时至今日，国际上已建立了许多关于生物分子的数据库，主要包括基因组图谱数据库、核酸序列数据库、蛋白质序列数据库、蛋白质结构数据库、生物大分子结构数据库等。这些数据库均为公共数据库，由特定的组织维护、以及发布相关序列信息，供生物研究学者使用，称为生物研究中的必要工具之一，随着科学技术的发展，这些数据库不断壮大，也为研究人员提供了大量有用的数据。

本文主要通过课程实验，展示蛋白质序列数据库PIR及蛋白质结构数据库PDB的相关使用方法。

本论

蛋白质序列数据库PIR介绍 1984年，“蛋白质信息资源”(Protein Information Resource，简称PIR)计划正式启动，蛋白质序列数据库PIR也因此而诞生。与核酸序列数据库的国际合作相呼应，1988年，美国的NBRF、日本的国际蛋白质信息数据库(Japanese International Protein Information Database，简称JIPID)和德国的慕尼黑蛋白质序列信息中心(Munich Information Center for Protein Sequences，简称MIPS)合作成立了国际蛋白质信息中心(PIR-International)，共同收集和维护蛋白质序列数据库PIR。

PDB是目前最主要的收集生物大分子(蛋白质、核酸和糖)三维结构的数据库,是通过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、多糖、核酸、病毒等生物大分子的三维结构数据库。随着晶体衍射技术的不断改进,结构测定的速度和精度也逐步提高。90年代以来,随着多维核磁共振溶液构象测定方法的成熟,使那些难以结晶的蛋白质分子的结构测定成为可能。蛋白质分子结构数据库的数据量迅速上升。据2000年5月统计，PDB数据库中已经存放了1万2千多套原子坐标,其中大部分为蛋白质，包括多肽和病毒。此外,还有核酸、蛋白和核酸复合物以及少量多糖分子。近年来,核酸三维结构测定进展迅速。PDB数据库中已经收集了800多套核酸结构数据。

PDB数据库允许用户用各种方式以及布尔逻辑组合(AND、OR和NOT)进行检索，可检索的字段包括功能类别、PDB代码、名称、作者、空间群、分辨率、来源、入库时间、分子式、参考文献、生物来源等项。用户不仅可以得到生物大分子的各种注释、坐标、三维图形、VAML等,并能从一系列指针连接到与PDB有关的数据库，包括SCOP、CATH、Medline、ENZYME、SWISS-3DIMAGE等。可通过FTP下载PDB数据。所有的PDB文件均有压缩和非压缩版以适应用户传输需要。PDB的电子公告版BBS和电子邮件兴趣小组(Mailing List)为用户提供了交流经验和发布新闻的空间。在PDB的服务器上还提供与结构生物学相关的多种免费软件如Rasmol、Mage、PDBBrowser、3DB Brower等。

PIR应用

首页介绍：主要包含以下几项：

1、About PIR：对网站历史、发展、及各类刊物的介绍； 2、Database：包括PIR-PSD、PIR-NREF、Uniprot等数据库； 3、Search/Analysis：对蛋白质序列分析的多种途径； 4、Download：网站提供的蛋白质下载； 5、Surpport：一些其他链接，包括支持等； 6、其他一些与PIR相关的介绍链接；

蛋白质搜索

点击Search/Analysis进入蛋白质序列搜索，包括Text Search、Batch Retrieval、BLAST/FASTA Search、Peptide Match、Pattern Search、Multiple Alignment、Pairwise Alignment等，以下以Text Search为例（其他与此类似，在此不详细介绍）：

点击Text Search进入：主要包括选择数据库以及选择的领域等；

输入mouse进入关于鼠的蛋白质序列：主要包括蛋白质序列ID、Name（名字）、Length（长度）、PIRSF ID、Matched Fields（匹配领域）等；

点击PIRSF ID即可进入相应的蛋白质序列TEXT详细信息页：主要有PIRSF Number、PIRSF Name、PIRSF Size、PIRSF Hierarchy、Taxonomy Range、Keyword等，在这里可以很清楚的了解相关蛋白质序列的详细的相关信息；

蛋白质序列搜索

点击Databases进入蛋白质序列搜索以下以PIRSF为例：

共3页:

蛋白质序列PIR和PDB使用方法 - 图文.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档