摘要
随着核酸数据库不断发展以及数据库的建立,蛋白质序列、结构、功能不断引起人们的重视,生命科学的研究中蛋白质的研究显得尤为重要,一系列的蛋白质序列数据随之产生,数据库也在研究蛋白质的过程中有着不可或缺的地位。本文主要通过实验说明蛋白质序列数据库PIR及蛋白质结构数据库PDB的使用方法,返回结果的含义,以及如何下载数据和批量下载数据。
前言
由于蛋白质序列测定技术先于DNA序列测定技术问世,蛋白质序列的搜集也早于DNA序列。蛋白质序列数据库的雏形可以追溯到60年代。60年代中期到80年代初,美国国家生物医学研究基金会(National Biomedical Research Foundation,简称NBRF)Dayhoff领导的研究组将搜集到的蛋白质序列和结构信息以“蛋白质序列和结构地图集”(Atlas of Protein Sequence and Structure)的形式发表,主要用来研究蛋白质的进化关系。
时至今日,国际上已建立了许多关于生物分子的数据库,主要包括基因组图谱数据库、核酸序列数据库、蛋白质序列数据库、蛋白质结构数据库、生物大分子结构数据库等。这些数据库均为公共数据库,由特定的组织维护、以及发布相关序列信息,供生物研究学者使用,称为生物研究中的必要工具之一,随着科学技术的发展,这些数据库不断壮大,也为研究人员提供了大量有用的数据。
本文主要通过课程实验,展示蛋白质序列数据库PIR及蛋白质结构数据库PDB的相关使用方法。
本论
蛋白质序列数据库PIR介绍 1984年,“蛋白质信息资源”(Protein Information Resource,简称PIR)计划正式启动,蛋白质序列数据库PIR也因此而诞生。与核酸序列数据库的国际合作相呼应,1988年,美国的NBRF、日本的国际蛋白质信息数据库(Japanese International Protein Information Database,简称JIPID)和德国的慕尼黑蛋白质序列信息中心(Munich Information Center for Protein Sequences,简称MIPS)合作成立了国际蛋白质信息中心(PIR-International),共同收集和维护蛋白质序列数据库PIR。
PDB是目前最主要的收集生物大分子(蛋白质、核酸和糖)三维结构的数据库,是通过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、多糖、核酸、病毒等生物大分子的三维结构数据库。随着晶体衍射技术的不断改进,结构测定的速度和精度也逐步提高。90年代以来,随着多维核磁共振溶液构象测定方法的成熟,使那些难以结晶的蛋白质分子的结构测定成为可能。蛋白质分子结构数据库的数据量迅速上升。据2000年5月统计,PDB数据库中已经存放了1万2千多套原子坐标,其中大部分为蛋白质,包括多肽和病毒。此外,还有核酸、蛋白和核酸复合物以及少量多糖分子。近年来,核酸三维结构测定进展迅速。PDB数据库中已经收集了800多套核酸结构数据。
PDB数据库允许用户用各种方式以及布尔逻辑组合(AND、OR和NOT)进行检索,可检索的字段包括功能类别、PDB代码、名称、作者、空间群、分辨率、来源、入库时间、分子式、参考文献、生物来源等项。用户不仅可以得到生物大分子的各种注释、坐标、三维图形、VAML等,并能从一系列指针连接到与PDB有关的数据库,包括SCOP、CATH、Medline、ENZYME、SWISS-3DIMAGE等。可通过FTP下载PDB数据。所有的PDB文件均有压缩和非压缩版以适应用户传输需要。PDB的电子公告版BBS和电子邮件兴趣小组(Mailing List)为用户提供了交流经验和发布新闻的空间。在PDB的服务器上还提供与结构生物学相关的多种免费软件如Rasmol、Mage、PDBBrowser、3DB Brower等。
PIR应用
首页介绍:主要包含以下几项:
1、About PIR:对网站历史、发展、及各类刊物的介绍; 2、Database:包括PIR-PSD、PIR-NREF、Uniprot等数据库; 3、Search/Analysis:对蛋白质序列分析的多种途径; 4、Download:网站提供的蛋白质下载; 5、Surpport:一些其他链接,包括支持等; 6、其他一些与PIR相关的介绍链接;
蛋白质搜索
点击Search/Analysis进入蛋白质序列搜索,包括Text Search、Batch Retrieval、BLAST/FASTA Search、Peptide Match、Pattern Search、Multiple Alignment、Pairwise Alignment等,以下以Text Search为例(其他与此类似,在此不详细介绍):
点击Text Search进入:主要包括选择数据库以及选择的领域等;
输入mouse进入关于鼠的蛋白质序列:主要包括蛋白质序列ID、Name(名字)、Length(长度)、PIRSF ID、Matched Fields(匹配领域)等;
点击PIRSF ID即可进入相应的蛋白质序列TEXT详细信息页:主要有PIRSF Number、PIRSF Name、PIRSF Size、PIRSF Hierarchy、Taxonomy Range、Keyword等,在这里可以很清楚的了解相关蛋白质序列的详细的相关信息;
蛋白质序列搜索
点击Databases进入蛋白质序列搜索以下以PIRSF为例: