number, 序列数据和注解都是一模一样的。即,你可以用 accession number U12345 在 GenBank,DDBJ 或 EMB L 中查找相应纪录,得到的结果是完全一样的序列数据,参考内容等等 2. DDBJ/EMBJ/GenBank 特性表 — 特性表格式和标准被合作数据库用在序列记录的注释上,使得 数据共享成为可能,包括详细的描述生物特性和特性限定语的附录,以及 IUPAC 规定的核苷酸和氨基酸的 代号。 [b]FTP GenBank and Daily Updates:[/b] 1. GenBank 普通文件格式 — 参见 GenBank 记录样本和在 GenBank 公布通知中的详细描述,下 载大多数最近的完全公告和日常积累或非积累更新数据。 2. ASN.1 格式 — 摘要句法记号 1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全 公告和日常积累或非积累更新数据。 3. FASTA 格式 — 定义行号后只跟随序列数据(示例),参见描述数据库的 readme 文件,包括 n t.Z(每天更新的非冗余 BLAST 核酸数据库,包括 GenBank+EMBL+DDBJ+PDB 序列,但是不包括 EST, STS, GSS, or HTGS 序列) ,nr.Z (每日更新的非冗余蛋白质) ,est.Z, gss.Z, htg.Z, sts.Z,和其它文件。 [b]分子数据库:[/b] 1. 核酸序列 1、 Entrez 核酸: 用 accession number,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术 语来搜索核酸序列记录(在 GenBank + PDB 中)。更多的关于 Entrez 的信息见下。如果要检索大量数 据,也可使用 Batch Entrez(批量 Entrez)。 2、 RefSeq : NCBI 数据库的参考序列。校正的,非冗余集合,包括基因组 DNA contigs,已知 基因的 mRNAs 和蛋白,在将来,整
个的染色体。Accession numbers 用 NT_xxxxxx, NM_xxxxxx, NP_x xxxxx, 和 NC_xxxxxx 的形式来表示。 3、 dbEST :表达序列标签数据库,短的、单次(测序)阅读的 cDNA 序列。也包括来自于差异显 示和 RACE 实验的 cDNA 序列。 4、 dbGSS :基因组调查序列的数据库,短的、单次(测序)阅读的 cDNA 序列,exon trap 获得 的序列,cosmid/BAC/YAC 末端,及其他。 5、 dbSTS :序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,用于产生作图位点。 6.、 dbSNP :单核苷酸多态性数据库,包括 SNPs,小范围的插入/缺失,多态重复单元,和微卫 星变异。 2. 完整的基因组 : 1、 参见下面 Genome 和 Maps 部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫, 细菌,病毒,viroids,质粒。 2、 发 UniGene : 被整理成簇的 EST 和全长 mRNA 序列,每一个代表一种特定已知的或假设的 人类基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以 cluster 形式在 Unigene 网 页下载,完整的数据可以从 FTP 站点 repository/UniGene 目录下下载。 1) 人类:UniGene 2) 小鼠:UniGene 3) 大鼠:UniGene 4) 斑马鱼:UniGene 3、 BLAST :将你的序列同核酸库中的的序列比较,检索相似的序列。(更详细的信息见下面 Too ls/Sequence 相似搜索部分) [b]蛋白序列 :[/b] 1、 Entrez 蛋白 :用 accession number,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术 语来搜索蛋白序列记录(在 GenPept + Swiss-Prot + PIR + RPF + PDB 中)。更多的关于 Entrez 的 信息见
下。如果要检索大量数据,也可使用 Batch Entrez(批量 Entrez)。 RefSeq — NCBI 数据库的 参考序列。Curated, 非冗余集合包括基因组 DNA contigs,已知基因的 mRNAs 和蛋白,在将来,整个的染 色体。Accession numbers 用 NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和 NC_xxxxxx 的形式来表示。 FT PGenPept — 下载“genpept.fsa.Z”文件,这个文件包含了从 GenBank/EMBL/DDBJ 记录中翻译过来的 F ASTA 格式的氨基酸序列,这些记录都有一到两个 CDS 特性的描述。 2、 完整基因组 :参见下面 Genome 和 Maps 部分,包括各种物种资源,人,小鼠,大鼠,酵母, 线虫,疟原虫,细菌,病毒,viroids,质粒。 1) Entrez 基因组 :提供了一个编码区的概要和各种物种的分类表(TaxTable)。编码区概要列出 了在基因组中所有的的蛋白,并提供链接到 FASTA 文件和 BLAST。分类表总结了蛋白 BLAST 分析的结 果,建议他们的可能功能,并用颜色编码的图来显示物种同其它物种之间的关系(参见下面'Genomes 和 Maps,'部分 Entrez 基因组的一般描述) 2) FTP 基因组蛋白 :从 ftp 站点的 genbank/genomes 目录下下载各种物种的 FASTA 格式的氨基 酸序列*.faa 和蛋白表文件*.ptt。参见 readme 文件。蛋白表也可以在 Entrez 基因组中看到。 3、 PROW : Web 上的蛋白资源,关于大约 200 种人类的 CD 细胞表面分子的简短官方向导。互 相检索,为每个 CD 抗原提供大约 20 中标准信息的分类(生化功能,配体,等等) 4、 BLAST : 将你的序列同蛋白库中的的序列比较,检索相似的序列。(更详细的信息
见下面 To ols/Sequence 相似搜索部分) [b]结构: [/b] 1、 结构主页 — 关于 NCBI 结构小组的一般信息和他们的研究计划,另外也可以访问分子模型数据 库(MMDB)和用来搜索和显示结构的相关工具。 2、 MMDB:分子模型数据库 — 一个关于三维生物分子结构的数据库,结构来自于 X-ray 晶体衍 射和 NMR 色谱分析。MMDB 是来源于 Brookhaven 蛋白数据库(PDB)三维结构的一部分,排除了那些 理论模型。MMDB 重新组织和验证了这些信息,从而保证在化学和大分子三维结构之间的交叉参考。数据 的说明书包括生物多聚体的空间结构,这个分子在化学上是如何组织的,以及联系两者的一套指针。利用 将化学,序列,和结构信息整合在一起,MMDB 计划成为基于结构的同源模型化和蛋白结构预测的资源服 务。MMDB 的记录以 ASN.1 格式存储,可以用 Cn3D, Rasmol, 或 Kinemage 来显示。另外,数据库中 类似的结构已经被用 VAST 确认,新的结构可以用 VASTsearch 来同数据库进行比较。 3、 Cn3D — “See in 3-D”, 一个用于 NCBI 数据库的结构和序列相似显示工具,它允许观察 3D 结构和序列—结构或结构—结构同源比较。Cn3D 用起来就象你浏览器上的一个帮助工具。 4、 VAST — 矢量同源比较搜索工具—一个在 NCBI 开发的计算算法,用于确定相似的蛋白三维结 构。每一个结构的“结构邻居”都是预先计算好的,而且可以通过 MMDB 的结构概要页面的链接访问。这些 邻居可以用来确认那些不能被序列比较识别的远的同源性。 5、 VAST 搜索 — 结构—结构相似搜索服务。比较一个新解出的蛋白结构和在
MMDB/PDB 数据 库中的结构的三维坐标。VAST 搜索计算一系列可能会被交互浏览的结构邻居,用分子图形来观察重叠和 同源相似。 [b]分类学 :[/b] 1、 NCBI 的分类数据库主页 — 关于分类计划的一般信息,包括分类资源和同 NCBI 分类学家合作 的外部管理者的列表。 2、 分类浏览器 — 搜索 NCBI 的分类数据库,包括大于 70000 个物种的名字和种系,这些物种都 至少在遗传数据库中有一条核酸或蛋白序列。可以检索一个特定种或者更高分类(如属,科)的核酸,蛋 白,和结构记录。如果有新物种的序列数据被放到数据库中,这个物种就北加到(分类)数据库中。NCBI 的分类数据库的目的是为序列数据库建立一个一致的种系发生分类学。 [b]文献数据库概要 :[/b] 1、 PubMed — 一个关于生物医药科学的检索系统,包括引用,摘要,和杂志的索引术语。它包括 直接由出版商提供给 NCBI 的文献引用以及链接到在出版商网址上的全文的 URLs。PubMed 包括 MEDLI NE 和 PREMEDLINE 的完整内容。它还包括一些被 MEDLINE 认为超出范围的文章和杂志, (这些文章或 杂志)由于内容或在某一时期不在索引范围内。因此 PubMed 是比 MEDLINE 的更大的集合。 2、 杂志浏览器 — 允许你去查找收录到 PubMed 系统的杂志的名字,MEDLINE 的缩写,或 ISSN 号码。 3、 PubRef(开发中)— 一个关于来自于广大范围的科学杂志的数目记录,和链接到出版商网址的 全文。PubRef 包含了 PubMEd,加上了来自其它学科的杂志出版商提供的引用和摘要。因此它是比 Pub Med 更大的集合。这个计划的启动是因为 NAS 要求