2 生物信息数据库与查询(8)

2018-11-19 21:36

对于大量的筛选数据,如果用剪切和粘贴来向服务器提交这些文件就不太方便了。这时可以将数据以纯文本形式存在用户盘上,然后用RH制图页中的浏览键来定义并提交此文件给服务器,同样,Email地址也要手工输入。

对于~98%的提交的标记物,Whitehead放射性杂交图制图服务器都会找到特定的位置。如果安置成功,软件将会给一回执,包括该标记物的染色体分布 和在染色体连接群中的位置、对标记物的表格式说明、和在Whitehead放射性杂交图上两侧标记物的存在时其数据情况。按要求将会得到一张 Macintosh图或GIF格式图。这些图由Whitehead框架图组成,所提交STS的位置以红色标明。 如果发现标记物连接的染色体多于一个或是根本就没有连接,制图过程也可能失败。在前一种情况中,可以重新提交并设置高优势对数值,这样服务器将会认为其连 接一个染色体,在后一种情况中,你可以试着利用放射性杂交图页上的一个pop-up菜单将限制性降低。如果一个标记物确实连向多个染色体,那么有可能用 STS探测出重复序列。 Stanford University放射性杂交图

Stanford Human Genome Center已经用G3制图板发展了一张基因组放射性杂交图。由于比G4板所用放射量更高,G3板的分辨率更高,但是代价是在探测长距离连接时限制很大。 Stanford图一般在平均375kb的范围内存在~8000个STS,这些标记物中,3700个左右是表达序列,存在于NCBI转录物图中。同以往一 样,在基因组很多部分中,Stanford图中的表达序列比“全包容”NCBI图中的准确性更高。

Stanford提供一个放射性杂交图制图服务器。如同Whitehead服务,这个服务器允许对从Research Genetics和其它业主处得到的G3板进行STS扫描。输入数据,服务器将会尝试将STS与Stanford图相连,并用Email返回结果。因为 G3板不能探测长距离连接,在无其它图谱信息时,Stanford服务器只能将75%的STS定位在一条染色体上。但是如果要在可选区域内提供标记物的染 色体分布。服务器就能够在一个低优势对数连接值时进行分析,并可对90%的情况作出分布图谱。

当使用PCR时,STS应对83G3板DNA扫描。为得到最好的结果,可使用Stanford的RH Protocol主页给出的PCR协议,每次分析结果都应该复制,并且复制品间有分析差异就应该重复或标为未知。

Stanford服务器返回的制图结果由一系列相应的标记物分布组成。对于每一个STS,服务器都会报告离其最近的基因标记物、染色体、和标记物到STS 的距离,以centiray(cR)为单位。尽管对于制图结果并不提供图形显示,图谱信息还是可以用来与以上讨论的浏览图形结合来说明所提交STS相对于 Stanford图上其它STS的位置。

要提交这一数据,连接Stanford的主页,并按下RH服务器的链接,然后是RH Server Web Submission。输入Email地址和提交号的区域已被说明。Email地

址对于保证收到制图结果是很重要的。提交号是一个可选择栏,它会同结果一 起回执给用户,并且用于帮助工作人员使结果组织化。如果STS的染色体分布已知,那么应输入到标有Chromosome Number的区域。这个信息会增加制图软件测出一个正确连接的能力。

现在,将筛选数据粘到大型正文栏中,并按提交键。制图结果一般在几分钟内通过Email回执。Stanford服务器以一系列相对基因标记物的位置返回制 图结果。对于每个STS,服务器会报告离其最近的基因标记物、其所在染色体和STS到标记物的距离(以centirays为单位)。尽管并不提供制图结果 的图形显示,制图信息仍可用于和以上标出了用户的STS相对Stanford图谱上的其它STS的位置的可浏览型图谱相结合。 CEPH YAC图

1993年,巴黎的CEPH(Centre d tudes du Polymorphisme Humain),与Genethon合作,发表了人类基因组的第一张物理图谱。这张图由几套重叠YAC组成,形成连接邻近基因标记物的途径。YAC重叠可由几种技术鉴定,包括YAC指纹印迹法(YAC fingerprinting)、与inter-Alu PCR结果杂交法、荧光原位杂交(FISH)和STS含量图。尽管YAC克隆图大部分已被更方便的以STS为基础的图谱替代,对于要包括CEPH YAC库或以克隆为基础的反应物的制图项目还是有用的。 由于YAC库中的高嵌合率,在两个通过指纹法或inter-Alu PCR杂交法确定相互重叠的YAC之间,每一小步可能都很可能跨过基因组的一个物理距离。基于这一点,短距离比长距离更可靠,这一概念已植入CEPH的词 条“level”中。一个1级(level)途径,由两个锚定STS组成,它们应至少有一个YAC直接连接。这类途径,与平面STS含量图中用于确定相邻 关系的键或单键相类同。可以让研究者从一个STS跳到另一个,而无需跳过任何YAC/YAC连接点。相反,一个2级途径,由两个锚定STS组成,不直接由 单个YAC连接,而是由inter-Alu PCR或指纹法确定在包含它们的两个或多个YAC间有一个重叠,所以2级途径需要跳过一个YAC/YAC连接点。3级途径需跳过2个。4级需跳过3个,等 等。尽管每一种的可靠性尚未经验性证明,通过对一套CEPH数据的分析暗示4级或更高时可能不精确。而幸好CEPH途径中近90%的基于间距为3级的或更 低。

从CEPH服务器得到YAC重叠

CEPH图可以在其单位的网址上在线获得。这里可找到的链接有YAC库信息,也有一系列图谱的后转录文件,用于制图的QuickMap软件,以及含原始图 谱数据的文件。浏览CEPH图最好的作用方法为下载QuickMap文件,安装并利用它来观看数据文件。然而,由于QuickMap只在Sun工作站工 作,这种方法已经不可行。CEPH也提供针对QuickMap的一种在线界面,在通过标有Infoclone的链接处可以获得。这时会弹出一页,可以提交 一个STS、或一个基因标记物或一个YAC的名称。提交名称后会回执所有关于它的原始图谱数据。该文本是超链接,可以从一个YAC的单一inter- Alu PCR杂交跳至另一个。

要得到数据,将浏览器连到CEPH的网址上。这会弹出ECPH Genethon网页。现在找到并选择I链接,接下来的一页会要你在一个小文本栏中输入一个YAC或一个STS的名称。YAC应遵循简便的 plate_row_column(板块_排_列)格式,如923_f_6。对于STS,可以用GDB分配的D-片断名(如果可得的话)或是实验室分配的 研究名称。该文件只针对特定事例,所以输入AFM20ZE3不会得到正确的名为AFM220ZE3的STS。也应注意YAC地址中排的名称应小写。

按下Query(查询)键,如果该名称存在于CEPH数据库中,那么含相似信息的页面将会出现。第一部分包括一些关于STS的总体信息,如引物序列和基因 图谱信息。第二部分给出STS的YAC搜索数据。该部分列表中的所有YAC通过直接PAC扫描均发现含有该STS,注释Alu-PCR probe(探针)说明这个YAC在inter-Alu PCR杂交实验中被选用为探针。第三部分包含与STS相邻的YAC的信息,它们与STS相隔一个inter-Alu PCR的距离。

为得到一个YAC上的制图信息,可在文本栏输入其名称并按下Query键,出现的界面将会给出YAC、FISH和STS含量图数据的尺寸信息,以及inter-Alu PCR和指纹印迹实验中衍生出的重叠信息。

每个YAC词条有几个编码与之相关。例如,在直接PCR扫描表中,c说明CEPH进行实验的无分歧结果,而E说明为单个已证明的YAC,来源于外在(非 CEPH)实验室。在YAC/YAC重叠表中,a说明为一个A-PCR关系,而f说明为一个指纹印迹关系。完整的编码表从位于该页上的不同帮助链接中而得 到。 CEPH YAC库的一个子集已由脉冲区凝胶电泳法限定了大小。如果可以得到它,就能得到YAC的大小。在某些情况下,可以找到多带,这是污染的结果,或是因为在YAC插入区和克隆生长时DNA的随机删除所造成的。这种情况下,多YAC的大小也会演示出来。 特定人类染色体图谱

除基因组图谱外,许多个体染色体物理图谱也由研究实验室和基因组中心构建起来了。在很多情况下,这些图谱能比相应基因组范围图谱提供更详尽的信息。在GDB的来源页面上可得到一个最新的表。另一张表由NHGRI的网址保存。 3.鼠类图谱来源

现在对鼠类作物理图活动最多的地点是Whitehead Institute/MIT Center for Genome Research,而且一张murine STS/YAC含量图已经被构建起来了。这张图,最终将在24000个YAC上含有10000个STS。

MIT的物理图谱可以在Whitehead的主页上在线浏览。先按下Mouse Genetic and Physical Mapping Project(鼠类基因图和物理图制图项目)的链接,然后向下滚动到标有鼠类STS物理图谱的部分。这一部分与Whitehead人类物理图谱有相同的搜索项和用户界面,但是放射性杂交图数据还不可得。

在Whitehead网址上还可以得到基于6331个简单相邻长度多态性的鼠类物理图谱,以及这张图与Copeland/Jenkins限制性片断长度多态性图的整合。这些RFLP图,分辨率为1.1cM。分辨率更高的鼠类基因图正由European Collaborative Interspecific Mouse BackCros项目得到。该图最大的理论分辨率将会达0.3cM,并且可以在ECJMBC的主页上在线得到。到1997年5月已完成5条染色体。 The Mouse Genome Database(MGD)是由Bar Harbor的Jackson Laboratory维持的一个大型鼠类基因信息的公用数据库。尽管它基本上还是一个基因图库,MGD还是保留了很多物理图谱信息,包括细胞遗传图谱和 synteny图,将来一旦得到数据就会加进去。MGD可在Jackson Laboratory的主页上得到。按下标有Mouse Genome Informatics的链接,然后是标有Mouse Genome Database的链接,可得到用于不同研究的一个起始网页。在所列选项中包括目录检索、基因和标记物符号检索、以及多态性检索。 CEPH YAC图 CHLC图 ECIMBC主页 Entrez主页 Entrez全览页 GDB主页 GDB来源页 Genethon FTP站点 I.M.A.G.E. Consortium Jackson实验室 NHGRI来源页

http://www.cephb.fr/ceph-genethon-map.html http://www.chlc.org

http://www.hgmp.mrc.ac.uk/MBx/MbxHomepage.html http://www.ncbi.nlm.nih.gov/Entrez/

http://www.ncbi.nlm.nih.gov/Entrez/nentrez.overview.hhttp://gdbwww.gdb.org/

http://gdbwww.gdb.org/gdb/hgp_resources.html ftp://ftp.genethon.fr/pub/Gmap/Nature-1995

http://www.bio.llnl.gov/bbrp/image/iresources.html http://www.jax.org/

http://www.nhgri.nih.gov/Data/

http://www.ncbi.nlm.nih.gov/Science96/ http://shgc.stanford.edu/

http://shgc.stanford.edu/Mapping/rh/procedure/ http://www.genome.wi.mit.edu/

ftp://www.genome.wi.mit.edu/pub/human_STS_releases

ACEDB

University of Wisonsin

Science转录物图谱 Stanford主页 Stanford RH协议 Whitehead主页 Whitehead FTP站点 C.elegans

http://probe.nalusda.gov:8300/other/ http://www.genetics.wisc.edu/

E.coli

D.melanogaster S.cerevisiae

FlyBase SGD,Stanford

http://flybase.indiana.edu:82/

http://genome-www.stanford.edu/Saccha

11.6.3 全基因组比较

在不同物种、不同进化水平的生物的相关基因之间进行 比较分析,是基因研究的重要手段。目前,我们有了越来越多的模式生物全基因组序列数据,因此,基因的比较研究,也必须从基因的比较,上升到对不同进化水平 的生物在全基因组水平上的比较研究。这样的研究将更有效地揭示基因在生命系统中的地位和作用,解释整个生命系统的组成和作用方式。

对伴随人类基因组而完成的大量微生物完整基因组的信息分析,不仅将直接帮助破译人类遗传密码,其本身也可能解决重大的科学问题。因此,由完整基因组研究所导致的比较基因组学必将为后基因组研究开辟新的领域。 11.6.4 SNP的发现

人类基因组计划持续产生大量序列数据,清楚表明不同 个体在整个基因组有许多点存在DNA序列的基本变异。最常见的变异发生在分散的单个核苷酸位置,即单核苷酸多态性(SNPs),估计发生频率大约每 1000个核苷酸有1个。那么,没每1000个核苷酸,具有一个群体的基本频率的任何一个双拷贝染色体之间的在任一个位置平均核苷酸的一致性是不同的。 SNPs是双等位基因多态性,即多原则上态性位点的核苷酸一致性通常在人类中倾向于二分之一的机率,而不是四核苷酸机率。

SNPs在人类遗传学研究中有重要意义。首先,一组 SNPs发生在蛋白质编码区。特定的SNPs等位基因可被认为是人类遗传疾病的致病因子。在个体中筛选这类等位基因可以检查其对疾病的遗传易感性。其 次,SNPs可作为遗传作图研究中的遗传标记,帮助定位和鉴定功能基因。推算3000个双等位SNP标记将足够进行人类全基因组作图;100,000或更 多的SNPs能够在更大的群体中进行有效的遗传作图研究。因此,需要发展进行大量SNP分析的廉价高效技术,包括DNA芯片技术,MALDI-TOF质谱 等。

SNPs是人类遗传多样性最丰富的形式,可用做复杂 遗传性状作图。通过高通量的测序项目的得到的大量数据是丰富的大部分没接上的SNP来源。这里介绍一种认一DNA来源的遗传序列数据变异发现的整体途径。 计划用迅速出现的基因组序列作为模板放置没有作图片段化的序列数据,并用碱基质量数值区别真正的等位基因变异与测序错误。 7 功能基因组相关信息分析


2 生物信息数据库与查询(8).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:湖南省湘潭市2012届高三第三次模拟考试文综试卷

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: