2 生物信息数据库与查询(6)

2018-11-19 21:36

(供BLAST数据库搜索程序使 用)。同时还提供了用于LookUp程序以及数据库参考搜索的索引。

关于GCG,Wisconsin软件包,支持的平台以及硬件需求的一般性信息可以在GCG的主页以及Wisconsin软件包的用户手册中找到。GCG主页提供了更新信息以及Wisconsin软件包程序的完整列表。

SeqLab中可以使用多个序列分析程序的特性使用 户可以应用这些程序顺序地回答相关问题或在对输入序列进行编辑后重复某项分析。而可以同时访问公用数据库和本机序列的优点使用户可以在一个分析中使用其中 任意一种而不用先进行转换或格式化的工作。SeqLab可以解决的序列分析问题: (1)在两条mRNA中寻找开放阅读框架,翻译并对比RNA与蛋白质序列

对两条相关的mRNA进行测序的用户可能希望寻找开放阅读框架(ORF)、翻译以及进行核酸与氨基酸序列间的两两对比。

把序列加入SeqLab Editor中,从Functions菜单中选中Map选项运行Map程序。Map输出文件包含了限制性酶切图和6种可能的翻译框架的ORF的显示。这些ORF的起始和终止位置可进行标记并选为SeqLab Editor中序列显示的范围,然后可用Edit菜单的Translate操作进行翻译。翻译结果自动出现在SeqLab Editor中。

两条相关的核酸或蛋白质序列可用Gap程序或BestFit程序进行对比。Gap程序寻找两条序列间的全局最优对比结果。适用于两条待比对的序列是进化相关的情况。BestFit程序寻找两条序列的局部最优对比结果,它适用于两条序列不是进化相关而是功能相关的情况。

(2)通过参考搜索寻找数据库中的相关条目并进行对比

研究一个特征序列家族成员的用户可能希望寻找这个家族中的其它成员并建立它们的多序列对比。

从Functions菜单中选取LookUp程序。LookUp在数据库条目的参考信息部分搜索描述词并建立匹配条目的列表。在参考部分的Definiton, Author, Keyword和Organism域中搜索描述词并在词之间使用“and”(&)、“or”(|)以及“but not”(!)布尔表达式。例如,在SWISS-PROT条目的Description域搜索“lactate & dehydrogenase & h & chain”将产生一个输出文件,其中列出了乳酸脱氢酶 H 链(lactate dehydrogenase H chain)条目。这个输出文件可以从Output Manager窗口中加以显示,然后与用户的序列一起添加到SeqLab Editor中。

要创建所有这些序列的多序列对比,只要根据序列名称 选中这些序列并从Functions菜单中运行PileUp程序。由PileUp产生的多序列文件也列在Output Manager窗口中并可以直接添加到SeqLab Editor中。推荐采用这一步的原因在于数据库条目的特征表格(Features table)信息可与对比结果一起被包括进来。

必要时对比结果是可以被编辑的,并且如果数据库条目有相似的特征,这些特征可被附加给用户序列。

(3)用查询序列搜索数据库,将找到的条目与查询序列进行对比并产生进化系统树

克隆并测序一个未知功能基因的用户可能希望在一个数据库中搜索相似的序列。如果搜索到了,用户可能进一步希望创建与查询序列最相似的序列的多序列对比并产生数据的种系图。

往SeqLab Editor中添加一个查询序列并从Functions菜单中选取FASTA程序。FASTA程序在数据库中搜索与查询序列相似的序列。输出文件可从Output

Manager窗口中加以显示并直接添加到SeqLab Editor中。在这个输出文件中数据库条目与查询序列局部相似性最好的区域被加以标记。如果要显示的话,每个数据库条目只有这种区域可以显示在SeqLab Editor中。不要的条目可以从SeqLab Editor中一起被删除。

从Functions菜单中选中PileUp程序创建这些序列的多序列对比。输出可从Output Manager窗口中加以显示并添加到SeqLab Editor中更新已经存在的未对比序列。必要时可对这一对比结果进行编辑,并且数据库条目的有用的特征表格信息也可以添加给查询序列。

从Functions菜单中选取PaupSearch程序,程序提供了一个PAUP(进化系统简约性分析(Phylogenetic Analysis Using Parsimony))中树搜索方式的GCG接口。PaupDisplay程序为PAUP中的树操作,鉴定以及显示方式提供了一个GCG接口。

(4)拼接交叠序列片段产生一连续序列,寻找并翻译这一序列的编码区域并在数据库中搜索相似序列

克隆了一个基因,把它分解克隆为一组有交叠的序列片段并进行了测序的用户可能希望把这些序列片段重新组装为一条连续的序列。一旦contig拼接完成,用户可能希望在序列中寻找阅读框架,翻译并在数据库中搜索相似序列。 Fragment Assmbly System的程序可用于拼接交叠序列片段。GelStart程序创建一个项目。GelEnter程序把序列片段复制到项目中。GelMerge程序寻找 片段之间的交叠并把它们拼接成contig。GelAssemble程序是一个编辑器,可用于编辑这些连续的部分并解决片段之间的冲突问题。所有这些程序 都可以从

Functions菜单中选取。一旦拼接完成,最终构成此contig的连续序列可以被保存为一个序列文件并添加到SeqLab Editor中。

使用Map、Frames、TestCode或Codon Preference程序可预测序列中的编码区(所有这些程序可以从Functions菜单中选中)。使用Edit菜单的Select Range功能选择这些程序预测的区域并使用Edit菜单中的翻译操作把它们翻译为蛋白质。这些提出的翻译区域也可以作为核酸共有序列的特征被加入。

选取蛋白质序列然后选择Functions菜单中BLAST。BLAST程序在数据库中搜索与查询序列相似的条目,此程序既可以进行远程搜索也可以进行本机搜索。搜索结果可以从Output Manager窗口中加以显示。如果被搜索的是一个本机的数据库,结果文件可以加入SeqLab Editor或Main List窗口中,并允许对找到的序列进行进一步分析。

(5)对比相关的蛋白质序列,计算对比结果的共有序列,辨识序列中新的特征序列模式,在数据库中搜索包含此模式的序列或在对比结果的共有序列中搜索已知的蛋白质模式

辨识了一组相关序列的用户可能希望对其进行对比并计算对比结果的共有序列。如果可以在对比结果中找到保守模式,用户可能希望在数据库中搜索包含这种模式的其它序列。用户可能还希望在计算出的共有序列搜索已知的蛋白质模式。 选取待对比的序列,从Functions菜单中选取 PileUp程序创建多序列对比,PileUp程序的输出文件可从Output Manager窗口中加以显示并添加到SeqLab Editor中。用户可以对对比结果的某个区域重新加以对比并以此替换原有的对比结果。只要选取一个区域并重新运行PileUp即可。从PileUp Options窗口中选取\(重新对比一个已存在的对比结果的一部分)\,这可能有利于选择一个替代评分矩阵或不同的创建和扩展处罚。新的输出文件将包含最初的对 比结果以及替换原始对比结果的重新对比的区域。

用Edit菜单中Consensus操作计算对比结 果的共有序列。如果保守模式可被辨识,从Functions菜单中选取FindPatterns选项。从共有序列中剪切下此特征序列模式并把它粘贴到 FindPatterns模式选择器中,并在数据库中搜索包含这一模式的序列。

此外,运行Motif程序可在共有序列中搜索已知的 蛋白质模式。Motif在蛋白质序列中搜索在PROSITE,蛋白质位点和模式的PROSITE字典中已知的蛋白质模式。如果辨识出一个Motif,则给 所有序列增加一个特征,并标出它的位置。图4.9显示了一个蛋白质序列的匹配、一个共有序列以及Motif搜索的结果。 (6)使用Profile进行相似性搜索并对比相关序列

序列分析的一个新的扩展领域是Profile技术。 一个profile是一个位置特定的评分矩阵,它包含了一个序列对比结果中每个位置的所有残基信息。这一点与共有序列不同,共有序列中只包含每个位置的保 守残基的信息。Profile做好后可用于搜索数据库、数据库划分或在一个集合中搜索与原始对比结果中的序列相似的序列。它也可以用于把一条单独的序列与 一个对比结果进行对比。 使用ProfileMake程序可创建一个序列对比 结果的profile。使用ProfileSearch程序可用profile对数据库进行搜索,ProfileSegment程序可以显示搜索结果。使 用ProfileGap程序可将一个序列与profile进行对比。

ProfileMake, ProfileSearch, ProfileSegments以及ProfileGap程序都可以从Functions菜单中启动。 GCG的主页 http://www.gcg.com 2. ACEDB

ACEDB是一种被广泛应用的管理和提供基因组数据 的工具组,适用于许多动物和植物的基因组计划。该软件是免费的,并且可运行在Unix和Macintosh OS系统下,Windows版本马上就会推出。数据库以丰富的图形界面提供信息,包括有具体显示的基因图谱,物理图谱,新陈代谢的途径和序列等。数据用流 行的对象的形式进行组织,使用大家熟悉的类别如,相关的文献,基因,描述,和克隆的DNA等。可用于专用的数据分析以及许多永久性数据的采集,而且使用者 不需要经过专门的计算机和数据库的训练就可以使用ACEDB。对于资源有限的计划,这往往是决定使用ACEDB的关键因素。 3.其它工具

不同的基因组测序中心都有其特有的一套序列管理分析方案及工具,并且在不断发展完善之中,具体细节可访问这些测序中心的网站了解。

6.2人类和鼠类公共物理图谱数据库的使用 1.物理图谱的类型

物理图谱有许多结构和形式。限制性图谱(restriction map),用于对小区域、如kb量级做精细结构制图,细胞遗传学图(cytogenetic map),用于对以104 kb为长度量级的区域制图。最常用的两种类型是STS含量图(STS content map)和放射性杂交图(radiation hybrid map),它们的分辨区域都大于1Mb,并且有能使用简易PCR中的定位标记物的优点。

在STS含量图中,STS标记物通过多聚酶链反应所监测,在反应中它与一个大的插入克隆基因库反应,如酵母人工染色体(TACs),细菌人工染色体 (BACs)和粘粒等。如果两个或多个STS被发现是存在于同一个克隆之中,那么这些标记位点紧密相邻的机会就很高(不是100%,因为在制图过程中存在 一些假象,如出现嵌合克隆体)。一段时期以来,根据STS含量图已经建立起一系列重叠群,如含有STS的重叠簇克隆。这样一张图的分辨率和覆盖度由一些因 子决定,如STS的密度、克隆群体的大小、以及克隆文库的深度。通常STS含量图以长1Mb的插入YAC库为基础,分辨率为几百个bp。如果使用插入部分 较小的克隆载体,图谱就会有一个更高的理论分辨率,但是覆盖基因组同样大小面积就需要更多的STS。虽然一般有可能从STS含量图上得到标记物的相对顺 序,但是相邻标记物之间的距离还是无法精确测得。尽管如此,STS含量图还是有与克隆原相关的优点,并且可将其用于更进一步的研究,如次级克隆或DNA测序。到目前为止,STS

含量图制图简单而使用最多的来源是巴黎的CEPH(centre d

Etudes du Polymorphisme Humain)中的YAC库。它是一个10×覆盖率的文库,平均插入长度为~1Mb。

放射性杂交图(对片段DNA的断点作图。在此技术中,一个人体细胞系被致死性的gamma射线照射,染色体DNA分成片段。然后该细胞系与一个仓鼠细胞系 融合而被救,并能繁殖几代。在这期间,人类细胞和仓鼠细胞的杂合体随机丢失其人类染色体片段。这样一百个或更多的杂合细胞系克隆体中,每一个都有不同数量 的染色体片段,筛选生长后,就可以形成一套杂合组,供接下来的制图实验用了。

如果要在一个放射性杂交组中对一个STS作图,那就要将每种杂交组细胞系中的DNA进行STS的PCR操作。细胞系中如果含有该STS的染色体片段,那么 就能得到一个正的PCR信号。在基因组中相邻很近的STS有相似的固位模式

(retention pattern),因为放射性引起的断点落在它们中间的几率很小。相邻较远的STS固位模式相似性降低,相邻很远的STS的固位模式将会截然不同。与基因 图谱所用方法类似,算法类的软件也能推出STS在放射性杂交图上的相对顺序,并通过断点落在其中间的可能性,用某一距离系统计算相邻标记物之间的距离。放 射性杂交图还能提供一个标记物位于某一个特殊位点的可能值(优势对数值)。一个放射性杂交图的分辨率依赖于杂交体片断的大小,而这又依赖于人体细胞系所受 的辐射量。一般对基因组大小作图的细胞系分辨率为~1M。 除STS含量图和放射性杂交图外还有几个方法可用于制作人类物理图谱。克隆图谱使用与STS含量图不同的技术来决定克隆体的接近程度。例如,CEPH YAC图谱法综合利用指纹法(fingerprinting)、间-Alu产物杂交法(inter-Alu product hybridization)和STS含量图法来制作一张重叠的YAC克隆体图谱。缺失和体细胞杂交图依赖于大型基因组重组(可以人工引进或由实验本身引 起),从而将标记物放在由染色体断点所限定的bin?中。FISH图谱使用一个荧光信号来探测克隆体的间期DNA扩散时的杂交情况,从而以细胞遗传学图中 一条带的位置定出克隆体的位置。

研究者捕捉致病基因时对转录序列图谱有特别的兴趣。这些序列是由已表达序列,和那些从已转化成STS并置于传统物理图谱的已知基因衍生而来的。近来一些制 作大量EST的工程已经使制图实验室能够得到数以万计的单一表达序列。一旦一个致病位点被鉴定出来后,这些转录序列图谱就能明显加快对目标基因的研究速 度。

YAC库可用于STS的排序,但其克隆体中的高嵌合率和高删除率使它们不能用于DNA测序。去年高分辨率、可用于测序的质粒和BAC图谱则发展很快。因为它们所需的克隆工艺水平很低。除了几个特例,如染色体19的Lawrence Livemore实验室质粒图外,其它图谱都还只处在初级阶段。


2 生物信息数据库与查询(6).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:湖南省湘潭市2012届高三第三次模拟考试文综试卷

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: