2.大型公用数据库中的基因组图谱
人类基因组物理图谱信息的主要来源是由NCBI和GDB提供的大型公用数据库。这些数据库提供各种图谱的来源,使研究者能够用一个多用户界面交互系统在图谱中进行比较。在一定程度下,这些数据库还能进行图谱的综合及分析。 (1)NCBI Entrez的染色体图谱
Entrez的基因组部分是最容易获得物理图谱信息的来源之一。此服务由NCBI所提供。Entrez试图以一种可理解的方式将几种遗传学图谱和物理图谱、DNA和蛋白序列信息、以及一个目录型引用数据库和三维晶体结构信息融合起来。因为它的内部连接多,而且界面简单,Entrez 可作为搜索图谱的一个起始点。 除人类基因组,Entrez还提供关于鼠类、果蝇、C.elegans、酵母以及一些原生动物的图谱。尽管可比较的(同线性)图仍不可获得,但它代表了现在最大和最完整的一套多生物体的图谱信息。 (2)GDB的浏览染色体图谱
另一种常见的人类物理图谱数据的来源是GDB。尽管GDB是基于当时基因图谱的重要性才构建起来的,但是最近几年来,GDB也已经进行了扩建重组,现在同 样可以算是物理图谱数据的仓库。不象NCBI,GDB只限于人类图谱数据。它不含序列数据,也没有其它种类生物的信息。同NCBI一样,GDB可以由 WWW上得到。GDB提供了一种全功能的对其数据库的查询式界面。 (3)来自个体来源的基因组图谱
尽管一级数据库,如Entrez和GDB是 已发表的图谱的重要来源,但是它们还没有能替代原始数据的东西。有能力制作自己的物理图谱的实验室一般都有自己的网址,连向它们的图谱数据库。通过从这一 渠道直接获取资料,我们可以看到制图实验室所使用的图的形式、下载原始数据、并且了解实验室制图时的协议。另外,一些图在出现于Entrez和GDB前经常被丢掉。Entrez和GDB数据库选择的表达方式,对那些希望将新的标记物定位于已知物理图谱上的研究者来说,只提供了最小的帮助。 基因组的基因图谱
基因图谱是制作许多物理图谱时工作的基本骨架,也是许多制图项目的起点。有两种基因组范围的基因图谱可供选择。Genethon图含5264个多样性微卫星重复片断,间隔1.6cM。完整的数据库文件,以及图谱的PostScript方式图形表示,在Genethon的FTP站点上均可获得,这些图通过GDB也可以获得。
第二大基因图谱由人类连锁合作中心(Cooperative Human Linkage Center)制造,CHLC图由10775个标记物组成,大多数为微卫星重复片断,间隔3.7cM。
人类基因组的转录物图
在1996年10月,Horno sapiens的一个全基因组转录物图由一个国际合作的研究实验室发表于Science上。 这个图由~15000个不同的表达序列组成,由放射性杂交法定位,与Genethon基因图谱衍生的框架相近。通过对酵母人工染色体作STS含量法又增添 了1000个表达序列。在这张图中,大约1/5的标记物有已知的或是假定的功能,而余下的代表了未知功能的表达序列。制成图的序列一般由 UniGeneset衍生而来,它是一个由NCBI管理的公用重复ESTs数据库。 转录物图是通过将八家不同实验室的图谱数据综合而得到的。为协调制图方法的些微不同,表达序列被放在由Genethon基因图谱衍生的框架上。结果,该图的最大分辨率为~2cM。很多情况下,可以从各个实验室的数据库里得到针对某一部分数据更好的制图信息,特别是the Whitehead Institute和Stanford University的。 浏览NCBI转录物图
转录物图可在两个网址上得到。数据的“亲本”站点为NCBI。在那儿可以找到含有全基因组转录物图的Science文章的全文,以及彩色的图象,但一般都只有装饰性的墙面图案。另外,也有搜索页可以让浏览者对特别感兴趣的基因进行查询,或是通过对功能未知,但其读码框与某已知功能的蛋白质相近的表达序列图谱进行搜索。
NCBI网址的一个限制就是它不能在低分辨率标记物分布柱形图上提供转录物图的图形。但是通过Mapview微程序就可以得到其图形显示。从GDB的首页,沿着What New的链接,可找到全基因组转录物图(到本书出版时链接形式可能已有所不同)。同样,可以认为转录物图也是Entrez网将要制作的一部分。 White head Institute提供的人类物理图谱
The Whitehead Intitute/MIT Center for Genome Research是两张基因组范围物理图谱的最初来源。其中一张是STS含量图,内含指定为YAC的10000多个标记物,以及一张含12000个左右标 记物的放射性杂交图。Whitehead所用的G4杂交板(Genebridge 4 radiation hybrid panel)分辨率为~1Mbp,而以YAC为基础作的图分辨率大约为200kbp。这些图已经和Genethon基因图相结合,产生了一张合图,在平均 150kb范围内有20000个STSs。Whitehead图上大约有一半的标记物是表达序列,它们在人类转录物图上也会出现。
WI(Whitehead Institute)图可通过网络从Whitehead Center for Genome Research的主页上得到。沿着“人类物理图项目”(Human Physical Mapping Project)的链接就可以得到感兴趣的图,这些图可通过几种方法浏览。选择一系列pop-up菜单可以产生所选染色体的图,选择选项按钮可以综合放射 性杂交图、STS含量图和基因图。与Entrez一样,这些图不是固定不变的。点击一个STS或是重叠群,会弹出关于该图素详细信息的页面。图形式图谱在 网址上可按GIF或Macintosh最初模式(PICT)下载。Whitehead网址上还提供了对图谱
数据库进行查询的搜索页。这些搜索数据的链接可 按名称、GenBank通道号、STS型号、染色体分配进行搜索。另外,Whitehead网页也可根据功能关键字搜索制图转录序列,并提供与NCBI中 的主转录物图的链接。
Whitehead也为那些希望建立他们自己的STS 的研究者提供服务,并将之放在一个或多个图上,这些服务包括: 一个在线的引物选择程序,引物3 将一个STS放在STS/YAC含量图上的服务 将一个STS放在放射性杂交图上的服务
Whitehead图远未完善,对合图进行监督性测试就能显示出在基因图、放射性杂交图和STS/YAC图上的STSs位置间存在矛盾。这些矛盾表现在合 图上仍存在交叉线。解释这些图的一个关键点在于理解这些图在可靠性与分辨率水平不一。基因图骨架在数十兆时能可靠地连接标记物,但在低于约2兆时就无法准 确解决两个STS的顺序问题了。放射性杂交图能够测知约10Mb的连接,有效分辨率达~1Mb(更小的间隔也能排序,但是不可靠性逐步增加)。 STS/YAC图可以测知两个相互间隔1Mb的STS的连接,估计分辨力达100~300kb。理解图谱时头脑中应有这些尺度上的差异。一般在1Mb的范 围以下,STS/YAC图是说明顺序的图谱中最可靠的一种。
在STS含量图中,由于STS和YAC的不等分布,可靠性也会有地域差异。在YAC密集的区域(每一个STS有5个或更多的YAC),在排序信息的重要性 上,图谱结果是相对更可靠的。在低密度区,图谱结果中就会有几种同时可能替代的STS顺序,并会附上数据。假定的错误的反面情况,如图12.8中,表示为 图中的空白框。这一点也会严重降低图谱的准确性。最后,因为在所有YAC库中都存在嵌合现象的问题,双键(例如,一对STS同时与2个或更多YAC连接) 比单键(STS只由1个YAC连接)更能可靠说明相邻关系。尽管只有在基因图或放射性杂交图中存在支持性数据时,图上才能构建单键信息,但单由两个STS 相连形成的连接仍保留怀疑。这些元素在任何制图区域被详细检查的时候都应考虑在内。
下面的部分介绍如何在Whitehead图上,通过Whitehead网址安置新的STS。从STS设计和针对Whitehead和放射性杂交图进行制图开始。 设计一个STS,置于Whitehead上
设计一个STS需要一个高质量的DNA序列,至少长达所需的PCR产物。为得到最好的结果,这些序列应不含重复元素和载体序列,并且质量相对高些。任何支持一个WWW浏览器的计算机系统都可以使用该程序,支持TCP/IP的网络连接也是必须的。
首先,将浏览器连到Whitehead Genome Center的主页。寻找并点击指向WWW Primer Picking的链接。接着出现一页,在其上方有一个很大的输入框。剪切原始序列并粘贴到该处,只用粘贴原始序列,不需用名称或其它标记词。这些碱基可以小写或大写,而白色空格可以忽略。
现在,向下滚动窗口,将PCR的条件调至需要值。那些关于盐浓度、温度和产物大小范围等的默认值均是WI所设定的。如果有必要的改变需输入时,按标有 Pick Primers键返回一套引物处进行特定设定。这些引物现在在对感兴趣的序列的审查实验中用得上。通过放大基因组DNA中的一条特定带,可以对这些引物的 能力进行经验性鉴定。引物的失败主要与引物扫描区域中的重复元素有关。相反,通过进行BLAST或FASTA搜索,再选择引物对,来对输入序列中的重复序 列进行筛选则是比较明智的,如果STS成功地放大了一条特定带,它就可以与Whitehead STS/TAC含量图或放射性杂交图相联系,被制成图。 与Whitehead STS/YAC含量图联系对STS制图
一旦被制出后,一个STS就可以通过对CEPT mega-YAC库的扫描确定在STS/YAC含量图上的位置。而对含有超过30000个克隆,其中又有1200个排列、板块和柱池(row、plate和column pool)的YAC库进行搜索,实在是一件头疼的任务。可喜的是,几个生物技术公司已经提供了CEPH YAC的复本和(或)筛选系统,包括Research Genetics Corporation。Whitehead图就是仅从YAC库的后一部分构建起来的。这意味着库模块中位于709-972的范围仍需筛选。STS接着就可以用以下步骤放在图上了。
使浏览器连向Whitehead的主页,并点击标有Human Physical Mapping Project的链接以跳到该组织的物理制图页。从这儿,再找到并 选择“Search for a YAC to its address”,接着出现一页,内有一系列pop-up菜单,能用于输入单个YAC的地址、或一个输入单个YAC名称的主题栏、或一个能粘贴一列YAC 地址的大型区域。后者适用于将多个YAC用于研究的时候。在这个地方输入YAC列表,再使用“plate_row_column”形式,这里是用“_”号 分离板块、排和列这三维(如709_A_1),也可输入多个YAC地址,用空格或carriage回车隔开。搜索过程输入格式并不固定,它也可识别多个 YAC模式(包括709_a_1和709a1)。 当YAC表完成后,按Search键,得到一个表,列有各个YAC,其重叠群位置和染色体分配,以及附近STS的位置。这些STS位于放射性杂交图和(或)基因图上。
要理解该搜索结果,应该知道CEPH库中相当数量(40-50%)的克隆都是嵌合体,这意味着单个YAC可能存在于位于基因组不同部分的重叠群中。由于这 个原因,需要找到多个YAC来证明单个STS分配到了某一特定重叠群中,或是从其它方法来证明(比如FISH,体细胞杂交制图,放射性杂交图制图数据)。 每张图对应输入的一个YAC地址,每个表包括已知 YAC中的STS表,以及STS制图信息。对于每个STS,染色体分配、基因图位置和放射性杂交图位置只要已知就会给出。另外,STS所属的已命名的重叠 群也列成表,这些表中大多数元
素是超文字链接,选择合适的链接可以获得关于一个STS或一个重叠群更多的信息。由于历史原因,许多STS有两个重叠群。双 链接重叠群(例如由成对YAC共有的重叠群)短一些,在构图的起始阶段中是可创造的更可靠的重叠群,它们可以被放心地忽略。单个重叠群长一些,在不同方式 下也应承认其合理性。 Whitehead放射性杂交图
STS也能被置于Whitehead放射性杂交图中,这比STS/YAC含量图的问题简单很多,因为在放射性杂交图上搜索一个STS只用93次PCR,而 不是1000次。Whitehead放射性杂交图使用Genebridge 4 radiation hybrid panel。与CEPH YAC库一样,这些细胞谱系的DNA也可以从一些生物技术公司那儿得到。而有些公司还提供搜索服务。为得到最好的结果,PCR必须在与制作 Whitehead图的相同条件下进行,并应在复制时进行。复制PCR间出现的不同结果说明应继续重复或以未知物对待。
首先,将杂交模板筛选结果重定为“rhv”格式,看上去如下:
sts_name1
001001011000001000000011010001101110011100101001211001110101010100101000
sts_name2
000001111000001000000011010000001110011100101001211001110101010100100000
每个数字代表每个放射性杂交细胞系的PCR结果:0说明PCR结果为负(无反应产物),1说明为正,2说明为“未知”或“未完成”。载体上数字的顺序是很重要的,必须与G4rhp中的正式顺序相对应。为找到该顺序,可沿(Whitehead物理图页上)标有“How the radiation hybrid maps were constructed”(如何构建放射性杂交图)的链接,再按下标有“G40”的链接。该顺序与它们由Research Genetics运输时包装的DNA顺序相同,所以它一般还不是结果。要增加可读性,可在载体内加入空格,用一个或多个空格、或Tab键就可以将STS名称与扫描数据分离开了。
从Whitehead物理图页上,按下标有“Place your own STSs on the genome framework map”(将你自己的STS放入基因组框架图中)的链接,再输入提示的合适的Email地址,并将PCR值粘贴至位于该页上的大型主题框。输入正确的 Email地址很重要,否则制图结果将有可能被误解。
默认时,制图数据会以正文形式返回。为产生放在Whitehead图上的STS的图形,选择一个标有Mac PICT(针对Macintosh系统)或GIF(针对Windows和Uinx系统)的选项按钮。
当设置完成时,按下“提交”键。当数据已被转交或正在制图时,你会得到一个证明,在一小时内结果将会通过Email回执给你。