1、 UCSC
(1)网址:http://genome.ucsc.edu/cgi-bin/hgNear
在Genome里选择物种,比如human,search里输入你的基因名PTEN,点击Go (2)出现新的页面,看到“Known Gene Names”下面的PTEN了吧,点它 (3)又回到了和(1)类似的页面,此时,点击sequence
(4)出现一个新的页面,选中promoter,同时可以输入数值修改具体的序列区域,比如Promoter including 2000 bases upstream and 100 downstream,即表示启动子-2000~+100区域
(5)点击“get sequence”,出现页面中最上面的序列“>uc001kfb.1 (promoter 2000 100) PTEN - phosphatase and tensin homolog”就是你要的人PTEN启动子-2000~+100区域的序列了
2、Ensembl
(1)网址:http://www.ensembl.org/index.html
在“Search Ensembl“标题下search后的下拉框中选中物种名homo sapiens(人),for框中输入基因名PTEN,点击Go
(2)出现的新页面中比较乱,但不要管它,直接寻找“Ensembl protein coding gene ”字样的,对,也就是第二个,点击它
(3)新出现的页面也很乱,不过依然不用管它,看到左侧有点肉色(实在不知道怎么描述了)的那些选项了吗,对,就是“Your Ensembl”下面那一堆,在里面找“Genomic sequence”,点它
(4)现在的界面就一目了然了,在“5' Flanking sequence”中输入数值确定启动子长度(默认为600),比如1000,点击update;
(5)出现的序列中,标为红色的就是基因的外显子,红色之间黑色的序列就是内含子,而第一个红色自然就是第一外显子了,那么从开始的碱基一直到第一个红色的碱基间自然就是启动子-1000~+1的序列啦
这样,你不仅查到了启动子,连它的外显子、内含子序列也全部搞定了
3、SIB-EPD
(1)网址:http://www.epd.isb-sib.ch/
(2)具体使用方法大同小异,就是输入物种名、基因名,限定启动子序列区域
不过有了前两个,我想已经足够用了,个人感觉SIB-EPD的库容量太小,很多基因查不到
我以前回的贴,总结一下
ensembl一般也和NCBI的一致,你的情况可能例外。这就不清楚了。ensembl有七个外显子可能有它自己的理由。
另外,NCBI的基因中gene库中同时有ensembl和genbank的链接,不如从这个链接看看。 此外,还可以看一看这个基因在物种间的同源性,以及其它物种有几个外显子,做为参考。综合考虑一下。
给你提供几个启动子区域查找的网站,慢慢摸索会学到更多的。 http://www.fruitfly.org/seq_tools/promoter.html 果蝇的 PROMOTER 2.0 http://www.cbs.dtu.dk/services/Promoter/
通常确定启动子的算法可以分成两种,一种根据启动子区各种转录信号,如TATA 盒、CCAAT 盒,结合对这些保守信号及信号间保守的空间排列顺序的识别进行预测。如PROMOTER 2.0, 用神经网络方法确定TATA 盒、CCAAT盒、加帽位点(cap site) 和GC 盒(GCbox) 的位置和距离,