利用計(jì)算機(jī)來協(xié)助克隆基因,稱為“電子”基因克隆(sillcon cloning),是與定位克隆、定位候選克隆策略并列的方法之一,即采用生物信息學(xué)的方法延伸EST序列,以獲得基因部分乃至全長(zhǎng)的cDNA序列。EST數(shù)據(jù)庫(kù)的迅速擴(kuò)張,已經(jīng)并將繼續(xù)導(dǎo)致識(shí)別與克隆新基因策略發(fā)生革命性變化。
1 EST序列的獲取
利用計(jì)算機(jī)來協(xié)助克隆的第一步是必須獲得感興趣的EST,在dbEST數(shù)據(jù)庫(kù)中找出EST的最有途徑是尋找同源序列,標(biāo)準(zhǔn):長(zhǎng)度≥100bp,同源性50%以上、85%以下?赏ㄟ^數(shù)個(gè)萬(wàn)維網(wǎng)界而使用BLAST檢索程度實(shí)現(xiàn),其中最常用的如NCBI(National center for Biotechnology Information)的eneBank、意大利Tigem的ESTmachine(包括EST提取者和EST組裝機(jī)器)、THC(Tentative human Consensus Sequences)數(shù)據(jù)庫(kù)、ESTBlast檢索程序——通過英國(guó)人類基因組作圖項(xiàng)目資源中心(Human genome Mapping Project Resource Center,HGMP—RC)服務(wù)器上訪問。然后將檢出序列組裝為重疊群(contig),以此重疊群為被檢序列,重復(fù)進(jìn)行BLAST檢索與序列組裝,延伸重疊樣系列,重復(fù)以上過程,直到?jīng)]有更多的重疊EST檢出或者說重疊群序列不能繼續(xù)延伸,有時(shí)可獲得全長(zhǎng)的基因編碼序列。獲得這些EST序列數(shù)據(jù)后,再與GeneBank核酸數(shù)據(jù)庫(kù)進(jìn)行相似性檢測(cè),假如鳳有精確匹配基因,將EST序列數(shù)據(jù)據(jù)EST六種閱讀框翻譯成蛋白質(zhì),接著與蛋白質(zhì)序列數(shù)據(jù)庫(kù)進(jìn)行比較分析;蚍治龅慕Y(jié)果大致有三種:第一是已知基因,是研究對(duì)象為人類已鑒定和了解的基因;第二是以前未經(jīng)鑒定的新基因;第三是未知基因,這部分基因之間無同種或異種基因的匹配。新基因和未知基因?qū)⑦M(jìn)一步用于生物學(xué)研究。
2 基因的電子定位
基因的電子定位采用NCBI的電子PCR程序進(jìn)行檢索,尋找EST序列上是否存在序列標(biāo)簽位點(diǎn)(sequence tagged sites,STS),STS作為基因組中的單拷貝序列,是新一代的遺傳標(biāo)記系統(tǒng),其數(shù)目多,覆蓋密度較大,達(dá)到平均每1kb一個(gè)STS或更密集。將尋找到的STS與相應(yīng)的染色體相比較,即可將此序列定位在該染色體上。
3 IMAGE克隆的索取
許多ESTs所對(duì)應(yīng)的cDNA克隆可通過基因組及其表達(dá)的整合分子分析(intergrated molecular analysis of genomes and their expression,IMAGE)協(xié)定免疫索取,這與電子基因克隆相輔相成,IMAGE協(xié)定由美國(guó)LLNL國(guó)家實(shí)驗(yàn)室主持,宗旨是共享排列好的cDNA文庫(kù)中的克隆重,大規(guī)模的EST測(cè)序項(xiàng)目如Merk&Cow公司投資的人類ESTs項(xiàng)目等都加入了IMAGE協(xié)定。當(dāng)研究者通過另外的途徑得到基因的部分序列,并通過同源性檢索后發(fā)現(xiàn)該片段與加入IMAGE協(xié)定的EST序列高度同源時(shí),便可免費(fèi)索取其原始克隆,可通過美國(guó)的ATCC組織(American type Culture Collection)索取,從而避免或減輕篩選全長(zhǎng)基因的麻煩,以集中精力進(jìn)行基因的功能研究。
1 EST序列的獲取
利用計(jì)算機(jī)來協(xié)助克隆的第一步是必須獲得感興趣的EST,在dbEST數(shù)據(jù)庫(kù)中找出EST的最有途徑是尋找同源序列,標(biāo)準(zhǔn):長(zhǎng)度≥100bp,同源性50%以上、85%以下?赏ㄟ^數(shù)個(gè)萬(wàn)維網(wǎng)界而使用BLAST檢索程度實(shí)現(xiàn),其中最常用的如NCBI(National center for Biotechnology Information)的eneBank、意大利Tigem的ESTmachine(包括EST提取者和EST組裝機(jī)器)、THC(Tentative human Consensus Sequences)數(shù)據(jù)庫(kù)、ESTBlast檢索程序——通過英國(guó)人類基因組作圖項(xiàng)目資源中心(Human genome Mapping Project Resource Center,HGMP—RC)服務(wù)器上訪問。然后將檢出序列組裝為重疊群(contig),以此重疊群為被檢序列,重復(fù)進(jìn)行BLAST檢索與序列組裝,延伸重疊樣系列,重復(fù)以上過程,直到?jīng)]有更多的重疊EST檢出或者說重疊群序列不能繼續(xù)延伸,有時(shí)可獲得全長(zhǎng)的基因編碼序列。獲得這些EST序列數(shù)據(jù)后,再與GeneBank核酸數(shù)據(jù)庫(kù)進(jìn)行相似性檢測(cè),假如鳳有精確匹配基因,將EST序列數(shù)據(jù)據(jù)EST六種閱讀框翻譯成蛋白質(zhì),接著與蛋白質(zhì)序列數(shù)據(jù)庫(kù)進(jìn)行比較分析;蚍治龅慕Y(jié)果大致有三種:第一是已知基因,是研究對(duì)象為人類已鑒定和了解的基因;第二是以前未經(jīng)鑒定的新基因;第三是未知基因,這部分基因之間無同種或異種基因的匹配。新基因和未知基因?qū)⑦M(jìn)一步用于生物學(xué)研究。
2 基因的電子定位
基因的電子定位采用NCBI的電子PCR程序進(jìn)行檢索,尋找EST序列上是否存在序列標(biāo)簽位點(diǎn)(sequence tagged sites,STS),STS作為基因組中的單拷貝序列,是新一代的遺傳標(biāo)記系統(tǒng),其數(shù)目多,覆蓋密度較大,達(dá)到平均每1kb一個(gè)STS或更密集。將尋找到的STS與相應(yīng)的染色體相比較,即可將此序列定位在該染色體上。
3 IMAGE克隆的索取
許多ESTs所對(duì)應(yīng)的cDNA克隆可通過基因組及其表達(dá)的整合分子分析(intergrated molecular analysis of genomes and their expression,IMAGE)協(xié)定免疫索取,這與電子基因克隆相輔相成,IMAGE協(xié)定由美國(guó)LLNL國(guó)家實(shí)驗(yàn)室主持,宗旨是共享排列好的cDNA文庫(kù)中的克隆重,大規(guī)模的EST測(cè)序項(xiàng)目如Merk&Cow公司投資的人類ESTs項(xiàng)目等都加入了IMAGE協(xié)定。當(dāng)研究者通過另外的途徑得到基因的部分序列,并通過同源性檢索后發(fā)現(xiàn)該片段與加入IMAGE協(xié)定的EST序列高度同源時(shí),便可免費(fèi)索取其原始克隆,可通過美國(guó)的ATCC組織(American type Culture Collection)索取,從而避免或減輕篩選全長(zhǎng)基因的麻煩,以集中精力進(jìn)行基因的功能研究。