由美國人類基因組研究所資助的一個規模巨大的國際性項目,稱為DNA元素百科全書(ENCODE),9月5日,有6篇論文在《自然》、24篇論文在《基因組研究和基因組生物學》、2篇論文在《科學》發表。32個機構和442個研究人員,參加了這個項目的研究。該項目發現:人類基因組DNA,包括略少於21 000個蛋白質編碼基因,8 800個小RNA分子,9 600個長非編碼RNA分子,11 224個假基因。隻有不到3%的基因組的基因,能夠編碼蛋白質。約有80%的基因組是具有生物活性的。基因組DNA的76%轉錄成多種RNA。部分堿基,轉變成RNA鏈,執行基因調控等功能。許多堿基在人類生物學中起作用,如有助於決定一個基因的起動和終止。許多堿基僅落在化學修飾的位置,成為染色體的一些沉默片段。絕大多數堿基,沒有什麼用處。400萬個位點是控製基因活性的開關,給每一類型細胞以獨特的基因組標識。創建的ENCODE圖譜,可以放大查看自染色體到單個堿基和開關,那些堿基是否產生RNA,或是在哪些地方與DNA調控蛋白相結合。一些科學家,正在利用ENCODE的信息於多種疾病和表觀遺傳學的研究。ENCODE的研究結果,將改變人們對人類基因組的思維方式
伊利莎白·派尼茜(Elizabeth Pennisi),美國科學促進協會網站,2012年9月5日
一個規模巨大的國際項目已經發現,人類基因組——1個人遺傳信息的總和——在學校學習的青少年的基因組,含有比編碼蛋白質的基因多得多的遺傳信息。20世紀90年代後期,研究人員決定對人類基因組進行序列測定,那時,他們專注於發現那些傳統意義上的基因,以便鑒定出生命必須的全部蛋白質。每一個基因,被認為是一個離散的DNA片段;它的DNA堿基的順序——大家所熟悉的“字母”分子是構建DNA片段的元素——認為是用於編碼一種特定的蛋白質。但是,破譯人類基因組的科學家們發現,令他們驚訝的是,隻有不到3%基因組的基因,能夠編碼蛋白質。其中,其他的數十億堿基,幾乎是沒有用處的。
現在,一個美資項目,稱為DNA元素百科全書(ENCODE),不管怎麼說,他們已經發現了許多堿基,在人類生物學中起著作用:例如,它們有助於決定一個基因的啟動和終止。例如 ,它可以調節一個腎細胞或另一個腦細胞。耶魯大學的生物信息學家馬克·格斯坦(Mark Gerstein)說:“基因組遠比基因更複雜。”
來自這個項目的真知灼見,有助於研究人員了解疾病和遺傳之間的關係。位於英國辛克斯頓的歐洲生物信息學研究所的生物信息學家伊萬·伯尼(Ewan Birney)說:“我們正被告知研究疾病的一種方法,除此之外,這將是非常困難的。”
作為ENCODE的組成部分,32個機構做計算機分析、生化測試和142個細胞類型的測序研究——6個是相當廣泛地——找出30億個堿基中的每一個堿基的功能。ENCODE的442個研究人員,今天(2012年9月5日)在《自然》雜誌報告,約有80%的基因組是具有生化活性的。其他的堿基,轉變成RNA鏈,執行它們自己的功能,例如基因調控。(RNA通常被認作有助於製造蛋白質的起中介作用的信使分子,但ENCODE指出,更多的RNA是一種終端產品,並不用於製造蛋白質。)而許多堿基僅僅落在化學修飾的位置,用作我們染色體的一些沉默片段。
科學家們關於基因的認識,在ENCODE的結果中,是如何不斷變化的。該項目發現,約有基因組DNA的76%,被轉錄成一種或另一種樣子的RNA,比研究人員原初預計的更多。人類基因組DNA包括,略少於21 000個蛋白質編碼基因(一些研究人員曾經估計我們有超過10萬個這樣的基因);8 800個小RNA分子和9 600個長非編碼RNA分子,這些“基因”中的每一個至少有200個堿基的長度;以及11 224個DNA片段被歸類為假基因,目前已知這種“不運行”的基因,在某些類型細胞或單個細胞中,事實上是具有活性的。此外,定義這些基因的起始端和編碼區的努力,顯示了這些基因可以重疊,並有多個起始端和終末端。
該項目在我們的DNA中,發現了400萬個位點,作為控製基因活性的開關。這些開關離基因既可以遠也可以近,它們在不同類型細胞的不同組合中,調節和發揮作用,給每一類型細胞以獨特的基因組標識。此外,至少由基因組產生的一些RNA鏈,也有助於控製由特定基因活動產生的幾個蛋白質。因此,基因的調控,不斷證明要比曾經預期的複雜得多。
這些和其他的研究結果,今天有6篇論文發表在《自然》,以及有24篇論文發表在《基因組研究和基因組生物學》。另外的2篇論文在線發表於今天的《科學》。在一個數據庫中,ENCODE創建了一份圖譜,顯示出所有不同堿基所起的作用。位於馬裏蘭州貝塞斯達的資助ENCODE的國家人類基因組研究所的一個項目主管,愛麗絲·法因戈爾德(Elise Feingold)說:“對人類基因組來說,這份圖譜好像穀歌地圖一樣。”人們可以在穀歌地圖上,選擇不同的視圖,來觀察地球表麵某一景觀的不同方麵。同樣,在這份ENCODE圖譜中,例如,人們可以放大自染色體水平到單個堿基和開關,來查看那些堿基是否產生RNA,或是在那些地方與DNA調控蛋白相結合。
位於西雅圖的華盛頓大學的一個ENCODE研究人員約翰·A.斯泰馬圖延那泡勒斯(John A.Stamatoyannopoulos)說,這份圖譜的目錄“將改變人們關於對這個人類基因組的思維方式和其實際的應用。”
他和其他的一些人,正在利用這種信息——這種信息中的許多已公開地可以利用——用以了解關於遺傳對疾病的影響。許多大型的研究,已發現一些特定的堿基,與自糖尿病到關節炎範圍內疾病的較高或較低風險有關聯。現在,研究人員可注意觀察那些變異,是否涉及某些種類的調控,如果是這樣的話,是哪些基因受到了調控。與ENCODE沒有關聯的加拿大多倫多大學分子生物學家馬修·拉品茵(Mathieu Lupien)說,對他的癌症和表觀遺傳學的研究而言,“ENCODE的數據是十分重要的。”