Hi-C技術已被證明是檢測人類基因組結構變異(SVs)的一種有前景的方法。然而,目前嚴重缺乏能夠使用Hi-C數據進行全範圍SV檢測的算法, 隻能以低於最佳的分辨率識別染色體間易位和遠程染色體內SVs(> 1mb)。最近,科學家們開發了一個深度學習模型,結合了深度學習和集成學習策略的框架,以高分辨率預測全範圍的SVs。
發表在《Science Advances》雜誌上的一項研究稱,一種機器學習模型已經幫助科學家發現了目前基因組測序無法檢測到的數百種癌症基因突變。
該研究的資深作者是Duane and Susan Burnham分子醫學教授Feng Yue博士。Yue說:“這些發現為癌症分類和潛在療法提供了新的靶點。”
Yue同時也是美國西北大學Robert H. Lurie綜合癌症中心的生物化學、分子遺傳學和病理學副教授,以及癌症基因組學中心主任, 他表示:“我們在癌症基因組中認識了許多先前未知的融合事件,也發掘了已知致癌基因的新型調控機製。”
在每個細胞內,DNA長鏈需要經過精確地折疊和編組,然後裝配到直徑隻有幾微米的細胞核內。此前,Yue和他的合作者表明,癌症基因組的結構變異,如逆轉和易位,可以被Hi-C這類基因組分析工具中檢測到。
這些模式能夠被計算機算法識別為結構變異的指標。此外,這些巨大的結構變異通常會被全基因組測序 (WGS) ,甚至是Nanopore這樣的長讀測序(LRS)所忽略。Yue說:“WGS非常擅長於檢測堿基對突變和短插入缺失,但很難檢測更大的變異。”
在這項研究中,Yue和他的合作者從8個癌細胞係(A549,Caki2,K562,LNCaP,NCI-H460,PANC-1,SK-N-MC和T47D)中收集了一組的不同類型的高可信度結構變異。這些被用來訓練一個深度學習模型—— EagleC,來學習埋藏在這些信號中的隱藏模式。EagleC的檢測結果與傳統基因組測序技術基本一致,WGS或Nanopore測序也發現了70~80%的基因組變異。
不同的是,EagleC發現了數百個被全基因組測序或長讀測序遺漏的融合基因。根據Yue所說,這些新發現的融合基因占Hi-C所檢測到的總遺傳變異的10%-20%。
許多這樣的融合事件引起了一個致癌基因和位於另一條染色體上的一個遠端增強子之間的聯係。這些事件被稱為“增強子劫持”,會導致致癌基因上調。
在這項研究中,研究人員使用EagleC在100多個癌細胞係和患者樣本中搜尋結構變異,發現了其他可能被全基因組測序遺漏的融合事件。Yue說,使用這個模型可以擴展對結構變異及其對癌症相關基因影響的認識。尤其對於前列腺癌和乳腺癌,這兩種最常見的癌症也有很高的基因融合發生頻率。
“我們能夠判斷具有基因融合的癌症和沒有基因融合的癌症的治療反應是否有差異。我們的發現也為癌症研究人員提供了許多控製關鍵致癌基因和途徑的新型調控因子。”
EagleC還可用於檢測數據稀少的單細胞Hi-C分析中的結構變異,這使得科學家能夠檢查單個癌細胞之間的異質性。在未來,Yue希望將這個模型應用到更多的癌症樣本,並尋找針對當前研究中發現的新的基因融合的潛在藥物。