腫瘤細胞的特征是基因組中有著大量的結構變異(Structural Variation,SV),比如大片段序列的缺失、擴增、倒位、易位等。很多結構變異已被證明和腫瘤的發生密切相關,並被用於腫瘤的分型與預後診斷,成為設計靶向治療藥物的重要依據,比如慢性髓係白血病中的 BCR/ABL1 融合基因。如何精準地在全基因組上檢測結構變異一直是基因組學,病理學以及分子診斷的重點和難點。
目前人們對結構變異的檢測主要依賴於全基因組測序(WGS)。然而,由於 WGS 依賴於短測序,所以其在檢測基因組重複區域結構變異上的能力十分有限。而重複區域在人類基因組上的占比接近50%,所以 WGS 的結果有可能遺漏很多重要的結構變異。近年來發展起來的長序列測序方法,如 Nanopore 和 PacBio, 在一定程度上緩解了這一問題,然而這些方法通常需要很高的測序深度,而且輸出結果經常達到幾千甚至上萬個結構變異,人們無法識別哪些變異更為重要。
來自美國西北大學的 Duane and Susan Burnham 講席教授和癌症組學中心主任嶽峰課題組及其合作者與2018年發表於 Nature Genetics 的工作首次開創性的利用全基因組染色質構象捕獲技術(Hi-C)在不同腫瘤樣本中對結構變異進行了全基因組識別【1】。Hi-C 最早被發明用來研究染色質的空間結構。由於結構變異能夠在斷點附近引發異常染色質交互,當把來自癌症細胞的 Hi-C 數據比對到參考基因組上時,不同種類的結構變異會在相應的基因組片段間形成獨特的染色質交互模式。對這些不同交互模式的識別是利用 Hi-C 識別結構變異的基礎。相比 WGS,Hi-C 對結構變異的識別不依賴於測序讀段對結構變異斷點的直接覆蓋,因而能夠在較低測序深度下檢測位於複雜基因組區域的結構變異。然而,目前所有基於 Hi-C 的算法在識別結構變異的種類和大小上都有很大的局限性,包括目前使用最廣泛的 Hi-C breakfinder【1】(由嶽峰課題組共同開發),隻能識別染色體間易位和超大片段(大於1Mb)的染色質內結構變異。這是因為,當隻考慮染色質內交互,特別是小於1Mb染色質交互時,代表染色質固有結構的正常染色質互作會極大地幹擾結構變異引發的交互信號,從而增加算法對小片段結構變異識別的難度。
2022年6月15日,嶽峰課題組在 Science 子刊 Science Advances上發表了題為:EagleC: A deep-learning framework for detecting a full range of structural variations from bulk and single-cell contact maps 的研究論文【2】。
該研究基於深度學習和集成學習策略,提出一個全新的捕捉癌症基因組中結構變異的計算框架——EagleC。EagleC 能夠用於多種染色質構象捕獲技術,比如 Hi-C,Micro-C,HiChIP。更為重要的是,這個深度學習的模型可以直接用在單細胞 Hi-C 上,從而可以監測到癌症組織裏的不同癌細胞結構變異的異質性。
EagleC 創造性地將深度學習(deep-learning)算法在圖像識別上優勢和集成學習(ensemble learning)相結合,以課題組先前在多個癌症細胞係中識別的高質量結構變異為訓練樣本,訓練得到能夠準確地在不同測序深度下識別結構變異的機器學習模型。為進一步降低預測的假陽性率,EagleC 采用了一種遞歸學習(iterative training)策略,在訓練過程中不斷從正常細胞 Hi-C 數據中引入陰性樣本。相比已有基於 Hi-C 的算法,EagleC 能夠檢測出多一倍多結構變異數量,而且結構變異識別的準確率(precision)和召回率(recall)也都顯著提高。另外由於 EagleC 能識別高分辨率的結構變異,該研究首次證實了 Hi-C 可以被用於在癌症樣本中識別融合基因。
特別值得一提的是,由 EagleC 識別的結構變異大約有20-30%無法被目前常用的 WGS 和長片段測序如 nanopore 所識別。但是這些結構變異是可以被 RNA-Seq 數據所驗證, 而且有相當一部分 Hi-C 檢測到結構變異斷點在已知癌症基因附近,所以很可能與這些基因的異常表達有關係。
借助深度學習,EagleC 還能夠利用其他染色質構象捕獲技術,如 ChIA-PET、HiChIP、capture Hi-C 以及單細胞 Hi-C 等識別結構變異。更重要的是,EagleC 可以在癌症單細胞 Hi-C 數據上檢測結構變異。如圖下所示,EagleC 精確的在四個單細胞中檢測到了慢性髓係白血病中的 BCR/ABL1 融合基因。所以 EagleC 將有望成為研究腫瘤病人樣本的細胞異質性,理解腫瘤細胞發育和進化的一個重要計算方法。
最後,研究團隊利用訓練好的 EagleC 模型在超過100個癌症細胞係和病人樣本中識別到了數千個結構變異。通過基因不研究發現,結構變異在腫瘤細胞中的形成與染色質的三維結構特征息息相關。在宏觀尺度上,結構變異更容易發生在染色質區室A(Compartment A,代表活躍的染色質區域)之間;在局部尺度上,結構變異斷點往往出現在染色質拓撲相關結構域(topologically associating domains,TAD)的邊界附近。此外,研究還發現腫瘤相關基因的轉錄起始位點特異性地富集在位於 TAD 邊界的結構變異斷點附近。
綜上所述,EagleC 是基於深度學習利用染色質構像捕獲技術識別基因組結構變異的全新的計算框架,對發現新的基因融合事件,輔助腫瘤分型和靶向治療藥物的設計等具有潛在的應用價值。此外,EagleC 還能用於其他物種基因組的結構變異檢測,進而評估參考基因組的組裝質量。