腫瘤是由體細胞基因組DNA變異所驅動產生的複雜疾病,係統研究基因組DNA變異的內在規律有助於從根本上理解腫瘤的發病原因,進而設計更有效的精準診斷和治療策略。依據體細胞DNA變異的性質和規模,腫瘤基因組DNA變異的類型可分為兩大類,其一是簡單變異,如單個堿基替換(single base substitution,SBS)、小片段插入刪除(small indels);其二是複雜變異,拷貝數變異(copy number alteration,CNA)是基因組DNA複雜變異的典型代表。拷貝數變異在腫瘤演化發展過程中發揮著非常關鍵的驅動作用。
研究表明,很多類型的單個堿基替換(SBS)在形態正常的組織細胞裏麵常有發生,然而拷貝數變異(CNA)的發生局限在腫瘤細胞中,提示了基因組DNA拷貝數變異的發生是腫瘤細胞區別於正常體細胞的關鍵分水嶺。然而CNA的複雜程度遠高於單個堿基突變,其變異背後的特征尋找和驅動因素研究也更加複雜,一係列相關的關鍵科學問題依然沒有解決,如CNA特征分類、CNA模式識別、CNA模式與腫瘤精準診斷預測關係等。
2012年開始有研究依據單點變異左右堿基背景將腫瘤基因組突變進行特征分解,最後總結出大約30多種DNA單點突變的模式(mutational signature)。這類分析讓我們從表麵上雜亂無章的單點突變背後,看到驅動單點突變產生的因素或分子事件。如吸煙、衰老分別在基因組DNA上麵留下不一樣且可識別的單點突變模式。單點變異是相對而言比較簡單的基因組DNA變異,拷貝數變異(CNA)的變異特征及其模式研究目前還相當匱乏,這大大阻礙了CNA信息在腫瘤精準診斷預測中的應用。
近日,上海科技大學生命科學與技術學院劉雪鬆課題組在 Briefing in Bioinformatics 期刊發表了題為:The repertoire of copy number alteration signatures in human cancer 的研究論文。
該研究針對腫瘤基因組拷貝數變異(CNA)數據,建立了適應原始數據來源廣、已知拷貝數變異機製非依賴的、泛癌種適用的CNA模式識別與定量方法,並在不同數據中驗證了該方法在癌症分型預後中的實際應用價值。
研究團隊利用2778個公共數據庫PCAWG(32種癌症類型)全基因組測序數據,構建了拷貝數變異模式識別方法,進一步運用10851個TCGA樣本(33種癌症類型)SNP芯片數據驗證了該拷貝數變異模式識別方法的穩定性及可靠性。
該研究提出了一種創新的拷貝數片段分類方法並應用於拷貝數變異模式識別,該分類方法考慮了拷貝數片段的如下特征:拷貝數片段長度、片段絕對拷貝數、片段雜合性狀態、片段前後背景形態信息。考慮到真實世界數據的實際情況,最終獲得176個CNA類別(圖1)。相比現有的CNA模式識別方法,該方法能夠提供更為細致的拷貝數片段信息,為深入理解CNA規律模式、發生驅動因素解讀提供了基礎。
圖1:拷貝數片段數據分類策略
此外,該研究團隊還探究了該CNA模式識別方法在腫瘤精準預後預測中的應用,研究發現部分CNA模式的強弱與腫瘤的預後密切相關(圖2A、C),這種相關性在不同來源的數據中穩定存在(圖2B),提示CNA模式在腫瘤精準預後診斷中具有重要的應用前景。
圖2:拷貝數變異模式與癌症患者預後的關係
考慮到CNA檢測方式的簡便性和多樣性,如低深度全基因組測序技術等等,具有低成本高效率的優勢,與以往簡單描述基因組DNA的拷貝數局部刪失和擴增的信息不同,該方法提供了CNA在整體上的變異模式。結合了CNA特征模式與人工智能的“拷貝數指紋”預計將為腫瘤精準診斷預測帶來全新的標誌物體係。
總而言之,該研究開發了新型的CNA模式定量方法,發現了全新的腫瘤基因組CNA模式,不僅為深入研究腫瘤發生發展的基礎,尤其是腫瘤基因組DNA變異的特征模式及背後驅動因素,提供了基礎,而且為腫瘤的精準診斷預測提供全新的標誌物體係。
原始出處:
Ziyu Tao, Shixiang Wang, Chenxu Wu, et al. The repertoire of copy number alteration signatures in human cancer. Briefings in Bioinformatics, bbad053, https://doi.org/10.1093/bib/bbad053.