Nature子刊 | 多用途深度學習方法sciPENN，可預測、插補scRNA-seq、CITE-seq蛋白質表達醫學論壇網-網聚醫學的力量

單細胞多組學分析在生物學研究中的普及，促進了人們對細胞異質性和亞群體的理解。特別是通過測序對轉錄組和表位進行細胞索引(CITE-seq)方案的可用性不斷提高，極大地促進了相關研究進展。CITE-seq是一種單細胞多組學技術，能夠同時分析RNA基因表達和細胞表麵蛋白，具有發現單模態單細胞RNA測序(scRNA-seq)所遺漏的細胞異質性的潛力，目前已廣泛應用於生物醫學研究，特別是免疫相關疾病和其他疾病(如流感和COVID-19)。

CITE-seq分析的一個挑戰是需整合多個CITE-seq和scRNA-seq數據集，數據集成增加了信息內容，同時也加劇了計算困難。此外，相較scRNA-seq數據，CITE-seq數據的生成成本也很高。對此，一個潛在的解決方案是了解RNA和蛋白質之間的關係，從大型參考數據集中借用信息，然後對scRNA-seq數據進行蛋白質預測。Seurat 4和TotalVI都已被引入來實現這一功能，但其計算成本十分昂貴，且都存在局限性。

近日，美國賓夕法尼亞大學研究團隊在Nature Machine Intelligence上發表了題為“A multi-use deep learning method for CITE-seq and single-cell RNA-seq data integration with cell surface protein prediction and imputation”的文章。研究團隊開發了一種多用途的深度學習方法——sciPENN，支持CITE-seq和scRNA-seq數據整合，能夠預測、插補scRNA-seq、CITE-seq蛋白質表達，量化不確定性以及實現從CITE-seq到scRNA-seq的細胞類型標記轉移。跨多個數據集的綜合評估表明，sciPENN優於當前同類其他方法。

sciPENN的模型架構如圖1所示，其總體目標是從一個或多個CITE-seq參考數據集中學習。當CITE-seq參考數據不完全重疊時，sciPENN可以對每個參考數據集的缺失蛋白質進行估算。在CITE-seq參考數據中學習後，sciPENN能夠預測scRNA-seq查詢數據集的所有蛋白質，並將多個數據集整合到一個共同的嵌入空間中。sciPENN可以估計蛋白的平均表達量，量化估算的不確定性，並選擇性將細胞類型標簽從CITE-seq參考數據轉移到scRNA-seq查詢數據中。

研究團隊使用Seurat 4文章中報告的161,764個人類外周血單核細胞數據集(PBMC)進行分析，其包含224種蛋白質。對於測試集，使用了粘膜相關淋巴組織數據集(MALT)，其包含由10x Genomics生成的8,412個細胞。在MALT數據集中的17種蛋白質中，有10種與PBMC數據集重疊。

研究團隊分別使用sciPENN、Seurat 4和TotalVI方法分析了上述數據(圖2)。首先，使用每種方法將PBMC CITE-seq參考數據和MALT scRNA-seq查詢數據共同嵌入到一個潛在空間中(圖2)。由於PBMC和MALT查詢數據之間的巨大差異，即使這三種方法中都采用了內部批量校正策略，sciPENN、TotalVI和Seurat 4仍很難在潛在嵌入空間中完全混合這兩個數據集。但sciPENN整合兩個數據集的能力最優，其在潛在嵌入中實現了這兩個數據集的部分混合。

同時，研究團隊還檢測了三種方法的蛋白表達預測準確性，通過相關性和均方根誤差(RMSE)對其進行量化。結果顯示，sciPENN在所有蛋白質中實現了最高的蛋白質預測精度。這種高蛋白質預測準確性使sciPENN能夠準確地恢複蛋白質表達模式。

考慮到查詢、參考數據集之間更加均衡的平衡，研究團隊使用一個人類血液單核細胞和樹突狀細胞CITE-seq數據集(單核細胞數據集)，為測試集保留了真實表達(圖3)。分析顯示，sciPENN在嵌入過程中實現了兩個數據集的完全混合;TotalVI實現了幾乎完全的混合，隻有極少的不重疊;Seurat 4未完全混合兩個數據集。

接下來，研究團隊隨機地將完整的PBMC數據分為訓練一半和測試一半，選擇了CD8亞型的三種蛋白質標誌物(CD45RA，CD44-2和CD38-1)並檢測了sciPENN恢複標記蛋白趨勢的能力(圖4)。CD45RA是CD8幼稚型的明顯標記，CD44-2是CD8 TEM3和CD8 TCM2的明顯標記，CD38-1是CD8 TCM2的明顯標記。

結果顯示，sciPENN的蛋白質預測準確地恢複了這些趨勢，研究人員可僅使用sciPENN預測來檢測蛋白質的高表達細胞亞型。TotalVI和Seurat 4的表現比sciPENN略差，Seurat 4低估了CD8 TEM3中CD44-2的表達，TotalVI低估了CD8 NAIVE 2中CD38-1的表達。

最後，研究團隊檢測了sciPENN在PBMC和H1N1 RNA-seq數據中預測蛋白表達能力，由於TotalVI的損失函數迅速衰減為非數字，因此並未將其納入比較。研究團隊將每個測試數據集中預測的蛋白質分為三類：僅存在於Hanifa、僅存在於Sanger和兩者都存在。結果顯示，與獨特蛋白質相比，sciPENN預測常見蛋白質更準確、預測效果越好。上述結果強調了結合多個CITE-seq數據集對蛋白質表達預測的重要性。

綜上所述，研究團隊開發了sciPENN深度學習模型，可以預測和估算蛋白質表達，集成多個CITE-seq數據集，量化預測和估算不確定性。sciPENN能夠從具有部分不重疊蛋白質panel的多個CITE-seq數據集中學習，估算每個組成CITE-seq數據集的缺失蛋白質，甚至在從部分重疊的CITE-seq數據集學習後預測外部scRNA-seq數據集中的蛋白質表達。此外，sciPENN提供了比totalVI和Seurat 4更可靠、準確的結果，同時還具有高度的可擴展性和計算效率，是綜合CITE-seq和scRNA-seq數據分析的一個理想工具選擇。

參考文獻：

Lakkis, J., Schroeder, A., Su, K. et al. A multi-use deep learning method for CITE-seq and single-cell RNA-seq data integration with cell surface protein prediction and imputation. Nat Mach Intell (2022). https://doi.org/10.1038/s42256-022-00545-w