騰訊優圖：大型語言模型在臨床決策中的革命性應用醫學論壇網-網聚醫學的力量

導語：

作為2024年中國國際服務貿易交易會重要組成部分之一，國家衛生健康委員會百姓健康頻道(CHTV)定於9月13日在京舉辦“2024首都國際醫學大會的平行論壇——數智醫療與醫學人工智能創新論壇”，CHTV&醫學論壇網將為您帶來AI賦能醫療的係列報道。今天的主題將聚焦於騰訊優圖實驗室在醫療語言大模型領域的最近進展與突破。

引言：

在信息時代，人工智能(AI)的迅猛發展正在重塑我們對世界的理解和互動方式。其中，大型語言模型(LLM)作為AI領域的佼佼者，以其卓越的自然語言處理能力，引領著技術革新的浪潮[1]。這些模型通過深度學習技術，在文本理解、生成和翻譯等任務中展現出驚人的表現[2,3]，更在醫療健康領域展現出巨大的應用潛力[4]。

LLM在醫療領域的應用前景廣闊，它們能夠處理和分析海量的醫療文獻、病曆記錄和臨床數據，為醫療信息處理提供強大的支持[5]。通過精準的語義理解，LLM有助於提高臨床決策的效率和質量[6,7]，甚至在某些情況下，能夠輔助醫生進行疾病診斷和治療建議[8]。此外，LLM在患者谘詢、健康教育和自我管理等方麵也顯示出其獨特的價值[9]。

然而，盡管LLM在醫療領域具有巨大的潛力，它們在實際應用中仍麵臨著諸多挑戰[10]。如何確保模型生成的信息的準確性和可靠性[11]?如何保護患者的隱私數據[12]?以及如何讓模型的決策過程更加透明和可解釋[13]?這些問題都需要我們在實踐中不斷探索和解決。

本文旨在深入分析LLM在醫療領域的技術進展和實際應用案例，探討它們如何助力醫療信息處理、臨床決策支持，並展望其在未來醫療實踐中的發展方向[14]。通過對現有文獻的綜合評述，我們將揭示LLM在醫療領域應用的現實意義和潛在價值，同時指出存在的挑戰和未來的改進方向[15]。我們期望通過本文的探討，為醫療AI領域的發展提供有益的參考和啟示[16]。

▼

LLM在醫療信息處理中的應用

在自然語言處理的疆域中，大型語言模型(LLM)以其卓越的文本解析能力，為醫療信息處理領域帶來了革命性的變化[17]。Wu X.等學者的研究提出了一種創新的框架[14]，該框架通過整合外部醫學知識庫，顯著增強了模型對臨床醫療情境的深入理解與分析能力。研究構建了一個涵蓋53本醫學專著和超過38萬個醫學問題的知識庫，為LLM提供了堅實的醫學知識基礎。在此基礎上，利用LLM的上下文學習能力，實現了對非英語臨床環境的精準把握，不僅提升了對醫學問題回答的準確性，更在多語種臨床應用中展現了其跨語言的普適性，對全球醫療領域的均衡發展具有重要意義。

隨著醫學知識的快速演進，LLM在醫學知識編輯與更新方麵的能力變得尤為關鍵[18]。Xu D.和Wu X.等人的一項研究深入探討了LLM在此方麵的應用潛力[19]，並指出：通過模型編輯技術，可以精確修改LLM中存儲的醫學知識，而不幹擾其他無關知識，這對確保臨床決策支持係統的準確性和時效性至關重要。此外，該研究還提出了一係列評估模型編輯效果的挑戰性指標，包括目標分布、實體映射、結構相似性、文本相似性和主題一致性等，為醫療領域LLM的可靠編輯提供了標準化的評估方法。通過這些方法，可以有效地提升LLM在臨床決策中的輔助作用，為醫生提供更加準確和可靠的醫學建議。

LLM在醫療信息處理中的應用，不僅體現在對現有知識的擴展和深化，更在於其對知識更新和編輯的能力。這些技術的發展，為構建更加智能、準確和可靠的醫療輔助係統提供了堅實的基礎，預示著在未來醫療實踐中，LLM將發揮更加關鍵的作用。

▼

LLM在臨床決策支持中的角色

在臨床知識圖譜的推理領域中，大型語言模型(LLM)正逐步成為醫生的得力助手[20]。Wu X.等人的研究提出了一種創新的ICP框架[21]，該框架通過識別臨床情境中的關鍵元素——知識種子，來引導LLM的生成過程。這一方法有效地結合了醫學知識和LLM的推理能力，提升了臨床決策的精確度。ICP框架的操作流程包括四個主要步驟：首先，從臨床情境和推理目標中提取醫學實體;其次，結合知識圖譜推斷出有助於臨床推理的知識種子;然後，將這些知識種子嵌入到提示中，指導LLM進行推理;最後，由LLM生成臨床推理結果及其推理過程的詳細解釋。這種基於知識種子的推理方法，不僅提高了模型回答醫學問題的準確性，也增強了推理過程的透明度和可解釋性，對醫生理解和信任AI輔助決策具有重要意義。

在優化臨床路徑方麵，LLM的作用同樣不容忽視[22]。Wu X.等人的另一項研究提出了MedKP框架[23]，該框架通過內部臨床路徑編碼，顯著提升了醫療決策的準確性。這種編碼通過挖掘曆史對話中的關鍵點和醫生的行動，確保了整個對話的臨床一致性。具體來說，MedKP框架包含兩個核心模塊：外部知識增強和內部臨床路徑編碼。外部知識增強模塊通過醫學知識圖譜提取相關信息，指導LLM的生成過程;內部臨床路徑編碼模塊則通過分析曆史對話中的醫療實體和醫生行動，確保對話的臨床連貫性。這種雙重編碼策略，使得LLM在自動醫療對話係統中的性能得到顯著提升，減少了幻覺的發生，實現了與人類醫生相媲美的臨床決策質量。

LLM在臨床決策支持中的角色日益重要，它們不僅提高了臨床決策的效率，也增強了結果的可靠性和透明度。隨著技術的不斷發展，LLM有望在未來的臨床實踐中發揮更加關鍵的作用，為醫生提供更加精準的決策支持，同時也為患者帶來更高質量的醫療服務。

▼

醫療對話係統的創新

在醫療對話係統中，實現自然語言的流暢交流是一項技術挑戰，它要求係統不僅要理解患者的問題，還要提供準確、及時的醫療建議[24]。Wu X.等人的研究提出的MedKP框架，通過知識增強手段，顯著提升了醫療對話的自然性和準確性[23]。該框架利用醫學知識圖譜，對相應對話中提及的醫學實體進行識別和鏈接，為LLM提供了豐富的上下文信息。這不僅增強了對話係統對醫學術語的理解和響應能力，也使得係統能夠生成更加貼近真實醫療谘詢的回答。

通過內部臨床路徑編碼，MedKP框架進一步確保了對話的連貫性和邏輯性，使得患者能夠獲得更加專業和個性化的醫療建議。這種知識增強的方法，為醫療對話係統的發展開辟了新的道路，使得機器與患者的交流更加自然、高效。此外，MedKP框架的引入，也極大地豐富了對話係統在處理複雜醫療谘詢時的能力，使其能夠更好地理解和回應患者的需求，從而提供更為精準的醫療服務。

在醫療領域，對話係統往往需要同時處理多種任務，如疾病谘詢、健康教育、症狀評估等[25]。Wu X.和Liu Q.等人提出的MOELoRA框架[26]，為多任務學習提供了一種高效的微調方法。該框架結合了混合專家(MOE)和低秩適應(LoRA)的優勢，通過訓練少量參數，實現了對大型語言模型的精細調整。在MOELoRA中，每個專家由一對低秩矩陣組成，這樣的設計不僅保留了參數的小型化，也使得模型能夠為不同任務生成獨特的參數集。

通過任務驅動的門控機製，MOELoRA能夠在不同任務間靈活切換，實現對各種醫療對話任務的高效處理。這種參數高效的微調方法，不僅降低了模型訓練的計算成本，也提高了模型在多任務學習中的性能，為醫療對話係統的發展提供了新的可能性。MOELoRA框架的提出，標誌著我們在構建能夠同時處理多種醫療任務的對話係統中邁出了重要的一步，它為實現更加高效、靈活的醫療對話係統提供了堅實的技術基礎。

通過知識增強和多任務學習框架的應用，醫療對話係統在提供專業醫療建議的同時，也能夠實現與患者的自然交流[27]。這些技術的融合和發展，預示著未來醫療對話係統將更加智能化、個性化，為患者提供更加精準和便捷的醫療服務。隨著研究的不斷深入，我們有理由相信，醫療對話係統將成為醫療領域的重要支柱，為全球醫療健康事業做出更大貢獻。

▼

技術挑戰與未來展望

大型語言模型(LLM)在醫療領域的應用，盡管展現出巨大的潛力，但同時也麵臨著一係列具體的技術挑戰。數據隱私保護是其中的一大難題，醫療數據中包含的患者個人信息、病史和治療記錄等敏感信息，需要在收集、存儲和處理過程中嚴格遵守隱私保護法規[4]。任何數據泄露或濫用都可能對患者造成嚴重傷害，同時也可能對醫療機構的信譽造成不可逆轉的損害。此外，模型偏差問題也是一個不容忽視的挑戰。

LLM在訓練過程中可能會受到數據集中特定群體的過度代表或不足代表的影響，從而在實際應用中產生不公平或不準確的醫療決策[21]。這在多元和複雜的醫療環境中尤為突出，需要我們通過精心設計的訓練策略和多元化的數據來源來緩解。最後，LLM的決策過程通常被視為一個“黑箱”，缺乏透明度和解釋性，這對於需要高度精確性和明確責任歸屬的醫療領域來說，是一個亟待解決的問題。提高模型的可解釋性，確保醫療專業人員能夠理解AI的決策邏輯，對於提升LLM在醫療領域應用的接受度和信任度至關重要。

麵對當前的挑戰，LLM未來的發展方向應當聚焦於提高模型的個性化、公平性和透明度[7]。個性化醫療模型的開發，意味著模型能夠根據患者的個體差異，如基因型、表型和生活方式等，提供定製化的醫療建議和治療方案。這不僅能夠提高治療效果，也能夠提升患者的就醫體驗。加強跨學科的合作，將醫學、計算機科學、數據科學等領域的專家知識整合起來，共同解決LLM在醫療領域應用中的技術難題。

此外，新興技術的整合，如聯邦學習、差分隱私等，將為LLM在醫療領域的應用提供更加安全和可靠的技術保障[21]。這些技術能夠在保護數據隱私的同時，實現數據的價值最大化。最後，提高模型的可解釋性，使醫療專業人員能夠理解LLM的決策過程，從而提高他們對AI輔助決策的信任和接受度[24]。通過這些措施，我們期待LLM能夠在醫療領域發揮更加重要的作用，為全球醫療健康事業做出更大的貢獻，並為患者帶來更高質量、更個性化的醫療服務。

▼

結論

騰訊優圖實驗室在LLM應用於醫療領域的探索中取得了一係列技術突破。這些成果涵蓋了從臨床決策支持到醫療信息處理，再到醫療對話係統等多個關鍵領域。Wu X.等人提出的MedKP框架，巧妙地融合了醫學知識圖譜和臨床路徑編碼，顯著提升了醫療對話係統的準確性和自然性。此外，Qidong Liu等人開發的MOELoRA框架，通過多任務學習優化，有效提升了醫療對話係統處理複雜任務的能力。這些創新不僅推動了醫療AI技術的發展，也為未來醫療實踐提供了新的思路和工具。

LLM的引入，預示著未來醫療實踐將更加智能化和個性化。在臨床決策支持方麵，LLM通過分析龐大的醫療數據，為醫生提供精準的診斷和治療建議，從而提高醫療服務的質量和效率。在醫療信息處理方麵，LLM的應用有助於提升醫療文獻和病曆的數字化管理水平，加快醫療知識的更新和傳播。在患者服務方麵，LLM通過自然語言對話，提供更加人性化的醫療谘詢服務，改善患者體驗。尤為重要的是，LLM在全球健康公平性方麵的應用，有望緩解資源匱乏地區醫療專業人才短缺的問題，縮小不同地區間的醫療差距。

展望未來，LLM在醫療領域的應用前景充滿希望。隨著技術的不斷成熟，LLM將在個性化醫療、跨學科研究、新興技術整合等方麵展現更大的潛力。個性化醫療模型的開發，將使醫療服務更加貼合患者的個體差異;跨學科合作將促進醫學、計算機科學、數據科學等領域的專家共同探索醫療領域的新問題和解決方案;新興技術的整合，如聯邦學習、差分隱私等，將為LLM的應用提供更強大的數據安全和隱私保護。同時，提高模型的可解釋性、減少模型偏差，也是未來研究的重要方向。這些研究將為LLM在醫療領域的廣泛應用打下堅實的基礎，為全球醫療健康事業貢獻更大的力量。

參考文獻

[1] Brown T, Devlin J, Chuang G, et al. Language models are few-shot learners[M]. Advances in Neural Information Processing Systems 33 (2020), 1877–1901.

[2] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805 (2018).

[3] Edunov S, Zhang Y, Vaswani A, et al. Pre-trained language model representations for language generation[Z/OL]. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (2019), 4052–4059.

[4] Petroni F, Huang J, Salazar B, et al. Language models as knowledge bases? arXiv preprint arXiv:1909.01066 (2019).

[5] Strong E, Wang H, Liang S, et al. Chatbot vs medical student performance on free-response clinical reasoning examinations[J]. JAMA Internal Medicine 183 (2023), 1028–1030.

[6] Chung H W, Li S, Shen Y, et al. Scaling instruction-finetuned language models[J]. arXiv preprint arXiv:2210.11416 (2022).

[7] Jiang L Y, Yang J, Liu S, et al. Health system-scale language models are all-purpose prediction engines[J]. Nature (2023).

[8] Nori H, Wang C, Zhang L, et al. Capabilities of gpt-4 on medical challenge problems[J]. arXiv preprint arXiv:2303.13375 (2023).

[9] Liu X, Zhang J, Liang J, et al. Transforming retinal vascular disease classification: A comprehensive analysis of ChatGPT’s performance and inference abilities on non-English clinical environment[J]. medRxiv (2023).

[10] Shah N H, Noronha A P, Iyer S, et al. Creation and adoption of large language models in medicine[J]. JAMA 330 (2023), 866–869.

[11] Liévin V, Bien N, Hecht B, et al. Can large language models reason about medical questions? [J]. arXiv preprint arXiv:2207.08143 (2022).

[12] Blevins T, Zhang Y, Schwartz R, et al. Language contamination helps explain the cross-lingual capabilities of English pre-trained models[J]. arXiv preprint arXiv:2204.08110 (2022).

[13] Gu Y, Sun Y, Li H, et al. Domain-specific language model pretraining for biomedical natural language processing[J]. ACM Transactions on Computation for Healthcare (2021).

[14] Wu J, Doshi-Velez F, Kim B, et al. Master clinical medical knowledge at certificated-doctor-level with deep learning model[J]. Nat. Communications 9 (2018), 4352.

[15] Kasai J, Sakurai Y, Tanaka K, et al. Evaluating gpt-4 and chatgpt on Japanese medical licensing examinations[J]. arXiv preprint arXiv:2303.18027 (2023).

[16] Min S, Wu H, Jiang Y, et al. Rethinking the role of demonstrations: What makes in-context learning work?[J]. arXiv preprint arXiv:2202.12837 (2022).

[17] Peng C, Yang X, Chen A, et al. A study of generative large language model for medical research and healthcare. NPJ Digit Med. 2023 Nov 16;6(1):210.

[18] Gu Y, Tinn R, Cheng H, et al. Domain-specific language model pretraining for biomedical natural language processing. ACM Transactions on Comput. for Healthc. (HEALTH) 3, 2021: 1-23.

[19] Xu D, Zhang Z H，Zhu Z H, et al. Editing factual knowledge and explanatory ability of medical large language models. arXiv preprint arXiv:2402.18099 (2024).

[20] Takagi S, Watari T, Erabi A, Sakaguchi K. Performance of GPT-3.5 and GPT-4 on the Japanese Medical Licensing Examination: Comparison Study. JMIR Med Educ. 2023 Jun 29;9:e48002.

[21]Wu J G, Wu X, Yang J. Guiding Clinical Reasoning with Large Language Models via Knowledge Seeds. Computation and Language (cs.CL); Artificial Intelligence. 2024, arXiv: 2403.06609.

[22] Lam K. ChatGPT for low- and middle-income countries: a Greek gift? Lancet Reg Health West Pac. 2023 Sep 15;41:100906.

[23] Wu J G, Wu X, Zheng Y F, et al. MedKP: Medical Dialogue with Knowledge Enhancement and Clinical Pathway Encoding. 2024, arXiv:2403.06611.

[24] Liu X, et al. Transforming retinal vascular disease classification: A comprehensive analysis of chatgpt’s performance and inference abilities on non-english clinical environment. medRxiv 2023-06.

[25] Min S, et al. Rethinking the role of demonstrations: What makes in-context learning work? Computation and Language (cs.CL); Artificial Intelligence (cs.AI). 2024, arXiv:2202.12837 .

[26]Liu Q, Wu X, Zhan X Y, et al. When MOE Meets LLMs: Parameter Efficient Fine-tuning for Multi-task Medical Applications. Computation and Language (cs.CL); Artificial Intelligence. 2024, arXiv:2310.18339.

[27]Lee P, et al. Benefits, limits, and risks of gpt-4 as an ai chatbot for medicine. New Engl. J. Medicine 388, 1233–1239.

編輯：梨九

二審：石頭

三審：清揚

排版：半夏