隨著人工智能技術的飛速發展,醫療語言大模型在全球範圍內迅速崛起,成為推動醫療行業變革的重要力量。騰訊優圖實驗室通過結合深度學習和大數據技術,開發了一係列醫療人工智能(AI)解決方案。這些解決方案不僅助力疾病預測和個性化治療,還在臨床輔助決策中發揮了重要作用。
2024年中國國際服務貿易交易會期間,國家衛生健康委員會百姓健康頻道(CHTV)於9月13日在北京舉辦了“2024首都國際醫學大會的平行論壇——數智醫療與醫學人工智能創新論壇”。在該論壇上,騰訊優圖天衍研究中心主任、專家研究員吳賢博士以“從深度學習到大模型,醫學自然語言處理上的一些嚐試”為主題進行了主旨報告。吳賢博士的報告深入探討了醫學大模型在醫學自然語言處理中的創新應用,展示了騰訊在這一領域的最新研究成果和應用實例。
吳賢博士
醫療AI的全流程嵌入——從診療到決策
當前,醫療AI不僅限於單一環節的優化,而是通過全麵覆蓋診療全流程,實現從初診到隨訪的智能化管理。吳博士以騰訊優圖實驗室麵向醫生的AI臨床助手為例,指出:這種智能化管理的核心優勢在於其能夠通過深度學習技術,對海量的醫療數據進行分析和學習,從而在疾病預測、檢查報告自動生成、用藥推薦等方麵提供精準的輔助。而更加全麵的算法體係不僅能夠為醫生提供決策支持,還能在一定程度上優化診療流程,提高醫療服務的效率和質量。
以合理用藥為例,吳博士介紹,通過構建逾4萬種處方集、用藥畫像和組合用藥方案,AI臨床助手能夠為醫生提供智能的用藥方案推薦。這不僅有助於減少藥物不良反應的發生,還能提高治療效果,實現個性化治療。同時,AI算法引擎服務能夠為醫生提供多維度的數據分析和決策支持,進一步優化治療方案。
在醫療效率和準確性的提升方麵,AI技術的算法體係扮演著關鍵角色。吳博士提到,天衍研究中心自研的疾病預測模型MedBert已實現了對近3000種疾病的廣泛覆蓋,其預測疾病的準確率高達96.39%。這一高準確率的實現,得益於算法體係對海量醫學數據的深度學習與分析。通過構建合理的算法模型,AI臨床助手能夠精準地預測疾病發展,為醫生提供強有力的決策支持。
同時,基於1000萬合理用藥規則構建的算法模型,AI臨床助手能夠進行多維度的分析,及時提醒醫生潛在的用藥風險。這不僅確保了患者用藥的安全性,也提升了治療效果。此外,AI臨床助手還能進行全麵醫學術語提取,精準提取病症、體征、檢驗檢查、藥品等10餘種醫學實體類型,構建90萬個醫學術語節點和400萬個醫學術語關係,為醫生提供更為全麵和準確的醫療信息。
從數據到模型:醫學大模型的構建與應用
醫學大模型如何在現代醫療中發揮關鍵作用?吳博士指出,數據的力量不容小覷,它是構建高效、準確的醫學大模型的基石。天衍研究中心極為重視醫學大模型研發流程中的數據規模和質量,以及微調過程的嚴謹性。正是這些“細節“共同決定了大模型的性能,以及其在實際醫療場景中的應用效果。
吳博士強調,騰訊醫學大模型的研發始於對龐大數據集的篩選與整合,其訓練數據不僅包括了1000億字的醫學預訓練數據,包括醫學教材、論文、醫學百科和藥品說明書等,還涵蓋了結構化數據,如天衍醫學知識圖譜(Jarvis-KG),包括醫療通用知識圖譜、術語知識圖譜和業務知識圖譜等,其醫學知識覆蓋率達98%。此外,吳博士團隊采用了3000萬個問答對實現了模型數據的微調,覆蓋了患者、醫生和藥企三個場景數據。這對於提升模型在實際醫療場景中的應用效果至關重要,確保了模型能夠在多樣化的醫療對話中提供準確的信息和建議。
強化學習數據的引入是提升模型性能的關鍵,在這一過程中,吳博士團隊使用了超過36萬組數據。針對不同醫學問題,微調後的基座模型針對每個問題生成了5條不同的回複。然後,邀請專業醫生對這些回複進行評分,模型則根據評分來優化其生成策略。這樣的訓練方式,不僅提高了模型的預測準確性,還增強了其在複雜醫療場景下的適應性和靈活性。
在實際應用場景中,騰訊醫學大模型展現了其強大的實用性和廣泛的適用性。吳博士具體介紹了幾個典型的應用場景。例如,在科室導診中,模型通過患者主訴智能推薦相應科室和醫生,優化就醫流程;在醫生推薦環節中,模型匹配患者病情與醫生專長,確保患者獲得專業治療;而預問診功能通過智能問卷提前搜集病情信息,輔助醫生診斷;醫患對話自動生成則提升溝通效率,模型根據患者問題自動構建醫生回複內容。多方加持下,醫患雙方的診療效率得到了極大提升。
此外,騰訊醫學大模型的準確率已可以輕鬆通過臨床執業醫師考試,能協助醫務人員自動生成病曆和出院小結,還可化身智能客服,回答醫藥知識和院務方麵問題,為患者提供“一站式”服務。對於醫藥企業,大模型可以協助其更好地理解醫療市場需求、藥物定位以及潛在的研究方向,從而提升內部效率和市場響應速度。
迎接挑戰,醫學大模型的未來
在醫學大模型的發展道路上,挑戰與機遇並存。其中,幻覺問題是醫療AI領域麵臨的重要挑戰之一。吳博士表示,為了解決這一難題,騰訊AI采取了基於醫學實體和知識圖譜的醫學推理方法,即通過識別疾病、症狀、藥物、檢查等關鍵醫學實體,並構建知識圖譜,從而提高推理的準確性,減少幻覺問題的產生。
此外,天衍研究中心還采用了一種創新的方法——挖掘關鍵的“知識種子”。這些知識種子是與醫學問題高度相關的知識點,它們作為大模型推理的“錨點”,幫助模型在討論中保持在正確的軌道上,從而得出更可靠的解析和答案。吳博士強調,這種方法在提高醫學大模型的準確性和可靠性方麵發揮了重要作用。
在中文場景下,醫學大模型的應用也麵臨著更多的挑戰。由於中文醫療數據的規模和質量與英文數據存在差距,這給模型的訓練和應用帶來了額外的困難。吳博士表示,其團隊通過構建和利用大型中文醫學知識庫,增強模型對中文醫療術語和概念的理解能力。並且,他們還開發了專門針對中文醫療場景的算法和模型,以提高模型在中文環境下的準確性和適用性。
此外,在醫學場景訓練、醫學專業性評估、多模態等方麵,醫學大模型均麵臨著挑戰。吳博士強調,持續的技術創新和嚴謹的科學研究是推動醫學大模型發展的關鍵,天衍研究中心將繼續在數據質量、算法優化、跨語言能力等方麵進行深入研究,以期為醫療行業帶來更多創新和價值。
從吳賢博士的報告中,我們得以窺見醫療AI領域的發展脈絡與未來藍圖。當前,醫學大模型正以其強大的數據處理能力和深度學習能力,在疾病預測、個性化治療、智能導診等方麵發揮著重要作用。通過嚴謹的訓練流程和微調、強化策略,醫學大模型能夠在確保高準確率的同時,提供更加人性化和精準化的醫療服務。麵向未來,我們有理由相信,隨著技術的不斷進步和數據資源的日益豐富,醫療AI將更加深入地融入醫療實踐,為患者帶來更高質量的醫療服務,為醫生提供更強大的輔助決策工具。
撰文:梨九
二審:清揚
三審:碧泉
編輯:半夏