requestId:6871400d0831a2.86601866.
中國網/中國發展門戶網訊 近年來,人工智能(AI)正在加速融入醫療健康相關研究中。醫院是我國醫療健康領域重要的人工智能研究基地與產出基地。目前,對醫院主導人工智能研究現狀調查尚不充分。部分關于醫院人工智能的研究僅強調了外部資源局限和一些常見的倫理問題。一些定量研究雖關注了醫療健康人工智能研究狀況,并通過論文數量得出發展良好的結論,但其分析層面較為宏觀,未能指出發展中不均衡、不充分的部分。本文對醫院主導人工智能研究的現況進行研究,分析醫院主導人工智能研究需要面對和跨越的技術性難題,并針對性地提出管理建議。
政策推動醫院開展人工智能研究
我國高度重視人工智能在醫學中的研發與應用,將其作為新一輪科技革命和醫療健康產業變革的核心驅動力,并力圖在新一輪科技競爭中搶占主導權。2017年,國務院印發包養《新一代人工智能發展規劃》(國發〔2017〕35號)提出,要發展便捷高效的智能醫療服務,推廣應用人工智能治療新模式新手段,建立快速精準的智能醫療體系,探索智慧醫院建設。20包養網21年,《國務院辦公廳關于推動公立醫院高質量發展的意見》(國辦發〔2021〕18號)明確,要推動手術機器人等智能醫療設備和智能輔助診療系統的研發與應用。2022年,科學技術部等六部門印發《關于加快場景創新以人工智能高水平應用促進經濟高質量發展的指導意見》(國科發規〔2022〕199號),進一步指出要積極探索醫療影像智能輔助診斷、臨床診療輔助決策支持、醫用機器人、互聯網醫院、智能醫療設備管理、智慧醫院、智能公共衛生服務等場景。同年,國家衛生健康委員會與各省份簽訂的《共建高質量發展試點醫院合作協議》中明確,要聚焦數字賦能,加強大數據、人工智能等跨行業新技術包養應用,建設醫療、服務、管理“三位一體”的智慧醫院。“十四五”期末,試點醫院形成中國智慧醫院樣板;“十五五”期末,面向世界提供智慧醫院建設中國解決方案。
醫院采用人工智能技術開展研究,有機會產出引領性、顛覆性的科技進步。傳統上,醫院主導的研究主要使用經典的數理統計來區別有效信息(信號)與無效信息(噪聲),其技術核心是包括線性回歸、Logistic回歸、決策樹等在內的一系列統計分析方法,納入的數據大多為結構化的定量數據。采集和整理相關數據需要耗費大量的人力物力和時間。與這些統計方法相比,深度神經網絡、機器學習的人工智能研究范式可明顯擴展納入研究的數據模態,增加數據量,并加速信息采集過程。與此同時,醫院是醫療健康數據的重要生產基地;醫院研究者更加貼近患者,更容易提煉出具有重大科學意義的醫學問題及技術需求。這為醫院主導人工智能研究提供了重包養要優勢。當前,我國醫院已在人工智能研究方向發力,在數據挖掘、圖像識別、自然語言分析及機器人輔助等 4 項通用任務框架中,解決疾病診斷、治療、健康管理和醫院管理等方面的挑戰。人工智能技術和醫院的數據生產將共同賦能醫院研究者,不斷完善臨床診療技術、構建智能醫護模式、優化健康管理體系,產出傳統研究方法尚無法解決的科學問題,從而孵化出滿足國家戰略需求和人民健康需要的重大科技進步。
人工智能臨床應用研究已成為國際醫學研究的重點方向和競爭熱點。當前,美國、中國、英國是在醫療健康人工智能研究中貢獻論文最多的國家 。2020年,美國國立衛生研究院(NIH)啟動了一項總金額高達 1.3 億美元的“通往人工智能之橋”(Bridge2AI)的資助計劃,旨在資助生物醫藥等相關領域開展人工智能研究。國際一流醫院也在努力布局人工智能的研發與應用。2022年,美國《新聞周刊》(Newsweek)和德國 Statista 調查公司發布了“世界智能化程度最高的 300家醫院”榜單。該榜單中的智能化程度以“人工智能”“數字化影像”“機器人”等維度進行評估;排名前 10位的醫院中,有5家醫院被特別地標注了以“人工智能”為代表性領域。
醫院人工智能研究數量及質量分析
樣本醫院
2021年,國家衛生健康委包養網員會面向全國,選定了北京協和醫院、北京大學第三醫院、四川大學華西醫院、香港大學深圳醫院等 14家公立醫院,作為國家公立醫院高質量發展試點醫包養院。這 14家醫院感受到的政策推動更強,因而具有典型性。同時,部分樣本醫院具備較強的科學技術研究能力,而部分醫院在科研方面能力較弱;通過對它們主導的人工智能研究發展現狀進行調查,有助于了解我國包養醫院主導人工智能研究的相關情況,具有一定程度的代表性。
研究方法
本文采用定量研究方法,對發表論文和申請專利 2個維度開展了研究。
發表論文方面,研究者對樣本醫院發表人工智能相關論文進行了統計。具體地,①從維普期刊平臺和 PubMed數據庫分別檢索了這 14家醫院以中文和英文發表在期刊上的論文,取回論文標題、作者、摘要、關鍵詞、作者單位等信息。②采用關鍵詞法在前述論文中識別人工智能相關論文。如果論文的標題、摘要、關鍵詞中提及了“人工智能(artificial intelligence)”“機器學習(machine learning,ML)”“神經網絡(neural network)”“支持向量機(support vector machine,SVM)”“卷積神經網絡(convolutional neural network,CNN)”“殘差網絡(residual network)”等人工智能的標志性中文或英文關鍵詞,則將其標記為人工智能相關論文。納入研究的論文發表時間為 2018年—2022年;其中,因受新冠肺炎疫情影響較大,2020年暫不納入調查。③對論文的數量、發表語言、研究層次等維度進行了統計和分析。
專利申請方面,研究者從國家知識產權局網站“專利檢索及分析”系統檢索了相同時間段內獲批的、包含包養網“人工智能”關鍵詞的相關發明、實用新型專利項目,并對其數量進行統計。
發表論文分析
論文數量。樣本醫院在 2018年—2019年、2021年—2022年共發表中文和英文論文 13.34萬篇;其中,人工智能相關研究論文 3 002篇,占比較低,僅為 2.25%。樣本醫院參與人工智能研究論文數從 2018年的222篇逐年增長至 2022年1 434篇(圖 1),但 2022年的同比增速(53.70%)遠低于 2019年的同比增速(86.04%)。結包養果提示,醫院參與人工智能研究可能遇到了一系列挑戰,發展可能進入瓶頸期。
發表語言。以中文作為發表語言的論文數占比從 35.59%逐年下降至15.34%,且各年占比均低于全部領域論文中中文語言占比(圖 2)。結果提示,醫院的人工智能研究更傾向于發表在國際期刊上。
第一作者。本文以第一作者單位是樣本醫院的論文數量作為衡量醫院主導人工智能研究的指標。樣本醫院主導發表了 1 728篇人工智能研究論文,占參與人工智能研究數的 57.56%。這包養說明,相當多的研究并非由醫療機構主導。主導人工智能研究最多是 A醫院,2022年已達255篇,約占樣本醫院主導人工智能研究發表論文數的 1/3;同時,A醫院的研究基數也較大(7 286篇)。主導人工智能研究數量排包養第 2位的B醫院的研包養究基數也較大,情況與 A醫院相似(表1)。結果提示,醫院主導人工智能研究的發表數量與醫院總體科研產出數量的相關度較高。
研究層次。雖然醫院參與和主導的人工智能研究數量在提高,遺憾的是,醫院主導人工智能研究質量仍可提高。約 55%的研究(67.29%的中文論文和 45.92%的英文論文)僅以“人工智能”或“深度學習”或“機器學習”作為關鍵詞,這些論文大多尚停留展望、討論人工智能可能應用于某領域的較淺的研究層次上。基于支持向量機(SVM)的前一代人工智能研究范式仍占樣本醫院主導人工智能研究的相當比例(圖 3)。
人工智能相關專利
2021年以來,多家試點醫院人工智能專利授權數實現了“零”的突破,總量也從 2018—2019年的2件提高到了2021—2022年的46件(表2)。其中,D醫院2021年實現了 11件授權的高峰。然而,人工智能研究轉化專利數量較少且不穩定,并未形成穩定的人工智能研究計劃及產出。
醫院主導深度人工智能應用研究的挑戰分析
醫院研究者主導人工智能研究的優勢是更加接近臨床需求,更加接近來自患者的多模態醫療健康數據,因而更有希望產出深度的、具有應用意義的人工智能研究成果。本研究發現,包養醫院參與和主導的人工智能研究數量正在逐年增加,醫院研究者對人工智能研究范式的熱情越來越高漲,投入也越來越多。結合前文定量分析結果,本文通過深度訪談、專家咨詢等方法,從學習應用、研究成本和研究的組織管理 3個層面,剖析醫院主導深度人工智能應用研究存在的技術性挑戰與困境。
學習曲線陡峭
系統學習深度神經網絡范式。深度神經網絡范式由一系列相互關聯的技術路線和細節構成,知識容量較大。例如,常見的人工智能模型有卷積神經網絡(CNN)、循環神經網絡(RNN)、轉換器(transformer)、生成式包養網對抗網絡(GAN)等。在最基礎的 CNN模型中,研究者需要學習感知器、多層神經網絡、卷積核、梯度下降、損失函數、正則化等一系列知識點。雖然醫院的研究者大多接受過傳統數理統計分析技術的訓練,但很少有人接受過人工智能技術的系統訓練。醫院的研究者完成深度神經網絡范式的系統性學習,往往只能利用工作之外的業余時間自學或參加相關培訓班。
學習程序編寫。①編程環境配置的挑戰。人工智能的主流語言是 Python,但程序實現還需要依靠專門的中層框架。中層框架有多種選擇,包括谷歌(Google)公司主導開發的 Tensorflow,臉書(Facebook)公司主導開發的 Pytorch,以及百度公司主導開源的飛槳(PaddlePaddle)等。每一種中層框架都處在快速的更迭之中,前一代的功能可能在后一代版本中被直接取消。對于初學者而言,需要花費很長的時間,才可能準確地在人工智能社區找到與本地環境相對應的解決方案。而一些使用者較少的中層框架,輔助學習資源則更少。②編程和排除編程錯誤的挑戰。醫院的研究者使用的數理統計軟件,大多可以通過鼠標點選不同模塊下的按鈕實現,且這些軟件常常配備詳盡的使用說明。人工智能研究則需要研究者從“零”撰寫程序,包括導入中層框架、加載必要基礎模塊等。研究者排除程序錯誤通常會花費比編寫程序更多的時間。對初學者而言包養網,遇到的絕大多數問題都需要向外部尋求解決方案。當輔助學習資源較少時,會對積極性造成致命的打擊。③多模態數據挑戰。在傳統的數理統計研究中,進入統計模型的大多是結構化的、以數值為形式的數據。但在人工智能研究中,數據擴展至單一圖像(如 X 線平片)、堆疊圖像(如CT、核磁)、連續圖像(如超聲錄像、內鏡錄像)、文本(如病歷、診斷報告等)等多模態數據。研究者不得不學習將這些數據導出、輸入到人工智能程序中需要的編程技能。
計算機相關英語語言能力。當前,高質量的人工智能入門書籍都以英文書寫。雖然部分經典著作有中文譯本,但由于翻譯、出版存在周期,這些著作中援引的學習資源甚至中層框架都發生了變化。對于初學者而言,即使是一步步地照著做,可能也達不到預期的目的。相似的,多數高質量的人工智能技術討論社區也是用英文作為主要語言。高水平醫院的研究者的英文水平較高,但仍需邁過閱讀和理解計算機領域研究的關口。這也從側面印證了前文的發現,即越來越多的人工智能研究成果以英語發表在國際期刊上。
迭代計算產生時間和硬件成本
包養網醫院主導人工智能研究的迭代成本較高,而迭代成本主要可以分為時間成本和硬件成本 2 類,且這 2 類成本在一定程度上可以相互轉化。
人工智能技術的迭代特性導致時間成本較高。機器學習算法通過自動迭代計算來獲得神經網絡模型的最優參數解,使用成本較低、普及度較包養網高的中央處理器包養網(CPU)計算需要耗費較長的時間。在深度學習的經典入門任務 MINIST數據集(手寫數字數據集)中,圖像大小為 28像素× 28像素,CPU可以在分鐘級別的時間內完成多次迭代,獲得最優解。但隨著模型層數、迭代次數及圖像大小的增加,時間成本將迅速提高。例如,在圖像大小為 224像素× 224像素大小的ResNet-50網絡模型(49 層)中,如果使用一顆高級別的 CPU迭代計算 90次,則需要約 700小時才能完成。在臨床研究的實際問題中,使用成本較低的CPU計算人工智能的時間成本將超過研究者可接受的極限。一方面,常規的 X 線、CT和核磁的單幅圖像橫向或縱向分辨率都在 1 000像素以上;另一方面,具有實際應用意義的神經網絡模型也在 10至數十層之間。
醫院主導人工智能研究需投入相當高的硬件成本。相比 CPU,使用價格更高的圖形處理器(GPU),可以大幅減少計算需要付出的時間成本。理論上,使用專業 GPU完成前文ResNet-50的計算任務比使用服務器級別的 CPU快近40倍。由于多數醫學圖像的辨析度較高、圖層數較多,醫院主導人工智能研究幾乎難以避免地需要添置 GPU,有時還需要添置與之匹配的專門的計算平臺。例如,美國麻省理工總醫院(Massachusetts General Hospital)在基于本院的影像數據開發人工智能圖像處理程序的任務中,專門引入了一臺配備了 8部GPU(V100型號)、單價高達 12.9萬美元的英偉達(NVID包養IA)DGX平臺。相似的,在美國梅奧診所(Mayo Clinic)主導的一項基于核磁圖像的 GAN研究中,也使用了DGX系列計算平臺。目前,有實用價值的人工智能技術的參數量越來越大,對硬件的要求也越來越高。例如,當前熱度極高的 ChatGPT模型的參數量高達1 750 億,據受訪專家估算,如采用單部 V100型號的GPU,需要計算約 355年。為加速計算,需要的投入成本也超乎想象。部分研究者坦言,人工智能實驗室的組建需要首席研究員購置成本可觀的設備,作為基礎設施供研究組內的成員共享機器時間開展人工智能研究。對醫院的人工智能技術潛在研究者而言,獲取與研究設想相匹配的計算硬包養網件資源是一項難度相當大的挑戰。
將臨床數據轉化為高質量研究數據
將臨床采集的數據轉化為高質量的研究數據是人工智能研究的必要條件,但是尚需面對以下挑戰。
臨床生產的數據同質化水平不高。以圖像為例,在質量同質化較低的醫院中,生產圖像的平臺科室只需確保圖像中包含有助于醫師診斷疾病的部分即可,對局部出現在圖像畫幅上的位置、對比度等要求不高。在人工智能技術中,圖像將被自動化地轉化為由代表每一個像素的數值、向量或張量,然后投入人工智能模型。此時,圖像的背景、亮度、色溫,乃至研究興趣區在畫幅中的位置、大小、角度等因素都會產生噪聲,干擾信號的提取。
儲存、脫敏、提取、傳輸等數據處理相關問題。人工智能技術能夠將更加接近采集端的數據直接納入模型運算,信息損失更小。然而,靠近采集端的數據的體量遠大于經過提取后的結構化數據;因此,調用、傳輸、儲存往往都依賴醫療機構。然而,部分接受訪談的醫院管理者提到,對數據進行提取、傳輸、備份等操作會產生可觀的成本;因此,醫療機構往往不愿在挖掘數據中進行更包養網多的投入。特別是,數據雖然儲存在醫院,但同時也屬于患者個人;因此,還必須考慮到患者隱私、倫理、數據安全等方面。這些數據處理相關問題是將臨床數據轉化為高質量研究數據過程中必須解決的問題。
數據標注。研究指出,缺乏大規模高質量標注訓練數據集是現階段制約我國人工智能臨床應用研究發展的關鍵因素。實際上,在傳統的數理統計方法的研究中,研究者也需要花費相當多的工作量識別和標記圖像關鍵點。這與人工智能研究中,人工標注因變量與標記圖像關鍵點的工作并無本質不同。因此,固然標注數據是當前人工智能技術應用中需要關注的問題,卻不是伴隨人工智能技術而新出現的問題。
人工智能的可解釋性較弱,使臨床應用信心不足包養網
人工智能的可解釋性是研究者高度關注的議題,是人工智能研究的“皇冠”問題。可解釋性難題來源于機器學習算法自動迭代參數的設計和深度神經網絡中巨大的參數空間的結合。這使得人工智能被認為是復雜的“黑箱”模型。同時,人工智能技術天然地帶有迭代性質,即從輸入層不斷接近和到達輸出層的過程,也是從舊知識到新知識的過程。既往的求解結果可能是一個尚不能被科學知識及理性解釋的結果,而這種不可解釋性,會自然地繼承到新生成的結果之中。
深度神經網絡的研究結果往往由一系列對模型擬合能力的指標和預測能力構成,對熟稔傳統數理統計的醫院研究者而言,對人工智能結果進行解釋和闡釋的難度較大。在經典的數理統計中,研究者只需關注統計結果表格中的少數關鍵項,即可完成解釋。例如,某兩組數據的均值的 p 值小于或等于特定值(如 0.05),即意味著存在顯著的統計學差異;若組間的差值存在臨床意義,則進一步存在應包養用意義。由于幾乎所有醫院的研究者已幾乎無條件地信任了統計學家和軟件供應商提供的程序,基于傳統統計學分析的方法,同行認可度更高。與之構成對比的情境是,當醫院內熟悉人工智能方法的研究者較少時,研究者不僅需要解釋人工智能生成的研究結果;多數時候,還需要對人工智能方法本身乃至技術細節進行解釋。
一些旨在解決可解釋性挑戰的可視化算法的技術難度很高。醫院研究者及團隊很難依靠自身力量將這些技能內部化。研究者即使跨越了前文所述的學包養習關、成本關,獲得了人工智能的研究結果,也會遇到結果解釋的難題,難得到同行的充分認可。掌握團隊資源、確定團隊技術路線的團隊帶頭人,面對人工智能可解釋性較弱的特性,將很難下決心組織開展深層次研究與應用。
從政策推動到研究產出的管理建議
抓住研究范式轉變機遇,引導投入研究資源
科學的發展存在著諸多的不確定性;在新的范式對舊的范式發出挑戰時,更有可能產生新的突破性發現。當前,人工智能研究范式已經對傳統的數理統計分析范式發起了挑戰;而人工智能方法也以 SVM方法為核心,逐漸轉向以深度神經網絡為核心的新方法。雖然人工智能面臨著可解釋的挑戰,但也應認識到,沒有一種研究方法是完美的。只有面向人包養網工智能研究投入資源才能逐步克服和優化解釋問題。
國家層面,抓住研究范式轉換的歷史機遇,面向人工智能發展過程中的難點和痛點,在新舊動能轉換的過程中進一步加大支持力度。例如,可以通過設置綜合醫院的國家人工智能醫學研究中心,設置互聯網醫院、智慧醫院等樣板醫院,以及面向人民生命健康的人工智能相關“揭榜掛帥”攻關課題等方式,培育公立醫院在發展人工智能中的良好的競爭文化,同向發力,實現“彎道超車”的政策推動目標。
醫院層面,優化人工智能研究領域的資源投入。通過開設人工智能課堂、組建院級人工智能計算共享平臺,設置專門孵育項目等方式,加 TC:
發佈留言