2026 年 1 月,Google Research 再次為醫療 AI 領域注入了新的動能,正式發布 MedGemma 1.5 模型以及專用的語音識別模型 MedASR,讓開始學習像人類醫生一樣,具備解讀 3D 影像、理解病歷時間軸,甚至聽懂專業術語的能力。

MedGemma 1.5 與 MedASR
這次發布主要包含兩個模型:- MedGemma 1.5 (4B 參數版本):這是 Google 開源醫療模型系列的最新力作。與前代相比,它最大的突破在於「多模態能力的擴展」。除了理解平面的 X 光片,現在更能處理高維度的醫療影像(如 3D 的 CT 和 MRI),以及具備時間序列的病歷分析能力。值得注意的是,Google 這次選擇發布 4B 的輕量化版本,正是為了讓開發者能更容易地在本地端或有限算力下進行部署。
- MedASR:這是一個專為醫療場景微調的自動語音識別 (ASR) 模型。它的任務很單純也很關鍵:將充滿專業術語、藥名和縮寫的醫生口述,精準地轉化為文字,讓其成為 MedGemma 的「耳朵」,讓語音能直接作為 AI 的輸入指令。
從平面到立體:MedGemma 1.5
突破二維限制:高維度影像解讀
過去的醫療 AI 模型多半停留在解讀 2D 影像,例如單張胸部 X 光片或皮膚病變照片。然而,臨床醫學中含金量極高的資訊,往往藏在 3D 影像中。
MedGemma 1.5 引入了對高維度醫療影像的支援,使用者可以將 CT(電腦斷層)或 MRI(核磁共振)的多個切片作為輸入傳給模型,讓模型透過綜合分析多個切面的資訊,建立起對病灶的立體認知。根據 Google 內部測試,在疾病相關的 CT 發現分類上,準確率提升了 3%;在 MRI 的分類上,準確率更是大幅提升了 14% (從 51% 提升至 65%)。
時間的維度:縱向病歷分析
醫生看病從來不是只看「現在」,更要看「過去」。一張 X 光片如果顯示肺部有陰影,醫生首先會問:「以前的片子有嗎?」如果以前沒有,那是新發病灶;如果以前就有且沒變化,那可能無需擔憂。
MedGemma 1.5 新增縱向分析的能力,特別是在胸部 X 光的時間序列回顧上。模型可以同時接收病患「當下」與「過去」的影像,並進行比較分析。這對於追蹤腫瘤大小變化、肺炎復原進度等使用場景相當重要。在 MS-CXR-T 基準測試中,這種具備時間觀念的分析能力,讓準確率提升了 5%。
聽見專業術語:MedASR
醫療領域的語音識別一直是大難題。通用的語音模型(如 OpenAI 的 Whisper)雖然強大,但在面對醫學術語,以及醫生快速口述時的縮寫習慣時,往往會發生災難性的錯誤。
Google 推出的 MedASR 專門針對醫療聽寫進行了微調。Google 將 MedASR 與 Whisper large-v3 進行了對比。結果顯示,在胸部 X 光聽寫任務中,MedASR 的錯誤率減少了 58%;在涵蓋多種專科的內部基準測試中,錯誤率更是驚人地減少了 82% (詞錯誤率 WER 從 28.2% 降至 5.2%)。MedASR 不僅是用來轉錄文字,它還能作為 MedGemma 的輸入端。醫生可以直接「口述」指令,讓 MedASR 轉成文字後,再由 MedGemma 進行推理分析,實現完全免動手的 AI 輔助流程。
實際落地案例:從馬來西亞到臺灣
文件中特別提到了兩個具體的應用場景,證明了這些模型已經走出實驗室:
- 馬來西亞:他們利用 MedGemma 打造了一個名為 askCPG 的系統,讓醫生能透過對話介面查詢馬來西亞超過 150 份的臨床實踐指南。這解決了醫生在忙碌的臨床工作中,難以快速翻閱厚重指南的問題。
- 臺灣:衛生福利部中央健康保險署已經應用 MedGemma 來評估肺癌手術的術前評估。透過從超過 30,000 份病理報告和非結構化數據中提取關鍵資訊,健保署能夠進行更精確的統計分析,不僅優化了手術決策,更有助於未來的醫療政策制定。
開發者生態系的考量
Google 選擇發布 4B 版本在於對醫療產業的考量,醫療數據極度敏感,許多醫院受限於法規或隱私考量,原則上幾乎不可能將病患影像上傳到公有雲。4B 大小的模型足夠輕量,可以在醫院內部的本地伺服器,甚至是高階工作站上運行。另外透過 Hugging Face 和 Google Vertex AI 的整合,加上 Kaggle 比賽的推動,Google 正在試圖推動新創開發者使用 MedGemma 作為基底模型來開發應用,讓 Google 在醫療 AI 領域的護城河隨之建立。
TN科技筆記的觀點
Google 發布 4B 模型是一個非常精明的商業與技術決策。在醫療領域,數據隱私是重點考量,另外對人體內部 3D 結構的理解也是一大考量,藉由 Google 擅長的多模態模型能力,又是能在本地端跑得動、且經過專業醫療微調的模型,相信比在雲端但無法合規使用的超大模型有更多價值。然而目前的準確率(如 MRI 的 65%)雖然比前代進步,但距離「醫療級」的可靠度仍有一大段距離。相信隨著模型能力提升,遲早能夠成為醫生的得力助手,只是屆時醫療判斷的責任歸屬將是另外一大挑戰。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們,讓我更加有動力為各位帶來科技新知!
以下是我的 threads 也歡迎追蹤、回覆、轉發喔!
>>>>> TN科技筆記(TechNotes)






















