Google MedGemma 1.5 ：看懂 CT、聽懂醫囑的專業醫療 AI 模型

2026/01/16 更新2026/01/16 發佈閱讀 7 分鐘

2026 年 1 月，Google Research 再次為醫療 AI 領域注入了新的動能，正式發布 MedGemma 1.5 模型以及專用的語音識別模型 MedASR，讓開始學習像人類醫生一樣，具備解讀 3D 影像、理解病歷時間軸，甚至聽懂專業術語的能力。

Next generation medical image interpretation with MedGemma 1.5 and medical speech to text with MedASR

MedGemma 1.5 與 MedASR

這次發布主要包含兩個模型：

MedGemma 1.5 (4B 參數版本)：這是 Google 開源醫療模型系列的最新力作。與前代相比，它最大的突破在於「多模態能力的擴展」。除了理解平面的 X 光片，現在更能處理高維度的醫療影像（如 3D 的 CT 和 MRI），以及具備時間序列的病歷分析能力。值得注意的是，Google 這次選擇發布 4B 的輕量化版本，正是為了讓開發者能更容易地在本地端或有限算力下進行部署。
MedASR：這是一個專為醫療場景微調的自動語音識別 (ASR) 模型。它的任務很單純也很關鍵：將充滿專業術語、藥名和縮寫的醫生口述，精準地轉化為文字，讓其成為 MedGemma 的「耳朵」，讓語音能直接作為 AI 的輸入指令。

從平面到立體：MedGemma 1.5

突破二維限制：高維度影像解讀

過去的醫療 AI 模型多半停留在解讀 2D 影像，例如單張胸部 X 光片或皮膚病變照片。然而，臨床醫學中含金量極高的資訊，往往藏在 3D 影像中。

MedGemma 1.5 引入了對高維度醫療影像的支援，使用者可以將 CT（電腦斷層）或 MRI（核磁共振）的多個切片作為輸入傳給模型，讓模型透過綜合分析多個切面的資訊，建立起對病灶的立體認知。根據 Google 內部測試，在疾病相關的 CT 發現分類上，準確率提升了 3%；在 MRI 的分類上，準確率更是大幅提升了 14% (從 51% 提升至 65%)。

時間的維度：縱向病歷分析

醫生看病從來不是只看「現在」，更要看「過去」。一張 X 光片如果顯示肺部有陰影，醫生首先會問：「以前的片子有嗎？」如果以前沒有，那是新發病灶；如果以前就有且沒變化，那可能無需擔憂。

MedGemma 1.5 新增縱向分析的能力，特別是在胸部 X 光的時間序列回顧上。模型可以同時接收病患「當下」與「過去」的影像，並進行比較分析。這對於追蹤腫瘤大小變化、肺炎復原進度等使用場景相當重要。在 MS-CXR-T 基準測試中，這種具備時間觀念的分析能力，讓準確率提升了 5%。

聽見專業術語：MedASR

醫療領域的語音識別一直是大難題。通用的語音模型（如 OpenAI 的 Whisper）雖然強大，但在面對醫學術語，以及醫生快速口述時的縮寫習慣時，往往會發生災難性的錯誤。

Google 推出的 MedASR 專門針對醫療聽寫進行了微調。Google 將 MedASR 與 Whisper large-v3 進行了對比。結果顯示，在胸部 X 光聽寫任務中，MedASR 的錯誤率減少了 58%；在涵蓋多種專科的內部基準測試中，錯誤率更是驚人地減少了 82% (詞錯誤率 WER 從 28.2% 降至 5.2%)。MedASR 不僅是用來轉錄文字，它還能作為 MedGemma 的輸入端。醫生可以直接「口述」指令，讓 MedASR 轉成文字後，再由 MedGemma 進行推理分析，實現完全免動手的 AI 輔助流程。

實際落地案例：從馬來西亞到臺灣

文件中特別提到了兩個具體的應用場景，證明了這些模型已經走出實驗室：

馬來西亞：他們利用 MedGemma 打造了一個名為 askCPG 的系統，讓醫生能透過對話介面查詢馬來西亞超過 150 份的臨床實踐指南。這解決了醫生在忙碌的臨床工作中，難以快速翻閱厚重指南的問題。
臺灣：衛生福利部中央健康保險署已經應用 MedGemma 來評估肺癌手術的術前評估。透過從超過 30,000 份病理報告和非結構化數據中提取關鍵資訊，健保署能夠進行更精確的統計分析，不僅優化了手術決策，更有助於未來的醫療政策制定。

開發者生態系的考量

Google 選擇發布 4B 版本在於對醫療產業的考量，醫療數據極度敏感，許多醫院受限於法規或隱私考量，原則上幾乎不可能將病患影像上傳到公有雲。4B 大小的模型足夠輕量，可以在醫院內部的本地伺服器，甚至是高階工作站上運行。另外透過 Hugging Face 和 Google Vertex AI 的整合，加上 Kaggle 比賽的推動，Google 正在試圖推動新創開發者使用 MedGemma 作為基底模型來開發應用，讓 Google 在醫療 AI 領域的護城河隨之建立。

TN科技筆記的觀點

Google 發布 4B 模型是一個非常精明的商業與技術決策。在醫療領域，數據隱私是重點考量，另外對人體內部 3D 結構的理解也是一大考量，藉由 Google 擅長的多模態模型能力，又是能在本地端跑得動、且經過專業醫療微調的模型，相信比在雲端但無法合規使用的超大模型有更多價值。然而目前的準確率（如 MRI 的 65%）雖然比前代進步，但距離「醫療級」的可靠度仍有一大段距離。相信隨著模型能力提升，遲早能夠成為醫生的得力助手，只是屆時醫療判斷的責任歸屬將是另外一大挑戰。

支持TN科技筆記，與科技共同前行

我是TN科技筆記，如果喜歡這篇文章，歡迎留言、點選愛心、轉發給我支持鼓勵～～～也歡迎每個月請我喝杯咖啡，鼓勵我撰寫更多科技文章，一起跟著科技浪潮前進！！>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們，讓我更加有動力為各位帶來科技新知！

以下是我的 threads 也歡迎追蹤、回覆、轉發喔！

>>>>> TN科技筆記(TechNotes)

TN科技筆記(TechNotes)的沙龍科技領域筆記

留言

TN科技筆記(TechNotes)的沙龍

72會員

246內容數

大家好，我是TN，喜歡分享科技領域相關資訊，希望各位不吝支持與交流！

TN科技筆記(TechNotes)的沙龍的其他內容

2026/01/14

Google 推出「通用商務協定」：持續為 AI Agent 鋪路

Google 發布 Universal Commerce Protocol (UCP) 與 Gemini 零售解決方案，正式開啟「代理商務」時代。本文深度解析 AI Agent 如何重塑從搜尋到下單的完整路徑。

2026/01/14

Google 推出「通用商務協定」：持續為 AI Agent 鋪路

Google 發布 Universal Commerce Protocol (UCP) 與 Gemini 零售解決方案，正式開啟「代理商務」時代。本文深度解析 AI Agent 如何重塑從搜尋到下單的完整路徑。

2026/01/09

動態內容探索：Cursor 如何大幅改善 AI 程式助理的表現？

了解 Cursor 提出的「動態內容探索」技術如何解決 AI 程式助理的 Context Window 限制。解析其核心原理，以及如何透過將一切視為「檔案」來提升效率、改善 AI 回應品質並大幅降低 Token 消耗。

2026/01/09

動態內容探索：Cursor 如何大幅改善 AI 程式助理的表現？

2026/01/02

DeepMind 聯合創辦人 Shane Legg攤牌 AGI 時間表：2028年即將迎來巨變

Google DeepMind 的聯合創辦人 Shane Legg 在近期給出了明確的 AGI 分級定義、時間表，並直言不諱地剖析了這項技術將如何從根本上重塑我們的經濟、社會與個人價值。

2026/01/02

DeepMind 聯合創辦人 Shane Legg攤牌 AGI 時間表：2028年即將迎來巨變

#AI 的其他內容

2026 年 5 月 iPAS 考試倒數一個月🔥vocus 助你一臂之力，購買指定備考數位商品抽訂單全免 🎯

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

你可能也想看

怪獸科技公司✖️沙龍

AI是救世主還是毀滅者？奧特曼的溫柔奇點願景，敵得過《AI 2027》的末日預言嗎？｜怪獸科技公司

OpenAI 創辦人奧特曼（Sam Altman）在《The Gentle Singularity》認為，AGI 正在形成、智慧變得不再稀缺，我們即將迎來生產力大爆炸的時代。但真的這麼溫柔（gentle）嗎？本篇文章結合《控制邊緣》、AI 2027 及當 AI 學會說謊，思考人類如何尋找一線生機。

#控制邊緣#AI2027#OpenAI

2025/06/20

怪獸科技公司✖️沙龍

AI是救世主還是毀滅者？奧特曼的溫柔奇點願景，敵得過《AI 2027》的末日預言嗎？｜怪獸科技公司

#控制邊緣#AI2027#OpenAI

2025/06/20

趙鐸的沙龍

《轉轉生 Re:INCARNATION》：釋放差異的身體裂縫

長期以來，西方美學以《維特魯威人》式的幾何比例定義「完美身體」，這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯．奧尼奎庫的舞作《轉轉生》，探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

趙鐸的沙龍

《轉轉生 Re:INCARNATION》：釋放差異的身體裂縫

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

怪獸科技公司✖️沙龍

市值縮水九成，昔日中國互聯網王者不再！百度能靠 AI 和自駕車翻盤嗎？｜怪獸科技公司

曾經是中國互聯網巨頭 BAT 市值第一、中國最大搜尋引擎的百度，如今市值卻跌至其他兩間公司的不到十分之一。近年來，百度加大對 AI（文心一言、阿波羅）和自駕車技術（蘿蔔快跑）的投入，積極轉型為「AI 公司」。面對阿里巴巴和騰訊等強大對手的挑戰，百度如何在 AI 時代重新站穩腳跟，甚至逆勢崛起？

#百度#科技公司#Google

2024/10/18

怪獸科技公司✖️沙龍

市值縮水九成，昔日中國互聯網王者不再！百度能靠 AI 和自駕車翻盤嗎？｜怪獸科技公司

#百度#科技公司#Google

2024/10/18

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼，反而利用華麗的秀場視覺，引導觀眾在晚期資本主義的消費愉悅之中，而能驚覺「批判」本身亦可能被收編——而當絞繩升起，這場關於如何生存的黑色遊戲，又將帶領新時代的我們走向何種後現代的自我解構？

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

🌟 盡職生活 🌟

【AI 工具筆記】OpenAI：你的數位生活萬能好夥伴 🤖✨

我們最常聽到的 ChatGPT，背後的推手就是這家公司——OpenAI。對我來說，OpenAI 不只是一間科技公司，它更像是一個把「未來」帶到我們「現在」生活的領航員。今天就來簡單聊聊它能為我們做什麼吧！🌿 1. OpenAI 是誰？ 🤔 簡單說，它是目前全球最頂尖的人工智慧研究實驗

#人工智慧#科技公司#OpenAI

2025/12/16

🌟 盡職生活 🌟

【AI 工具筆記】OpenAI：你的數位生活萬能好夥伴 🤖✨

#人工智慧#科技公司#OpenAI

2025/12/16

怪獸科技公司✖️沙龍

【2025 AI人才高峰會回顧】全球中美競爭、少子化、AI落差，如何成為世界需要的臺灣人才｜怪獸科技公司

過去，我們擔心的是「數位落差」，但今天，我們擔心的是「AI 落差」。AI 發展至今，已經不是誰不知道 AI，而是你會不會用，面對快速變化的適應力與韌性。本文綜合 2025 AI 人才高峰會中，Google 台灣前董事總經理簡立峰、均一平台教育基金會董事長呂冠緯等講者觀點，回顧幾個關鍵問題...

#AI人才高峰會#AI#人才

2025/03/14

怪獸科技公司✖️沙龍

【2025 AI人才高峰會回顧】全球中美競爭、少子化、AI落差，如何成為世界需要的臺灣人才｜怪獸科技公司

#AI人才高峰會#AI#人才

2025/03/14

Amily的沙龍

在理解與拒絕之間：從多重身分觀看《海妲．蓋柏樂》

若說易卜生的《玩偶之家》為 19 世紀的女性，開啟了一扇離家的窄門，那麼《海妲．蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆，同為熟稔文本的演員，亦是深刻體察制度縫隙的當代女性，此文所看見的不僅僅是崩壞前夕的最後發聲，更是女人被迫置於冷酷的制度之下，步步陷入無以言說的困境。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28