神經退化性疾病,例如阿茲海默症(Alzheimer's Disease, AD)和帕金森氏症(Parkinson's Disease, PD),一直是現代醫學面臨的重大挑戰,其特點是腦細胞逐漸喪失功能和死亡。由於這些疾病的臨床表現具有相當大的異質性,有的病人可能首先出現記憶力減退,有的則是行為改變,還有的可能從運動功能障礙開始。這種多樣性不僅使診斷變得困難,也常常導致誤診。臨床病程軌跡(Clinical Disease Trajectories)是指患者隨著時間推移所經歷的一系列臨床事件和症狀變化。這些訊息可以從患者的醫療記錄、問卷調查、穿戴式設備等多種來源收集。除了預測疾病進程,臨床病程軌跡還可以用於識別神經退化性疾病的臨床亞型—即具有相似症狀表現和時間進程的患者群體。識別臨床亞型有助於深入了解疾病的異質性,並為開發更精確的治療策略提供依據。荷蘭的研究團隊進行了一項創新性的研究,收集了超過 3042 名腦組織捐贈者從發病到離世的完整病程。透過自然語言處理技術,研究團隊從龐大的醫療記錄中識別出 84 種不同的神經和精神症狀,繪製出每位患者獨特的疾病發展圖譜。這項研究的重要發現之一是,表面上相似的症狀可能來自不同的疾病,而同一種疾病也可能以不同的方式表現。因此,有些被診斷為 AD 的患者,實際上可能是其他神經退化性疾病,這種發現對於改進診斷方法具有重要意義。研究人員還發現了多種疾病的亞型,可能反映了大腦不同區域受損的情況。這種細緻的分類方法不僅有助於醫生更準確地診斷疾病,也為開發針對性的治療方案提供了新的思路。這不僅是醫學研究的一大進步,更為無數受神經退化性疾病困擾的患者和家庭帶來了希望。
...
研究團隊首先建立了一個包含 90 個神經心理徵象和症狀並橫跨 5 種症狀領域的資料集。為了訓練和驗證自然語言處理(Natural Language Processing, NLP)模型,由一位記分員(scorer)隨機抽選 293 位捐贈者,標記其中 18,917 句醫療紀錄的對應徵象和症狀。再由另一位評分員獨立標記其中隨機抽取的 1,000 個句子。兩位評分員之間的一致性達到 Cohen's κ = 0.86,證明該資料集的標記具備高度可靠性。
接著,研究團隊進行了富集分析(Enrichment analysis),以確定在每種疾病中徵象和症狀的出現頻率是否比隨機分布更為頻繁。結果顯示許多預期的疾病特異性徵象和症狀,例如:
這些觀察到的神經精神徵兆和症狀的出現頻率顯著高於先前定義的具有診斷重要性的徵兆和症狀(χ2 = 171.28, P = 1×10-31)。
研究團隊優化並測試多種 NLP 模型架構,以準確辨識每一句子中的徵象和症狀。資料根據徵象和症狀的相對分佈進行分層抽樣,被分為訓練集和測試集。然後,採用五重交叉驗證(5-fold cross-validation)方法,對模型進行訓練與驗證。
大部分的徵象和症狀都能被所有模型可靠地辨識出來(precision ≥0.8 或 micro-F1-score ≥0.8),但有 6 個特徵因為辨識效果不佳而被排除。由於 PubMedBERT 在測試集上展現出最佳效能,研究團隊後續利用所有的標記資料再次微調出最佳的 PubMedBERT,用於預測剩餘的 84 個徵象和症狀。
研究團隊使用這個最終模型來預測患者的臨床病歷中每句描述是否描述了特定的徵兆或症狀。為了建構最終的臨床疾病軌跡,每個句子的預測結果會與離世前症狀發生年份(years before death)進行彙整。
所有的神經心理徵象和症狀都顯著出現在至少一種神經退化性疾病中,表示這些徵象和症狀確實與特定疾病群相關。例如多發性硬化症(multiple sclerosis, MS)常出現活動障礙(impaired mobility)、肌肉無力(muscle weakness)和疲勞(fatigue),與其大腦和脊髓損傷機轉非常吻合。
有別於常常出現在 MS、PD、PDD、PSP、MSA、與共濟失調(ataxia)的活動障礙(impaired mobility),肌肉無力(muscle weakness)則常出現於 VD、PSP、MSA、MS、與運動神經元疾病(motor neuron disease, MND)。雖然上述疾病都有影響活動的症狀,這個方法可以辨識出不同疾病的獨特症狀模式。因此對於臨床上經常被誤診的失智症或動作障礙疾病,可能找出有助於鑑別診斷的神經心理徵象和症狀:
研究團隊利用臨床疾病軌跡對各種神經疾病的症狀進行時間剖析研究:
結果顯示,FTD 患者比其他類型失智症患者更早出現失智症狀(dementia)。而在出現失智症狀後,VD、PD、PDD 患者的存活期明顯較短。這些發現與臨床觀察相符,證實了臨床疾病軌跡時間分析的有效性。
過去 PD、PDD、DLB、與 MSA 這些 α-突觸核蛋白病變(α-synucleinopathies)中,對於這些疾病是否為同一神經病理學影響不同腦區所導致的不同表現模式,還是各自具有獨特的病理過程,仍有爭議。研究團隊發現 MSA 患者較早出現動作遲緩(bradykinesia),但 MSA、PSP、與 DLB 患者在出現運動遲緩後的存活期顯著短於 PD 和 PDD 患者。這些發現暗示著這些疾病可能存在不同的病理過程。
比起 AD 和 VD ,團隊發現混合型失智症患者,如 AD-PD 與 AD-VE(vascular encephalopathy)較晚出現失智症狀。而 AD、DLB、和FTD 患者在出現失智症狀後可能有較長的存活期,這與先前的一些研究有所不同。
此外,在 FTD 亞型研究中發現,PSP 病例的失智症狀較少,而 FTD-TDP-B 和 FTD-TDP-C 則較常表現強迫行為(compulsive behavior)。在時間軸上,FTD-TAU 和皮質基底核退化症(Corticobasal Degeneration, CBD)最早出現失智症狀,皮克氏病(Pick's disease, PiD)和 PSP 則最晚出現。
由於神經退化性疾病的臨床診斷經常存在誤診的可能性,研究團隊對臨床描述進行清理,與人類疾病本體學(Human Disease Ontology)進行比對而獲得對於(Clinical Diagnosis, CD)的標記,然後與神經病理學診斷(Neuropathological Diagnosis, ND)進行比較(圖a)。接著建立了一套診斷規則(「正確」、「模糊」和「錯誤」;圖b),以計算診斷準確性(圖c)。
結果發現僅 84%的 AD 患者和 83%的 FTD 患者具有一致的神經病理診斷與臨床診斷(AD:Jaccard Similarity Coefficient, JS = 0.642;FTD:JS = 0.466)。而 MSA(JS = 0.465) 也經常被臨床診斷為 PD;VD(JS = 0.117)和 PSP(JS = 0.510)則經常被臨床診斷為其他疾病。病理診斷同時有 AD 和 DLB 的患者常被臨床診斷為僅患有 AD。這些發現顯示 NBB 資料庫中也存在許多錯誤診斷。
研究團隊也訓練一個門控循環單元(Gated Recurrent Unit, GRU-D),該模型可以處理具有缺失值的時序數據。在 1,810 名捐贈者中,1,342 名捐贈者被模型準確診斷,83 名捐贈者診斷模糊(例如 AD-DLB 診斷為 AD ),385 名捐贈者診斷錯誤。在臨床上,1,236 名捐贈者被診斷正確,311 人被診斷模糊(例如將 AD 診斷為 AD 和 FTD),263 人被診斷錯誤。整體來說,GRU-D 模型的表現比臨床診斷(CD)較差一些,只有在預測 FTD(JS:0.532 vs. 0.466)的表現比較好。而兩種模型對 DLB、VD、MND、和 MSA 的表現都比較差。值得注意的是,有一部分患者被醫師和模型診斷錯誤,表示這些患者表現出非典型的症狀。
研究團隊對臨床疾病軌跡進行了降維和聚類分析,來理解各種神經退化性疾病的臨床症狀異質性。結果辨識出 6 個主要群集(圖a):
值得注意的是,從神經病理學診斷(ND)來看,不同的疾病在臨床上其實具備同質性。例如 AD、MSA、PD、FTD、MND、MS、精神疾病、和對照組的患者相對容易被聚集在一起,而 VD、PSP、和 DLB 則更具異質性(圖b)。
研究團隊特別分析了臨床診斷不準確的案例,想了解這些錯誤診斷的病例是否在某些族群中特別常見(圖b、c)。結果發現,在 FTD、AD、PD、PSP 和對照組中,診斷不準確的比例都比準確診斷的案例要多。這表示這些診斷不準確的病人往往會出現其他疾病的症狀。舉例來說,被誤診的 AD 患者常常表現出類似 PD 的症狀,反之亦然。而被誤診的 MSA 患者,則常常表現出早發性或晚發性失智的症狀。這些發現也解釋了為什麼許多神經退化性疾病的患者往往難以得到準確診斷。
為了進一步確認這些分類群組的可靠性,研究團隊檢驗了 APOE4/4 基因型在各群組中的分布情況。這個基因型通常與早發型 AD 有關。研究發現:
這些基因分析的結果,從遺傳學的角度證實了研究團隊對病人分群的方法是有效的。
對合併的失智族群(EARLY-DEM和LATE-DEM)進行次群集分析發現四個次族群:
PD+族群中也能分成 4 個次族群:
MS/+的次族群分析辨識出 3 個主要族群,大部分患者集中在前兩個族群中:
以精神疾病為主的 PSYCHIATRIC 族群發現了 3 個次族群:
這項研究使用人工智慧技術分析病歷資料來重建病人的疾病發展過程,仍有一些侷限性需要注意:
透過分析患者的臨床病程軌跡,研究人員成功地識別出多種神經退化性疾病的臨床亞型。這些亞型表現出不同的症狀特徵和時間進程,有助於我們更深入地了解疾病的異質性和發展過程。這項研究的意義在於它不只是幫助我們更好地理解神經退化性疾病的複雜性,更為未來開發更精確的診斷工具和個人化治療方案鋪路。雖然研究仍有一些限制,但這些發現無疑為神經科學領域帶來重要進展,也為患者及其家屬帶來希望。