還記得 COVID-19 mRNA 疫苗嗎? (是說最近還有人去打COVID疫苗嗎?) 背後的功臣—脂質奈米粒子 (Lipid nanoparticle, LNP) — 成功地將核酸藥物從實驗室帶進臨床。如今,臨床資料庫中 (Home | ClinicalTrials.gov) 已有超過百項 LNP 相關療法,且持續有大量試驗正在招募中,顯示LNP技術平台的實務應用正在快速擴張。實際上,要把核酸「順利送到對的細胞、在對的時間發揮功能」,設計一顆真正好用可用的 LNP 相當不容易。此篇前幾天發表於Nature Reviews Materials的文章"High-throughput platforms for machine learning-guided lipid nanoparticle design",總結了近期關於LNP的技術發展與機器學習如何應用加速開發,值得一讀。
以下是讀後整理的一些資訊,分享給有興趣了解內容的朋友。
為什麼 LNP 設計這麼難?
一顆典型的 LNP 由四大類脂質 (可電離脂質ionizable lipid、幫助脂質helper lipid、類固醇、Lipid-PEG) 與"貨物"組成。脂質結構的選擇各自影響彎曲性與穩定度、內部有序性、粒徑與循環時間等關鍵性狀。其中,可電離脂質在LNP的形成過程中扮演關鍵角色,它會與水相中溶解的核酸載體發生靜電複合物化 (electrocomplexation),並可促核酸從endosome中逃脫 (逃不出就會被分解~塊陶啊)。
脂質材料的結構多樣性很高,已知的結構保守估計在單一配方比例下就有約 10^13 種可能組合 (可電離脂質 ≈10^5 種、類固醇 ≈10^2、輔助脂質 ≈10^3、PEG 脂質 ≈10^3);若再把配比改變這個參數開展,潛在組合超過 10^15種。如此遼闊巨大的設計空間,若靠傳統的「逐一配方、逐步嘗試」很容易在迷宮裡繞圈圈。
更可怕的是,配方結構微調在生理結果上可能會帶來截然不同的表現:例如更換幫助脂質會影響內體逃脫效率;加入永久帶電的脂質,則可能把 LNP 的「器官趨向性」從肝臟引導到肺或脾臟,但也可能增加毒性風險。此外,LNP 一旦進入血液,血液中大量的蛋白質會吸附到表面形成「蛋白冠」,而這個動態外衣會改變LNP最終於體內分佈、細胞攝取與免疫反應,大幅增加了從體外試驗到體內轉譯的難度。
把化學變成「工業化」:自動化合成與平行篩選
好消息是,LNP 最關鍵的可電離脂質很適合「組合化學」:以一個可質子化的胺作核心,和各種帶電親脂尾巴在「一鍋反應」中快速拼接以實現自動化與擴產。這種模組化路線代表著我們可以利用機器每天合成、純化、特徵化大量新脂質,搭配檢測資料回饋,調整反應條件,逐步增快與放大可探索的化學結構空間 (簡單說,實驗人員只需要判斷方向和初始設計整個loop,建立一個機器與資料饋的迴圈後就可以快速擴展可行的脂質材料,還好現在有錢錢力量達成這件事的企業和實驗室極少數,不然研究員就要失業了QQ)。
「怎麼混」比「混了沒」更重要:三種主要配方成形法
要把多種脂質與核酸混成奈米粒子,混合的流體力學會決定LNP顆粒內部結構與最終表現。常見方法有:
- 液體處理器的批量沉澱 (Bulk precipitation):高通量但批間差大。
- 紊流混合 (Turbulent mixing)(如對撞噴流):可在毫秒內完成混合,適合放大量產,但在低體積條件下表現不佳,且放大尺度時局部流況難以一致。
- 微流體混合 (如chaotic advection microfluidic mixing):在各開發階段可維持相同的局部混合條件,被視為「跨尺度不變」的方法;但單通道流量有限,需靠裝置並聯與進出料自動化來提升效率。
我們可以設想一個大家都想達到最理想的情境是:
從"早期探索研究"到"臨床放大製備",LNP顆粒在每一步都「經歷一樣的混合環境」,避免因製程切換而導致體內行為改變。
混得快也要知道混得好不好:高通量LNP特性分析
常見指標
LNP顆粒大小與 PDI 可由 動態光散射DLS/光學追蹤量測;藥物裝載效率可用一些螢光方法 (如RiboGreen等),這些流程已逐步自動化。
結構解析的進階工具
• 高通量小角度X射線散射 (SAXS):通過將液體處理器與同步輻射光束線結合,可在約每分鐘一種配方的吞吐量下,提供關於脂質堆積、核心密度和核心相的數據。
• 單顆粒分析:微流體平台已用於線上光學檢測,以高通量評估單顆粒LNP的尺寸、相對組成和每個LNP的RNA數量。
• 拉曼分析 (Raman analysis) 和質譜 (Mass spectrometry):已被用於高通量量化相對脂質含量和每個顆粒的mRNA數量。
但其實自動化設備一般研究單位很難負擔的起,未來如何降低跨入門檻也是一個難題。不過這邊就先不考慮此問題。
篩選不只要快,還要會「看懂」:從體外到體內的大規模讀取
體外in vitro篩選評估 (如細胞毒性、轉染/表達效率、跨細胞運輸率、蛋白冠身分、細胞結合率等) 可用自動化平台 (如自動化液體處理器、流式細胞儀、質譜流式細胞儀、串接共聚焦顯微鏡等) 加速。雖然體外與體內的相關性有限,但它能高通量地淘汰沒有轉染能力的顆粒,避免把資源耗在明顯不適合的候選上。
體內in vivo篩選評估,也就是實際在動物體身上看有沒有成功傳遞核酸藥物造成特定蛋白表現。近年,因次世代定序 (Next-Generation Sequencing, NGS) 的技術不斷演進,RNAseq中barcode概念技術與傳遞核酸的LNP技術結合,形成「條碼化 LNP」,可讓我們把上百種配方一次性注入同一隻動物,再用次世代定序或質譜把每種條碼的分佈與活性拆解回來:
- DNA 條碼:穩定、好換,解析度可到器官/細胞層級,但在 RNA cargo中嵌入 DNA 可能改變顆粒性質;
- RNA/肽條碼:可更貼近轉譯活性,但半衰期與讀取流程需精心設計;DNA vs. RNA 條碼:DNA 條碼半衰期長、易互換,但在已裝載 RNA cargo的 LNP 中加入 DNA 可能改變理化性與生物量測結果 (易干擾);RNA 條碼多工能力相近、解析度高,但半衰期短,雖可透過修飾延長,跨細胞型態的生物效應仍待評估。
- 小分子條碼:小分子可用光學或質譜成像,但常有光譜重疊、背景訊號與檢出極限較高的挑戰。卤代「halocode」可降檢出極限,但目前多工能力約 10 組內。小分子條碼理論可高度多工,但易受偵測背景與光譜重疊干擾限制。
這些方法優勢在讓我們於更好的評估生物分佈、細胞結合與攝取、細胞內化途徑、專染效率等。但隨之而來的挑戰在於條碼數量易受限於顆粒間的物化差異、LNP配方流程或其他部分的通量瓶頸。但整體來說,此些技術讓體內高通量讀取變得可行,並能為後續的機器學習提供更貼近臨床的訓練資料。
讓模型來「猜下一步」:機器學習與生成式設計
在資料還不算龐大的今天,傳統的機器學習,類型包含SVM、隨機森林、梯度提升等。通常在相對較小的訓練數據集 (數十到數百個樣本) 上進行訓練,這些數據主要包含物理化學和體外數據 (如預測轉染效率等目標),並用可解釋方法 (如 SHAP) 點出關鍵設計因子 (例如磷脂與 PEG 的比例、使用哪種類固醇等)。
當資料量再放大,深度學習可把脂質結構嵌入圖形表示,結合實驗輸出做微調,進一步生成全新離子化脂質結構,甚至同時建議「結構+配比」的整體解法。幾個成功例子如下:
然而,要讓這條路穩健起飛,關鍵在於更大、更一致、可共享的資料庫與研究社群共用的標準化流程,最終才有機會打造跨任務的「LNP 基礎模型 (foundation model)」來對不同適應症做快速遷移與微調。
目前較可行的做法策略是:先以數千級體外資料多輪微調模型,再把少量最有價值的候選送進體內,用所獲取的較小體內資料進一步調校,逐輪提升預測力與樣本效率,形成一種體外與體內資料的主動學習 (active learning) 循環,節省資源與時間。
理想情況為,藉由前述高通量篩選工具技術與機器學習平台結合,最終希望達成一種閉環發現系統 (Closed-loop discovery systems)。在這個系統中:
1. 自動化平台生成並配製LNP。
2. LNP在生物系統中進行測試以產生數據。
3. 這些數據被輸入到機器學習模型中進行訓練。
4. 模型根據學習到的關係,最佳化反應條件、預測新脂質結構或新配方,從而減少未來所需的篩選集大小。
5. 這個循環持續迭代,直到找到具有所需治療功能的最佳LNP候選物。
總結此篇觀點
這篇文獻作者討論了高通量平台結合機器學習,如何加速脂質奈米顆粒 (LNP) 的設計與發現,以有效遞送核酸藥物至特定細胞或組織。由於LNP的設計空間極為龐大,且其分子組成、結構與活性之間的關係尚不完全理解,傳統篩選方法效率低下。
為解決此問題,可使用下列技術達成:
1. 高通量脂質/LNP合成與特徵鑑定
2. 高通量體外與體內篩選
3. 高通量平台生成的海量數據被整合至人工智慧驅動的發現系統中。
機器學習模型再從這些數據中學習,形成主動學習系統。這種閉環發現系統透過實驗數據回饋給模型,不斷優化LNP設計,顯著縮短了每個藥物的發現與早期開發過程。
雖然 ML 已能做性能預測與特徵歸因;且深度模型正朝「自動提案新脂質+配方」前進,但最重要的是需要更大、標準化且可共享的資料集。如此才能建立可遷移的 LNP 基礎模型,對不同疾病快速產生候選配方,進而縮短從設計到臨床的時間。