1. ROC + AUC
口語版:
ROC 曲線就像是檢查醫生有多會分辨病人和健康人,AUC就是這條曲線下面積,面積越大代表醫生越厲害。正式版:
ROC(Receiver Operating Characteristic)曲線是繪製真正率(True Positive Rate)對假正率(False Positive Rate)的圖形,用來評估分類模型表現。AUC(Area Under Curve)則是 ROC 曲線下的面積,AUC 越接近1,表示模型整體表現越好。
2. 資料類型 (Data Types)
口語版:
資料就像各種水果,有數字型的(蘋果數量)、文字型的(水果名字)、分類型的(顏色)、連續型的(重量)。
正式版:
資料類型指資料的基本結構,包括數值型(連續、離散)、類別型(有順序或無順序)、文字型(如自然語言文本)等,決定了後續分析與處理方式。
3. 集中趨勢統計量 (Measures of Central Tendency)
口語版:
集中趨勢就是找「大家大概聚在哪裡」,像平均數、中位數、最常出現的值。
正式版:
集中趨勢統計量是描述資料集中在某一數值附近的統計指標,常見有平均數(Mean)、中位數(Median)、眾數(Mode)。
4. 分散趨勢統計量 (Measures of Dispersion)
口語版:
分散趨勢就是看「大家有沒有分很開」,像是算一算大家離平均有多遠。
正式版:
分散趨勢統計量用來衡量資料點彼此之間的差異程度,常見指標有全距(Range)、變異數(Variance)、標準差(Standard Deviation)等。
5. 提示詞工程 (Prompt Engineering)
口語版:
提示詞工程就像跟 AI 下指令的藝術,怎麼講話最能讓它給出你想要的答案。
正式版:
提示詞工程是指針對大型語言模型(如 GPT 系列),設計、調整輸入語句的技巧,以引導模型產生符合預期需求的回應。
6. 模型壓縮 (Model Compression)
口語版:
模型壓縮就像減肥,把笨重的 AI 模型瘦身,跑得又快又不失太多聰明度。
正式版:
模型壓縮是指透過技術手段(如剪枝、量化、知識蒸餾等)減少機器學習模型的參數量或運算需求,以降低部署成本並提升執行速度。
7. 邊緣運算 (Edge Computing)
口語版:
邊緣運算就是讓小型裝置(像手機、監視器)自己動腦,不用什麼事都傳回大伺服器等指示。
正式版:
邊緣運算指將資料處理任務在接近資料源(例如終端設備或感測器)的位置完成,以降低延遲、減少頻寬需求並提高即時反應能力。
8. 分散式部署 (Distributed Deployment)
口語版:
分散式部署就像分散部隊,把不同任務交給不同地方的電腦去做,一起合作。
正式版:
分散式部署是指將模型或應用系統的不同部分分布在多個伺服器或節點上運行,提升擴展性、可靠性與處理效能。
9. 上下文理解能力 (Contextual Understanding)
口語版:
上下文理解能力就是 AI 不只懂單句話,而是能理解前後的故事脈絡,像真人一樣聽得懂「話中有話」。
正式版:
上下文理解能力指的是模型對於前後資訊的綜合分析能力,能依據整段內容理解語意、推理或作出適當回應,是自然語言處理的核心挑戰之一。
10. 頂部採樣 (Top-k Sampling)
口語版:
頂部採樣就是從得分最高的前幾個選項裡,隨機選一個答案,不一定選最強的,讓結果有點驚喜感。
正式版:
Top-k 採樣是一種生成式模型的取樣方法,從預測機率最高的 k 個選項中,依機率重新取樣,以平衡生成質量與多樣性。
11. 核採樣 (Top-p Sampling / Nucleus Sampling)
口語版:
核採樣像是挑前面「總機率加起來超過某個門檻」的選項,然後在這堆比較合理的裡面抽一個。
正式版:
核採樣(Top-p)方法根據累積機率,選取前 p 累積機率範圍內的候選詞,然後進行隨機取樣,以控制生成文本的品質與多樣性。
12. 遷移學習 (Transfer Learning)
口語版:
遷移學習就是先讓 AI 在別的地方學會基本功,再拿來在新地方快速上手,不用從零開始。
正式版:
遷移學習是指將在一個任務上學到的知識,部分或全部應用到另一個相關但不同的任務上,可以大幅加速學習速度並減少資料需求。
13. 反向工程 (Reverse Engineering)
口語版:
反向工程就是拆開一台機器或一個系統,看裡面怎麼做出來的,有點像「破解」。
正式版:
反向工程指的是對現有產品或系統進行分析,推導出其設計結構、功能或運作原理,通常用於研究、改善或仿製目的。
14. 提示詞攻擊 (Prompt Injection Attack)
口語版:
提示詞攻擊就像偷偷塞紙條給 AI,騙它做本來不該做的事。
正式版:
提示詞攻擊是一種針對大型語言模型的攻擊手法,通過注入特製輸入,操縱模型行為、洩露資料或違反安全策略。
15. 對抗性攻擊 (Adversarial Attack)
口語版:
對抗性攻擊就是在資料裡加一點小小的陷阱,讓 AI 看起來正常,但判斷卻完全出錯。
正式版:
對抗性攻擊指的是對輸入資料進行微小但刻意的擾動,使得機器學習模型在不易察覺的情況下產生錯誤預測,挑戰模型的安全性與魯棒性。
16. 差分隱私 (Differential Privacy)
口語版:
差分隱私就像是給資料上個魔法外套,讓你看得到整體趨勢,但看不到個人秘密。
正式版:
差分隱私是一種數學框架,保證在分析或公開資料時,即使知道結果也無法推斷出單一個體的存在與特徵,常用於保護使用者隱私。
17. 開放式平台 (Open Platform)
口語版:
開放式平台就像開放俱樂部,誰都可以進來用資源、加功能、一起改進。
正式版:
開放式平台是指提供公開接口(API)、開放資料、或開源碼的技術平台,促進外部開發者或第三方廠商參與生態系統建設與創新。
18. 超參數 (Hyperparameters)
口語版:
超參數就是設定好一堆「遊戲規則」讓 AI 去學,比如學多快、每次看多少資料,不是學出來的,是你一開始要先決定的。
正式版:
超參數是指在模型訓練開始前由人為設定的參數(如學習率、批次大小、層數等),不同於模型在訓練過程中自動學習得到的參數(如權重)。