1. 壓力測試 (Stress Test)
口語版:
壓力測試就像拿機器狂操,看看它在超大負荷下會不會爆掉。
正式版:
壓力測試是指故意對系統、模型或伺服器施加極端負荷,以觀察其極限表現、穩定性及故障情況,常用於確保產品可靠性。
2. 敏感性檢查 (Sensitivity Analysis)
口語版:
敏感性檢查是測試「改一點小地方,結果會不會大改變」,像試試看哪個按鈕特別靈敏。
正式版:
敏感性檢查指分析模型輸出結果對輸入變化的反應程度,用以了解哪些變數對結果影響最大,有助於風險評估與模型優化。
3. A/B 測試
口語版:
A/B 測試就是讓一半人看到版本 A,另一半看到版本 B,看哪個表現比較好。
正式版:
A/B 測試是將受眾隨機分成兩組,分別暴露於不同版本(如界面、廣告、模型)的比較實驗,藉以找出最佳方案。
4. 知識蒸餾 (Knowledge Distillation)
口語版:
知識蒸餾就像大師傅教小徒弟,把複雜知識濃縮成簡單版給小模型學。
正式版:
知識蒸餾是指利用大型、複雜模型(Teacher Model)來訓練小型、輕量化模型(Student Model),以保留高準確度並降低資源需求。
5. 剪枝 (Pruning)
口語版:
剪枝就像修樹枝,把 AI 模型裡用不太到的部分砍掉,讓它更精簡。
正式版:
剪枝是指在模型訓練後,移除影響較小的參數或神經元,從而減少模型大小、提升運算速度,並盡量保留性能。
6. 量化 (Quantization)
口語版:
量化就是把高精度數字(像小數點後很多位)縮成簡單數字,讓 AI 計算更快。
正式版:
量化是指將浮點數參數轉換為較低位元格式(如 INT8),以減少模型體積與運算量,常用於部署在資源受限裝置上。
7. 魯棒性 (Robustness)
口語版:
魯棒性就是看 AI 遇到怪資料時能不能穩穩的,不容易出錯。
正式版:
魯棒性指模型對輸入資料變異、雜訊或惡意擾動的抵抗能力,是衡量模型可靠性的重要指標。
8. 迭代 (Iteration)
口語版:
迭代就是反覆試、反覆改,每做一次希望能變得更好。
正式版:
迭代指的是重複進行某個過程,每次基於前一次結果進行修正與改進,廣泛應用於模型訓練與開發流程。
9. 標準化 (Standardization)
口語版:
標準化就是把資料拉到統一標準,比如平均數變成0,標準差變成1。
正式版:
標準化是將資料經過轉換,使其平均值為 0、標準差為 1,便於不同特徵在同一尺度下進行比較與建模。
10. 編碼轉換 (Encoding Transformation)
口語版:
編碼轉換是把資料換種方式表達,比如把「男/女」變成0和1。
正式版:
編碼轉換是指將非數值資料轉成模型可接受的數值形式,常見方法如獨熱編碼(One-Hot Encoding)或標籤編碼(Label Encoding)。
11. 敘述性統計 (Descriptive Statistics)
口語版:
敘述性統計就是整理資料的基本成績單,比如平均多少、最大最小值是多少。
正式版:
敘述性統計是用來簡要描述資料特性的方法,包括集中趨勢、分散趨勢、分布形狀等指標。
12. 標準化與正規化 (Standardization vs Normalization)
口語版:
標準化是讓資料「變成平均0,標準差1」;正規化是把數字壓縮到像0~1這樣的小範圍。
正式版:
標準化是調整資料使其符合特定的統計分布(如均值0、標準差1),而正規化是將資料縮放至固定範圍(如[0,1]或[-1,1]),常用於不同場景下的特徵處理。
13. 特徵工程 (Feature Engineering)
口語版:
特徵工程是把資料加工成「更好學」的版本,讓 AI 更容易找出規律。
正式版:
特徵工程是指從原始資料中設計或轉換出能提高模型效能的特徵,包含特徵選取、特徵創造與特徵轉換等步驟。
14. 自適應 (Adaptive)
口語版:
自適應就是根據情況變聰明,比如遇到不同資料自動調整策略。
正式版:
自適應指的是系統或模型能根據環境變化自動調整自身參數或行為,以維持或提升表現。
15. KGI (Key Goal Indicator)
口語版:
KGI 就是「終極目標」,像賽跑比賽的終點線,看有沒有達成最重要的大目標。
正式版:
KGI 是關鍵目標指標,主要用來衡量是否達成最終商業目標或策略目標,通常較高層次、結果導向。
16. 模型對齊 (Model Alignment)
口語版:
模型對齊就是讓 AI 的想法跟人類希望它的方向一致,不走偏。
正式版:
模型對齊是指確保人工智慧系統的目標、行為與人類價值或需求保持一致,特別關注在大規模語言模型與自動化決策系統中。
17. 匿名脫敏 (Anonymization and De-identification)
口語版:
匿名脫敏就是把資料裡能認出你的東西遮掉,保護隱私。
正式版:
匿名脫敏指的是對個人資料進行加工處理,移除或隱藏可識別身份的資訊,以防止資料被反向推斷出個體身分。
18. 分詞 (Tokenization)
口語版:
分詞就是把一句話切成一塊一塊的詞或字,讓 AI 比較好理解。
正式版:
分詞是指將文本劃分成較小的單位(如字詞或子詞),是自然語言處理中必須的前處理步驟。
19. 詞嵌入 (Word Embedding)
口語版:
詞嵌入就是把每個字或詞轉成一組數字,讓 AI 可以用數學方式理解文字意思。
正式版:
詞嵌入是將詞語映射到高維向量空間的技術,使得語意上相似的詞在空間中距離接近,常見方法有 Word2Vec、GloVe、BERT 等。
20. 四分位距 (Interquartile Range, IQR)
口語版:
四分位距就像找一組資料中間 50% 的範圍,專門拿來看資料有多集中或分散。
正式版:
四分位距是第三四分位數(Q3)與第一四分位數(Q1)之間的差值(IQR = Q3 - Q1),可用來衡量資料集中區域的變異程度。