專家經驗和機器學習取得的「權重」的差異，以及可能的整合方式。

李政旺

發佈於資料分析三兩事

2023/07/10 更新2023/07/02 發佈閱讀 6 分鐘

在資料科學中常可以聽到「權重」，可藉由專家經驗和機器學習取得「權重」，但他們差別是什麼？在透過演算法決定權重的想法相對盛行的現今，又如何整合兩種途徑的結果？

內容

定義
取得權重的兩種途徑
取得權重後做什麼？
現況與建議
結論
最後

定義

權重是指，不同測量指標對於目標變數的相對重要程度。

比方說，在大學不同科系的錄取資格，要求：

總成績 = 1*國文 + 1.5*英文 + 1*數學

表示該科系對於學科能力的重視程度，相對而言，英文是國文和數學的1.5倍，也就是說該科系相對重視學生英文能力。

又或者是：

個人收入 = 1.2*教育年數 + 3.6*工作年資 + 4.8*所屬產業別

表示個人的收入，受到個人的教育年數、年資和所屬產業別影響，而其中又以所屬產業別相對重要於和工作年資和教育年數。

也就是說，對於目標變數而言，我們知道不同的測量指標的重要性不同；然而，相對重要性如何決定？有什麼科學化的方法可以採用嗎？

取得權重的兩種途徑

專家經驗

透過大量的經驗累積，取得專業領域知識的人，藉由這些專家的知識，針對目標的看法，給予不同指標的相對重要性。如同前面的例子，學校科系對於學生的錄取標準，即是透過各科系的教職員討論決定出英文的權重為1.5、數學和國文的權重為1等。又或者，假設要知道入境旅客走私的風險高低，海關官員可能依照專業經驗，給定「從A、B、C國家出境」的風險權重為4.5，「從D、E國家出境」的風險權重為2.1，「出入境次數」的風險權重為1.3，則表示從A、B、C國家出境的旅客，相對於從D、E國家出境的旅客風險高；而出入境次數越多，可能的風險也越高。

專家經驗倚賴專家長時間的經驗累積，以此做為給定權重的基礎，進行可能的篩選機制、風險判斷等。而當需要整合多個專家的意見時，透過「會議討論」是一種做法；然而，相對科學的方式是透過例如層級分析法(Analytic Hierarchical Process，AHP)，設計成對比較(pairwise comparision)問卷給予專家填寫後，透過特徵向量分解(eigenvector decomposition)後，取得最大特徵值(eigenvalue)對應特徵向量(eigenvector)，作為最終的專家權重，也是常見方法之一。

然而，專家經驗的限制在於需要長時間的專家知識累積，當專家離開組織後，必須有對應的知識接班，例如許多組織建立知識管理(knowledge management)系統即試著藉此留下專家經驗，但往往知識管理系統淪為檔案集散地，真正的專家經驗可能也只留存在下一代專家的腦海中。

機器學習方法

專家經驗倚賴專家的知識累積；相對的，機器學習方法則是倚賴資料的累積，並結合機器學習演算法(machine learning algorithm)，從中取得權重，例如常見的決策樹(decision tree)、多元線性迴歸(multiple linear regression)、類神經網絡(artificial neural network)等，由資料中學習所需要的權重。

例如研究蒐集到約1,600人的個人收入、父母教育年數、個人教育程度和年數、工作地、性別等資料，進一步針對這1,600筆的資料，結合多元線性迴歸，即可知道當教育年數每增加1年時對於個人收入的增加2,800元，而女性收入相對於男性的較低(-11,800)等結果。

當然，機器學習方法也有限制，包含是否有足夠的歷史資料累積，以及是否有好的資料品質。當無足夠高品質的資料，機器難以從有限或品質不佳的資料中取得有用的規則，遑論進行好的推論或預測應用。此外，機器學習往往需要外尋機器學習專家協助建立權重和系統，短期成本相對於專家經驗高。

整體而言，專家經驗和機器學習方法取得權重的方式不同，專家經驗仰仗知識累積而成的領域專家給予權重，而機器學習方法則是依靠資料累積結合演算法取得權重，且各自有其限制。

取得權重後做什麼？

實務上透過上述不同方法，都可以各自取得權重。而在取得權重後，應用方式則視不同情境而定。

例如決定錄取的學生時，透過學生的考試成績，結合權重大小篩選相對符合能力要求的學生；海關於收到旅客入境資料時，結合旅客資料和權重大小，計算整體風險分數，進一步查驗高風險旅客的入境身分；銀行於收到借款申請時，結合申請人資料和權重大小，決定借款與否，甚至是借款金額大小。

簡單的說，就是透過實務資料結合預先取得的權重，輔助業務需求判斷行動方案。

現況與建議

取得權重的方式有兩大途徑，但計算方法相當多元，那麼現況為何呢？在人工智慧當道，對於透過演算法決定權重的想法相對盛行；不過在許多產業中，採行多年的專家經驗無法一夕之間轉換為機器學習方法，原因在於機器學習所需要的大量資料並無留存歷史紀錄，或是既有系統無法直接與機器學習方法整合，而需要額外系統調整或建置成本，都使得機器學習方法的應用雖有成長，但並非爆發性。因此，我建議的方式是，著手數位轉型(digital transformation)、建立資料倉儲(data warehouse)妥善保存相關紀錄以解決無歷史紀錄的部分；此外，藉由專家輔助標註資料(data labeling)，以此作為機器學習的基礎，透過資料學習「專家經驗」，輔助實務應用。

結論

權重的應用廣泛，而權重的取得有兩大途徑，分別是專家經驗和機器學習方法。專家經驗倚賴知識累積，機器學習方法憑藉資料累積。著手數位轉型、建立資料倉儲、結合專家經驗和機器學習方法，是機器學習方法應用的拓展方向之一。

最後

你了解權重有哪些取得途徑嗎？或是除了本文所提到的，有其他的想法？都歡迎留言和我分享。

留言

李政旺的沙龍

30會員

19內容數

和大家一起看見台灣的資料，包含人口、經濟、社會等相關議題。

李政旺的沙龍的其他內容

2023/07/23

預測模型的表現怎麼評估？模型評估嚴謹程度的4個等級

模型上線前的評估的嚴謹與否，攸關上線後模型的表現。你知道模型評估需要注意哪些細節？在評估過程的嚴謹性又可以如何分級呢？一起來看看吧！

2023/07/23

預測模型的表現怎麼評估？模型評估嚴謹程度的4個等級

模型上線前的評估的嚴謹與否，攸關上線後模型的表現。你知道模型評估需要注意哪些細節？在評估過程的嚴謹性又可以如何分級呢？一起來看看吧！

2023/07/22

資料分析和廚師料理一樣！資料分析的 9 大流程

資料分析就像廚師料理一樣，但你知道可以分成哪9大流程嗎？一起看看資料分析流程和廚師料理有多像！

2023/07/22

資料分析和廚師料理一樣！資料分析的 9 大流程

資料分析就像廚師料理一樣，但你知道可以分成哪9大流程嗎？一起看看資料分析流程和廚師料理有多像！

2023/07/22

資料分析的3大目的：探索、解釋及預測

資料分析三個主要的目的分別是探索性、解釋性及預測性。看看他們在方法及複雜度上有什麼差異，以及適用的情境。

2023/07/22

資料分析的3大目的：探索、解釋及預測

資料分析三個主要的目的分別是探索性、解釋性及預測性。看看他們在方法及複雜度上有什麼差異，以及適用的情境。

看更多

你可能也想看

李政旺的沙龍

專家經驗和機器學習取得的「權重」的差異，以及可能的整合方式。

#資料科學#資料分析#專家經驗

2023/07/02

李政旺的沙龍

專家經驗和機器學習取得的「權重」的差異，以及可能的整合方式。

#資料科學#資料分析#專家經驗

2023/07/02

矽谷jojo的沙龍

[哲學思考] 智商 v.s. 經驗?

從讀大學的時候，我就在思考，哪些科系越老越有價值? 後來經過一些摸索，得知如果那個科系出來的職業，做越久越難被高畢業的天才取代，越有價值，此稱為經驗老手，薑是老的辣的概念

2022/08/22

2022/08/22

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

紫式講義的沙龍

我對合成數據的三個思考：資料效度，傾向分數，前處理的效度損失

本文章想分享給你，我在閱讀有效合成數據的文章後，產生的理解與思考。首先，本文章有三個有趣的實驗問題：資料前處理(Data-Preprocession)對合成數據效度的影響。是否需要對合成的機器學習模型調參(Tuning)。效度測量是否能預測合成數據訓練的機器學習模型的準確度。

#合成數據#機器學習#傾向分數

2022/07/30

紫式講義的沙龍

我對合成數據的三個思考：資料效度，傾向分數，前處理的效度損失

#合成數據#機器學習#傾向分數

2022/07/30

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

跟著軌軌來讀書的沙龍

讀《人工智慧在台灣》學習如何跟上人工智慧讓AI真的幫上忙

這是一本講述人工智慧的發展，以及企業在導入人工智慧會遇到的困境，和擁抱人工智慧所需要具備的條件，給身在台灣的各位一個思考的方向，是一本很值得一讀的書。

#人工智慧#學習#資訊

2023/05/11

跟著軌軌來讀書的沙龍

讀《人工智慧在台灣》學習如何跟上人工智慧讓AI真的幫上忙

#人工智慧#學習#資訊

2023/05/11

王立第二戰研所

台灣的人力資源（2）

在談人力資源的進一步問題時，筆者不想要把教育程度這些當成一個絕對指標，主要的理由倒不是文憑主義還是啥階級化影響，而是筆者覺得這種指標欠缺對應性。誰規定大學以上都會去當白領階級？沒有大學程度的都會去當藍領勞工？

2022/05/22

2022/05/22

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

史塔克實驗室的沙龍

機器學習裡面的特徵是什麼？

兼回答觀眾來信問題經過上一次的文章之後，棒棒的觀眾們依然有問題丟過來有些觀眾的問題都滿認真的，也不好像其他節目一樣在節目上講講就沒了，所以依然用文章的方式帶給大家一點東西。我們先來看看觀眾疑問： 1. 是不是機器人預測的結果，都是依照revenue? 特徵是什麼? 特徵提取又是什麼？

2022/01/07

史塔克實驗室的沙龍

機器學習裡面的特徵是什麼？

2022/01/07

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11