專家經驗和機器學習取得的「權重」的差異,以及可能的整合方式。

更新於 發佈於 閱讀時間約 6 分鐘

在資料科學中常可以聽到「權重」,可藉由專家經驗和機器學習取得「權重」,但他們差別是什麼?在透過演算法決定權重的想法相對盛行的現今,又如何整合兩種途徑的結果?

內容

  • 定義
  • 取得權重的兩種途徑
  • 取得權重後做什麼?
  • 現況與建議
  • 結論
  • 最後

定義

權重是指,不同測量指標對於目標變數的相對重要程度。

比方說,在大學不同科系的錄取資格,要求:

總成績 = 1*國文 + 1.5*英文 + 1*數學


台北大學社會系指考加權權重

台北大學社會系指考加權權重

表示該科系對於學科能力的重視程度,相對而言,英文是國文和數學的1.5倍,也就是說該科系相對重視學生英文能力。

又或者是:

個人收入 = 1.2*教育年數 + 3.6*工作年資 + 4.8*所屬產業別

表示個人的收入,受到個人的教育年數、年資和所屬產業別影響,而其中又以所屬產業別相對重要於和工作年資和教育年數。

也就是說,對於目標變數而言,我們知道不同的測量指標的重要性不同;然而,相對重要性如何決定?有什麼科學化的方法可以採用嗎?



取得權重的兩種途徑

專家經驗

透過大量的經驗累積,取得專業領域知識的人,藉由這些專家的知識,針對目標的看法,給予不同指標的相對重要性。如同前面的例子,學校科系對於學生的錄取標準,即是透過各科系的教職員討論決定出英文的權重為1.5、數學和國文的權重為1等。又或者,假設要知道入境旅客走私的風險高低,海關官員可能依照專業經驗,給定「從A、B、C國家出境」的風險權重為4.5,「從D、E國家出境」的風險權重為2.1,「出入境次數」的風險權重為1.3,則表示從A、B、C國家出境的旅客,相對於從D、E國家出境的旅客風險高;而出入境次數越多,可能的風險也越高。

專家經驗倚賴專家長時間的經驗累積,以此做為給定權重的基礎,進行可能的篩選機制、風險判斷等。而當需要整合多個專家的意見時,透過「會議討論」是一種做法;然而,相對科學的方式是透過例如層級分析法(Analytic Hierarchical Process,AHP),設計成對比較(pairwise comparision)問卷給予專家填寫後,透過特徵向量分解(eigenvector decomposition)後,取得最大特徵值(eigenvalue)對應特徵向量(eigenvector),作為最終的專家權重,也是常見方法之一。

然而,專家經驗的限制在於需要長時間的專家知識累積,當專家離開組織後,必須有對應的知識接班,例如許多組織建立知識管理(knowledge management)系統即試著藉此留下專家經驗,但往往知識管理系統淪為檔案集散地,真正的專家經驗可能也只留存在下一代專家的腦海中。


機器學習方法

專家經驗倚賴專家的知識累積;相對的,機器學習方法則是倚賴資料的累積,並結合機器學習演算法(machine learning algorithm),從中取得權重,例如常見的決策樹(decision tree)多元線性迴歸(multiple linear regression)類神經網絡(artificial neural network)等,由資料中學習所需要的權重。

例如研究蒐集到約1,600人的個人收入、父母教育年數、個人教育程度和年數、工作地、性別等資料,進一步針對這1,600筆的資料,結合多元線性迴歸,即可知道當教育年數每增加1年時對於個人收入的增加2,800元,而女性收入相對於男性的較低(-11,800)等結果。

當然,機器學習方法也有限制,包含是否有足夠的歷史資料累積,以及是否有好的資料品質。當無足夠高品質的資料,機器難以從有限或品質不佳的資料中取得有用的規則,遑論進行好的推論或預測應用。此外,機器學習往往需要外尋機器學習專家協助建立權重和系統,短期成本相對於專家經驗高。


整體而言,專家經驗和機器學習方法取得權重的方式不同,專家經驗仰仗知識累積而成的領域專家給予權重,而機器學習方法則是依靠資料累積結合演算法取得權重,且各自有其限制。

專家經驗與機器學習取得權重的方式

專家經驗與機器學習取得權重的方式


取得權重後做什麼?

實務上透過上述不同方法,都可以各自取得權重。而在取得權重後,應用方式則視不同情境而定。

例如決定錄取的學生時,透過學生的考試成績,結合權重大小篩選相對符合能力要求的學生;海關於收到旅客入境資料時,結合旅客資料和權重大小,計算整體風險分數,進一步查驗高風險旅客的入境身分;銀行於收到借款申請時,結合申請人資料和權重大小,決定借款與否,甚至是借款金額大小。

簡單的說,就是透過實務資料結合預先取得的權重,輔助業務需求判斷行動方案。


現況與建議

取得權重的方式有兩大途徑,但計算方法相當多元,那麼現況為何呢?在人工智慧當道,對於透過演算法決定權重的想法相對盛行;不過在許多產業中,採行多年的專家經驗無法一夕之間轉換為機器學習方法,原因在於機器學習所需要的大量資料並無留存歷史紀錄,或是既有系統無法直接與機器學習方法整合,而需要額外系統調整或建置成本,都使得機器學習方法的應用雖有成長,但並非爆發性。因此,我建議的方式是,著手數位轉型(digital transformation)、建立資料倉儲(data warehouse)妥善保存相關紀錄以解決無歷史紀錄的部分;此外,藉由專家輔助標註資料(data labeling),以此作為機器學習的基礎,透過資料學習「專家經驗」,輔助實務應用。


結論

權重的應用廣泛,而權重的取得有兩大途徑,分別是專家經驗和機器學習方法。專家經驗倚賴知識累積,機器學習方法憑藉資料累積。著手數位轉型、建立資料倉儲、結合專家經驗和機器學習方法,是機器學習方法應用的拓展方向之一。


最後

你了解權重有哪些取得途徑嗎?或是除了本文所提到的,有其他的想法?都歡迎留言和我分享。



留言
avatar-img
留言分享你的想法!
avatar-img
李政旺的沙龍
28會員
19內容數
和大家一起看見台灣的資料,包含人口、經濟、社會等相關議題。
李政旺的沙龍的其他內容
2023/07/23
模型上線前的評估的嚴謹與否,攸關上線後模型的表現。你知道模型評估需要注意哪些細節?在評估過程的嚴謹性又可以如何分級呢?一起來看看吧!
Thumbnail
2023/07/23
模型上線前的評估的嚴謹與否,攸關上線後模型的表現。你知道模型評估需要注意哪些細節?在評估過程的嚴謹性又可以如何分級呢?一起來看看吧!
Thumbnail
2023/07/22
資料分析就像廚師料理一樣,但你知道可以分成哪9大流程嗎?一起看看資料分析流程和廚師料理有多像!
Thumbnail
2023/07/22
資料分析就像廚師料理一樣,但你知道可以分成哪9大流程嗎?一起看看資料分析流程和廚師料理有多像!
Thumbnail
2023/07/22
資料分析三個主要的目的分別是探索性、解釋性及預測性。看看他們在方法及複雜度上有什麼差異,以及適用的情境。
Thumbnail
2023/07/22
資料分析三個主要的目的分別是探索性、解釋性及預測性。看看他們在方法及複雜度上有什麼差異,以及適用的情境。
Thumbnail
看更多
你可能也想看
Thumbnail
提供一條簡單公式、一套盤點思路,幫助你快速算出去日本自助旅遊需要準備多少日幣現金!
Thumbnail
提供一條簡單公式、一套盤點思路,幫助你快速算出去日本自助旅遊需要準備多少日幣現金!
Thumbnail
在資料科學中常可以聽到「權重」,可藉由專家經驗和機器學習取得「權重」,但他們差別是什麼?在透過演算法決定權重的想法相對盛行的現今,又如何整合兩種途徑的結果?
Thumbnail
在資料科學中常可以聽到「權重」,可藉由專家經驗和機器學習取得「權重」,但他們差別是什麼?在透過演算法決定權重的想法相對盛行的現今,又如何整合兩種途徑的結果?
Thumbnail
這是一本講述人工智慧的發展,以及企業在導入人工智慧會遇到的困境,和擁抱人工智慧所需要具備的條件,給身在台灣的各位一個思考的方向,是一本很值得一讀的書。
Thumbnail
這是一本講述人工智慧的發展,以及企業在導入人工智慧會遇到的困境,和擁抱人工智慧所需要具備的條件,給身在台灣的各位一個思考的方向,是一本很值得一讀的書。
Thumbnail
從讀大學的時候,我就在思考,哪些科系越老越有價值? 後來經過一些摸索,得知如果那個科系出來的職業,做越久越難被高畢業的天才取代,越有價值,此稱為經驗老手,薑是老的辣的概念
Thumbnail
從讀大學的時候,我就在思考,哪些科系越老越有價值? 後來經過一些摸索,得知如果那個科系出來的職業,做越久越難被高畢業的天才取代,越有價值,此稱為經驗老手,薑是老的辣的概念
Thumbnail
本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。 首先,本文章有三個有趣的實驗問題: 資料前處理(Data-Preprocession)對合成數據效度的影響。 是否需要對合成的機器學習模型調參(Tuning)。 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
Thumbnail
本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。 首先,本文章有三個有趣的實驗問題: 資料前處理(Data-Preprocession)對合成數據效度的影響。 是否需要對合成的機器學習模型調參(Tuning)。 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
Thumbnail
你可以不懂統計,但不能不知道統計思維,尤其在這個大數據時代。​這能讓你更好地解讀身邊的資訊,運用這些資訊來做出更好的決定與判斷。
Thumbnail
你可以不懂統計,但不能不知道統計思維,尤其在這個大數據時代。​這能讓你更好地解讀身邊的資訊,運用這些資訊來做出更好的決定與判斷。
Thumbnail
在談人力資源的進一步問題時,筆者不想要把教育程度這些當成一個絕對指標,主要的理由倒不是文憑主義還是啥階級化影響,而是筆者覺得這種指標欠缺對應性。誰規定大學以上都會去當白領階級?沒有大學程度的都會去當藍領勞工?
Thumbnail
在談人力資源的進一步問題時,筆者不想要把教育程度這些當成一個絕對指標,主要的理由倒不是文憑主義還是啥階級化影響,而是筆者覺得這種指標欠缺對應性。誰規定大學以上都會去當白領階級?沒有大學程度的都會去當藍領勞工?
Thumbnail
作者:陳華夫 既然,無法淨增加「理工科」學生,我建議從非「理工科」的人口裡,訓練寫AI電腦程式。我前面說過:「寫八股文與AI電腦程式基本上都是在作文,只是前者寫給人看,後者寫給電腦看。」只要個人克服心理障礙及社會提供學習及諮詢資源,則「文科」生轉型寫AI電腦程式,以彌補人工智慧產業人才短缺,不是夢。
Thumbnail
作者:陳華夫 既然,無法淨增加「理工科」學生,我建議從非「理工科」的人口裡,訓練寫AI電腦程式。我前面說過:「寫八股文與AI電腦程式基本上都是在作文,只是前者寫給人看,後者寫給電腦看。」只要個人克服心理障礙及社會提供學習及諮詢資源,則「文科」生轉型寫AI電腦程式,以彌補人工智慧產業人才短缺,不是夢。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News