專家經驗和機器學習取得的「權重」的差異,以及可能的整合方式。

更新於 發佈於 閱讀時間約 5 分鐘
在資料科學中常可以聽到「權重」,可藉由專家經驗和機器學習取得「權重」,但他們差別是什麼?在透過演算法決定權重的想法相對盛行的現今,又如何整合兩種途徑的結果?

內容

  • 定義
  • 取得權重的兩種途徑
  • 取得權重後做什麼?
  • 現況與建議
  • 結論
  • 最後

定義

權重是指,不同測量指標對於目標變數的相對重要程度。
比方說,在大學不同科系的錄取資格,要求:
總成績 = 1*國文 + 1.5*英文 + 1*數學
台北大學社會系指考加權權重
表示該科系對於學科能力的重視程度,相對而言,英文是國文和數學的1.5倍,也就是說該科系相對重視學生英文能力。
又或者是:
個人收入 = 1.2*教育年數 + 3.6*工作年資 + 4.8*所屬產業別
表示個人的收入,受到個人的教育年數、年資和所屬產業別影響,而其中又以所屬產業別相對重要於和工作年資和教育年數。
也就是說,對於目標變數而言,我們知道不同的測量指標的重要性不同;然而,相對重要性如何決定?有什麼科學化的方法可以採用嗎?

取得權重的兩種途徑

專家經驗

透過大量的經驗累積,取得專業領域知識的人,藉由這些專家的知識,針對目標的看法,給予不同指標的相對重要性。如同前面的例子,學校科系對於學生的錄取標準,即是透過各科系的教職員討論決定出英文的權重為1.5、數學和國文的權重為1等。又或者,假設要知道入境旅客走私的風險高低,海關官員可能依照專業經驗,給定「從A、B、C國家出境」的風險權重為4.5,「從D、E國家出境」的風險權重為2.1,「出入境次數」的風險權重為1.3,則表示從A、B、C國家出境的旅客,相對於從D、E國家出境的旅客風險高;而出入境次數越多,可能的風險也越高。
專家經驗倚賴專家長時間的經驗累積,以此做為給定權重的基礎,進行可能的篩選機制、風險判斷等。而當需要整合多個專家的意見時,透過「會議討論」是一種做法;然而,相對科學的方式是透過例如層級分析法(Analytic Hierarchical Process,AHP),設計成對比較(pairwise comparision)問卷給予專家填寫後,透過特徵向量分解(eigenvector decomposition)後,取得最大特徵值(eigenvalue)對應特徵向量(eigenvector),作為最終的專家權重,也是常見方法之一。
然而,專家經驗的限制在於需要長時間的專家知識累積,當專家離開組織後,必須有對應的知識接班,例如許多組織建立知識管理(knowledge management)系統即試著藉此留下專家經驗,但往往知識管理系統淪為檔案集散地,真正的專家經驗可能也只留存在下一代專家的腦海中。

機器學習方法

專家經驗倚賴專家的知識累積;相對的,機器學習方法則是倚賴資料的累積,並結合機器學習演算法(machine learning algorithm),從中取得權重,例如常見的決策樹(decision tree)多元線性迴歸(multiple linear regression)類神經網絡(artificial neural network)等,由資料中學習所需要的權重。
例如研究蒐集到約1,600人的個人收入、父母教育年數、個人教育程度和年數、工作地、性別等資料,進一步針對這1,600筆的資料,結合多元線性迴歸,即可知道當教育年數每增加1年時對於個人收入的增加2,800元,而女性收入相對於男性的較低(-11,800)等結果。
當然,機器學習方法也有限制,包含是否有足夠的歷史資料累積,以及是否有好的資料品質。當無足夠高品質的資料,機器難以從有限或品質不佳的資料中取得有用的規則,遑論進行好的推論或預測應用。此外,機器學習往往需要外尋機器學習專家協助建立權重和系統,短期成本相對於專家經驗高。
整體而言,專家經驗和機器學習方法取得權重的方式不同,專家經驗仰仗知識累積而成的領域專家給予權重,而機器學習方法則是依靠資料累積結合演算法取得權重,且各自有其限制。
專家經驗與機器學習取得權重的方式

取得權重後做什麼?

實務上透過上述不同方法,都可以各自取得權重。而在取得權重後,應用方式則視不同情境而定。
例如決定錄取的學生時,透過學生的考試成績,結合權重大小篩選相對符合能力要求的學生;海關於收到旅客入境資料時,結合旅客資料和權重大小,計算整體風險分數,進一步查驗高風險旅客的入境身分;銀行於收到借款申請時,結合申請人資料和權重大小,決定借款與否,甚至是借款金額大小。
簡單的說,就是透過實務資料結合預先取得的權重,輔助業務需求判斷行動方案。

現況與建議

取得權重的方式有兩大途徑,但計算方法相當多元,那麼現況為何呢?在人工智慧當道,對於透過演算法決定權重的想法相對盛行;不過在許多產業中,採行多年的專家經驗無法一夕之間轉換為機器學習方法,原因在於機器學習所需要的大量資料並無留存歷史紀錄,或是既有系統無法直接與機器學習方法整合,而需要額外系統調整或建置成本,都使得機器學習方法的應用雖有成長,但並非爆發性。因此,我建議的方式是,著手數位轉型(digital transformation)、建立資料倉儲(data warehouse)妥善保存相關紀錄以解決無歷史紀錄的部分;此外,藉由專家輔助標註資料(data labeling),以此作為機器學習的基礎,透過資料學習「專家經驗」,輔助實務應用。

結論

權重的應用廣泛,而權重的取得有兩大途徑,分別是專家經驗和機器學習方法。專家經驗倚賴知識累積,機器學習方法憑藉資料累積。著手數位轉型、建立資料倉儲、結合專家經驗和機器學習方法,是機器學習方法應用的拓展方向之一。

最後

你了解權重有哪些取得途徑嗎?或是除了本文所提到的,有其他的想法?都歡迎留言和我分享。
此篇文章會顯示動態置底廣告
為什麼會看到廣告
avatar-img
28會員
19內容數
和大家一起看見台灣的資料,包含人口、經濟、社會等相關議題。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
李政旺的沙龍 的其他內容
決定「分析單位」是資料分析執行前,最需要確認的項目;決定了「分析單位」等同於決定分析結果數據呈現方式、解讀和應用方法。讓我們一起了解「分析單位」到底是什麼?什麼會決定分析單位?以及沒有弄清楚分析單位會有什麼影響?
決定「分析單位」是資料分析執行前,最需要確認的項目;決定了「分析單位」等同於決定分析結果數據呈現方式、解讀和應用方法。讓我們一起了解「分析單位」到底是什麼?什麼會決定分析單位?以及沒有弄清楚分析單位會有什麼影響?
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
本文探討了在生活中進行持續學習的重要性,提供了一個有助於安排學習計畫的框架,並強調了機會成本和比較優勢的概念。學習項目被分為補強、卓越與機會三個分類,讀者可透過這些分類來識別自身及孩子在學習過程中的需求與資源配置。此外,如何利用外部視野和專業協助,提升學習效率和效果,也是文章的重要焦點。
剛剛結束了KPI考核與年中人才盤點與報告。在報告的過程中,董事長提了一個問題: 對於人才的判定,在專業、邏輯與態度上,哪個最重要呢? A專業: 指的是對於本質學能上的專精程度,能否承擔起工作上所需。 B邏輯: 客觀判讀並分析狀況,用系統性的思考指出問題根源並提出有效的方案。 C態度: 高承諾度
在復旦大學數學系三年級的一次會面中,有學生詢問:「你們會收怎麼樣的學生當博士生?」這個問題引發了我許多思考。綜合當時的回答,最重要的一點是:我們尋找的是擁有自己意見且有技術底氣的學生。 ▋自己意見與技術底氣 擁有自己意見且具備技術底氣的學生在現今的學術界中並不多見。這類學生不僅能夠獨立思
本篇文章介紹了一種簡單但正確的評估方法,以投資評估總分和本益比為依據,給出了公司的投資評級,並以臺積電和NVDA作為範例。文章還提到了演算法的重要性,以及執行長數學的思路。建議投資者試用這種投資策略來輔助自己的投資。
一位復旦大學數學系三年級的學生,在與我第二次見面時,問了一個重要的問題:「你們會收怎麼樣的學生當博士生?」 當時我與這個學生進行了詳細的交流,但一句話來總結,就是「有自己意見,而且有技術底氣的學生」。同時具備這兩個特質的學生,其實相當稀少。 ▋有自己意見 在台大的經驗告訴我,有自己
Thumbnail
本文探討如何科學、公正的評估候選人,適合人才資源專業人士及管理者閱讀。 評估候選人:使用量化和質化指標評估候選人的技能和文化契合度 在今日瞬息萬變的商業環境中,對企業來說,吸納並留住合適的人才是一項持續的挑戰。 比如評估潛在候選人,就是確保企業競爭力與創新能力的核心問題之一。 以下將
Thumbnail
本文探討了監督式學習、分群和相似度這幾個推薦系統算法,分別討論了它們的優點、缺點以及適用場景。這些算法在推薦系統中扮演著重要角色,並透過特徵選擇與預處理、相似度度量和鄰居的選擇等關鍵因素進行深入分析。文章最後提出在選擇推薦系統算法時應該考慮的因素,以及未來的研究方向。
Thumbnail
前兩篇篩選機制針對篩選指標做完整的討論,這篇來針對權重計算來討論,權重計算的目的為何?另外有提到預擬資產管理規模,這個特殊方式似乎沒有在其他的高股息指數上看到,為何有此設計?最後討論此檔指數的優點與缺點,來探討看看。     大綱: 1.預擬資產管理做什麼用? 2.權重
Thumbnail
前兩篇篩選機制針對篩選指標做完整的討論,這集來針對權重計算來討論,權重計算的目的為何?另外有提到預擬資產管理規模,這個特殊方式似乎沒有在其他的高股息指數上看到,為何有此設計?最後討論此檔指數的優點與缺點,來探討看看。     大綱: 1.稅後淨利與毛利率 2.毛利率 3.區域投
Thumbnail
我們常把研究分成量化與質性兩種不同的方法(當然不止這兩種方法),其中量化分析主要在討論變數與變數的關係,而質性分析則在變數間在的互動過程與事件。因此通常在進行質性研究時,我們需要收集大量田野調查或訪談資料。做過訪談的人都知道,訪談後需要反覆的聆聽訪談錄音並將其轉化為訪談逐字稿,這是一個大工程,還好現
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
本文探討了在生活中進行持續學習的重要性,提供了一個有助於安排學習計畫的框架,並強調了機會成本和比較優勢的概念。學習項目被分為補強、卓越與機會三個分類,讀者可透過這些分類來識別自身及孩子在學習過程中的需求與資源配置。此外,如何利用外部視野和專業協助,提升學習效率和效果,也是文章的重要焦點。
剛剛結束了KPI考核與年中人才盤點與報告。在報告的過程中,董事長提了一個問題: 對於人才的判定,在專業、邏輯與態度上,哪個最重要呢? A專業: 指的是對於本質學能上的專精程度,能否承擔起工作上所需。 B邏輯: 客觀判讀並分析狀況,用系統性的思考指出問題根源並提出有效的方案。 C態度: 高承諾度
在復旦大學數學系三年級的一次會面中,有學生詢問:「你們會收怎麼樣的學生當博士生?」這個問題引發了我許多思考。綜合當時的回答,最重要的一點是:我們尋找的是擁有自己意見且有技術底氣的學生。 ▋自己意見與技術底氣 擁有自己意見且具備技術底氣的學生在現今的學術界中並不多見。這類學生不僅能夠獨立思
本篇文章介紹了一種簡單但正確的評估方法,以投資評估總分和本益比為依據,給出了公司的投資評級,並以臺積電和NVDA作為範例。文章還提到了演算法的重要性,以及執行長數學的思路。建議投資者試用這種投資策略來輔助自己的投資。
一位復旦大學數學系三年級的學生,在與我第二次見面時,問了一個重要的問題:「你們會收怎麼樣的學生當博士生?」 當時我與這個學生進行了詳細的交流,但一句話來總結,就是「有自己意見,而且有技術底氣的學生」。同時具備這兩個特質的學生,其實相當稀少。 ▋有自己意見 在台大的經驗告訴我,有自己
Thumbnail
本文探討如何科學、公正的評估候選人,適合人才資源專業人士及管理者閱讀。 評估候選人:使用量化和質化指標評估候選人的技能和文化契合度 在今日瞬息萬變的商業環境中,對企業來說,吸納並留住合適的人才是一項持續的挑戰。 比如評估潛在候選人,就是確保企業競爭力與創新能力的核心問題之一。 以下將
Thumbnail
本文探討了監督式學習、分群和相似度這幾個推薦系統算法,分別討論了它們的優點、缺點以及適用場景。這些算法在推薦系統中扮演著重要角色,並透過特徵選擇與預處理、相似度度量和鄰居的選擇等關鍵因素進行深入分析。文章最後提出在選擇推薦系統算法時應該考慮的因素,以及未來的研究方向。
Thumbnail
前兩篇篩選機制針對篩選指標做完整的討論,這篇來針對權重計算來討論,權重計算的目的為何?另外有提到預擬資產管理規模,這個特殊方式似乎沒有在其他的高股息指數上看到,為何有此設計?最後討論此檔指數的優點與缺點,來探討看看。     大綱: 1.預擬資產管理做什麼用? 2.權重
Thumbnail
前兩篇篩選機制針對篩選指標做完整的討論,這集來針對權重計算來討論,權重計算的目的為何?另外有提到預擬資產管理規模,這個特殊方式似乎沒有在其他的高股息指數上看到,為何有此設計?最後討論此檔指數的優點與缺點,來探討看看。     大綱: 1.稅後淨利與毛利率 2.毛利率 3.區域投
Thumbnail
我們常把研究分成量化與質性兩種不同的方法(當然不止這兩種方法),其中量化分析主要在討論變數與變數的關係,而質性分析則在變數間在的互動過程與事件。因此通常在進行質性研究時,我們需要收集大量田野調查或訪談資料。做過訪談的人都知道,訪談後需要反覆的聆聽訪談錄音並將其轉化為訪談逐字稿,這是一個大工程,還好現