我對精準度可解釋性權衡的三個思考:度量相關,模型族專屬,權衡的確存在

更新於 發佈於 閱讀時間約 8 分鐘
圖片來源:https://www.johnslots.com/en/responsible-gambling/
本文章收集與評論三個體現「精準度-可解釋性權衡 (Accuracy-Interpretability Tradeoff)」的例子。
在詐欺偵測的數據集中,本來預期要觀察到的權衡,似乎並沒有出現。這令人非常好奇這個權衡的故事,源頭是哪邊。
本文章收錄三個,對於此權衡的認知升級
  • 這個權衡,似乎是metric dependent的
  • 可解釋性的刻畫,是model class specific
  • 賭博預測,在小範圍的模型下,的確有這個權衡

思考#1:權衡的確發生在R score與平均絕對誤差上

文章提供了一個「精準度-可解釋性權衡」的實踐例子。
此文章考慮的三個模型為
  1. 線性回歸 (Linear Regression)
  2. 決策樹 (Decision Tree)
  3. 梯度提升法 (Gradient Boosting)
裡面提供的數據為
#1 線性回歸
Mean Squared Error: 19592.4703292543
R score: 0.40700134640548247
Mean Absolute Error: 103.67180228987019
#2 決策樹
Mean Squared Error: 10880.635297455
R score: 0.6706795022162286
Mean Absolute Error: 73.76311613574498
#3 梯度提升法
Mean Squared Error: 1388.8979420780786
R score: 0.9579626971080454
Mean Absolute Error: 23.81293483364058
可以看到的是,隨著模型可解釋性下降,R score與Mean Absolute Error有顯著上升。
🤔 然而,這並不代表「分類任務」也會有這個權衡。還續繼續觀察。

思考#2:廣義加性模型,似乎沒有這個權衡

文章提供對廣義加性模型(Generalized Additive Model; GAM)的可解釋性思考。
文章提供的觀點是,歸納偏誤(Inductive Bias)是可解釋模型中重要的元素。
Our results suggest that inductive bias plays a crucial role in what interpretable models learn and that tree-based GAMs represent the best balance of sparsity, fidelity and accuracy and thus appear to be the most trustworthy GAM models.
其中想權衡的三個點為
  1. Sparsity: use fewer features to make predictions 用少一點的特徵來做預測
  2. Fidelity: true patterns in the data 要能反應數據的真實模式
  3. Accuracy: 就是準確度

思考#3:解釋賭博,的確在小範圍有這個權衡

文章是要看賭博行為,需要算法可解釋性。
Section 2 discusses the related work in the application of machine learning to understand and interpret gambling behaviour. Section 5 discusses the interpretability of our empirical results, and concludes the need for further research of understanding and measuring algorithm interpretation.
同樣的邏輯,應該也可以應用到我們這裡。
可解釋性的需求,來自Responsible Gambling這個社群,需要輸出對賭博行為的知識。
As reported in [15], we polled the audience at a related presentation at the 2016 New Horizons in Responsible Gambling conference to explore the importance of knowledge extraction and algorithm interpretability.
用投票的方式,人還是喜歡可以解釋的演算法或模型。
Respondents were asked whether they would prefer a responsible gambling assessment algorithm that provided a 90% accurate assessment of problem gambling risk that they could not unpack or understand, or a model that provided a 75% accurate assessment that was fully interpretable and accountable. Only 20% chose the more accurate model, with 70% preferring to sacrifice 15 percentage points of accuracy for greater interpretability (10% were uncertain or felt it depended on the circumstances).
這邊的目標是預測有害博弈(Harmful Gambling)。也算是一種分類問題。
其使用的數據集,在上癮部門可以拿到。
Building on the work from the live action sports betting dataset available from the Division on Addiction public domain, in [12] nine supervised learning methods were assessed at identifying disordered Internet sports gamblers.
This paper focuses on knowledge extraction by using random forests and artificial neural networks and TREPAN on a new IGT dataset to not only predict, but also describe, self-excluders through knowledge extraction.
裡面比較了Random forest, Neural Network, Decision Tree. 是用預測正確率來看。其中Random forest最好。
感覺這個還是要自己做看看才知道。

而外產生的對合成數據的思考

合成數據與模擬數據還是不一樣的。
  • 合成數據是根據真實數據來訓練一個「數據集模型」,藉此生成數據
  • 模擬數據則是根據數理模型,根據隨機性機率理論,生成數據
合成數據訓練,可解釋性要如何賣?
想要弄成三個維度。現在有Fidelity, Accuracy,但不知道要怎麼「量化」可解釋性。
可能可以做Adult dataset,更原始,可能有更好的觀察?
avatar-img
4會員
23內容數
思考合成數據的各種原理,應用與效果。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
紫式講義的沙龍 的其他內容
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。
本文章分享閱讀關於可解釋性的文章後,產生的三個思考理解。 利用真實數據訓練,可解釋性與準確度的權衡,是很常聽到的現象。 研究的主題,則是去問說:「這個權衡,如果改成合成數據訓練的話,是否還是有這種現象?」
這篇文章記錄我讀超速文章術的三個思考與理解。 這本書之前有讀過,這次想到又拿來讀讀。讀完後感覺重點其實不太明顯,很多敘述性的冗余,但也還算有思想。但離目前我想寫的東西,還需做很多修改。 不過也是多看多想多想。隨意寫,讓讀的人有感覺,之後自己也會愈來愈進步,想到特殊的做法。 獨自的事實 數字
今天早上想到這個問題,就是當我要介紹一個思維工具時,很詳細的話,是到什麼內容的層級? 思考#1:工具要用起來,要讓讀者真的能參與行動,造成改變 分析最近閱讀的工具書,發現他是一種資訊導向的文獻式寫作。 其針對思維工具的關鍵字,不斷給出描述,串起各種技術細節內容。 一個工具要用起來,要親身實踐。
本文章思考最新證明的後悔界,要如何讓審稿人容易理解。 思考#1:用問題零件,讓後悔界可讀 我覺得可以用幾個分類,來把相關的Term給仔細描述。 我覺得分別從3個角度(beta, x, epsilon)出發,會讓讀者更容易消化裡面的內容。
本文章想分享給你,我在閱讀數位寫作的22條法則後,產生的3個理解與思考。 這個月的一個聚焦目標,是仔細研究數位寫作的各種技術。 數位寫作有別於一般寫作,講究以讀者的反應為優先。 你的寫作是為了自己,為了一個具體讀者,還是為了一群想像的讀者呢?
這篇文章與你分享,我閱讀合成數據文章以後,產生的三個思考與理解。
本文章分享閱讀關於可解釋性的文章後,產生的三個思考理解。 利用真實數據訓練,可解釋性與準確度的權衡,是很常聽到的現象。 研究的主題,則是去問說:「這個權衡,如果改成合成數據訓練的話,是否還是有這種現象?」
這篇文章記錄我讀超速文章術的三個思考與理解。 這本書之前有讀過,這次想到又拿來讀讀。讀完後感覺重點其實不太明顯,很多敘述性的冗余,但也還算有思想。但離目前我想寫的東西,還需做很多修改。 不過也是多看多想多想。隨意寫,讓讀的人有感覺,之後自己也會愈來愈進步,想到特殊的做法。 獨自的事實 數字
今天早上想到這個問題,就是當我要介紹一個思維工具時,很詳細的話,是到什麼內容的層級? 思考#1:工具要用起來,要讓讀者真的能參與行動,造成改變 分析最近閱讀的工具書,發現他是一種資訊導向的文獻式寫作。 其針對思維工具的關鍵字,不斷給出描述,串起各種技術細節內容。 一個工具要用起來,要親身實踐。
本文章思考最新證明的後悔界,要如何讓審稿人容易理解。 思考#1:用問題零件,讓後悔界可讀 我覺得可以用幾個分類,來把相關的Term給仔細描述。 我覺得分別從3個角度(beta, x, epsilon)出發,會讓讀者更容易消化裡面的內容。
本文章想分享給你,我在閱讀數位寫作的22條法則後,產生的3個理解與思考。 這個月的一個聚焦目標,是仔細研究數位寫作的各種技術。 數位寫作有別於一般寫作,講究以讀者的反應為優先。 你的寫作是為了自己,為了一個具體讀者,還是為了一群想像的讀者呢?
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
體育博彩的成功取決於對賠率的理解和投注策略的靈活應用。賠率反映了比賽結果的可能性,影響投注風險和回報。透過數據分析、AI模型和市場賠率的變動來尋找投注機會,有助於提高贏率。避免過度依賴熱門賠率或情感投注是關鍵,成功的投注者會根據不同情境使用策略,如對沖或單一投注,並通過學習實際案例來調整自己的方法。
Thumbnail
  會執行程式交易通常都有自己手單交易過的人,容易陷入自己主觀判斷進而影響量化交易,是因為來自於自己相信自己的判斷而非程式的進出場依據所造成,所以當有經驗的操作者要切入量化交易很容易犯這方面的問題,反而是從未進行交易過的,直接進行量化交易的小白是最適合,因為只能相信系統的買賣進出交易,反而可以有紀律
Thumbnail
從機率的角度思考投資的重要性,以及如何避免倖存者偏差和過度樂觀的問題。 投資是廣義的機率遊戲,重要的是決策品質,而非特定事件的結果 優秀的投資人永遠都從「機率」的角度思考問題,需要不斷優化與再執行。
本篇文章介紹了一種簡單但正確的評估方法,以投資評估總分和本益比為依據,給出了公司的投資評級,並以臺積電和NVDA作為範例。文章還提到了演算法的重要性,以及執行長數學的思路。建議投資者試用這種投資策略來輔助自己的投資。
這篇文章介紹瞭如何使用sigmoid函數來解決函數過於簡單導致的模型偏差問題,並透過尋找函數和參數來逼近precise linear curve。另外,也講述瞭如何尋找讓損失函數最小的參數以及使用batch和反覆進行Sigmoid的方法。
Thumbnail
本文介紹瞭如何利用正報酬長尾和獲利曲線正偏兩種方式來設計交易策略,以達到正期望值。同時提到了在停損停利設計上的一些要點,以及如何透過回測資料進行調整。
Thumbnail
以下內容是我閱讀Probabilistic Graphical Model, Koller 2009一書的讀書筆記,未來將不定期新增內容,此技術屬AI人工智慧範疇。 1.2 Structured Probabilistic Models 既然要融入Uncertainty和Probability
Thumbnail
當更多選擇等於更多優勢的同時,是否我們應該著手的是為自己創造更多選擇,並減少對手的選擇。
Thumbnail
每個人心中都應該要內建三種對錯觀,法學家、商人跟經濟學家。學好經濟學,會發現我們都不可能是完全對的。人生三層智慧:博弈、定力、選擇。人脈的本質是給予價值、平等交換。
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
體育博彩的成功取決於對賠率的理解和投注策略的靈活應用。賠率反映了比賽結果的可能性,影響投注風險和回報。透過數據分析、AI模型和市場賠率的變動來尋找投注機會,有助於提高贏率。避免過度依賴熱門賠率或情感投注是關鍵,成功的投注者會根據不同情境使用策略,如對沖或單一投注,並通過學習實際案例來調整自己的方法。
Thumbnail
  會執行程式交易通常都有自己手單交易過的人,容易陷入自己主觀判斷進而影響量化交易,是因為來自於自己相信自己的判斷而非程式的進出場依據所造成,所以當有經驗的操作者要切入量化交易很容易犯這方面的問題,反而是從未進行交易過的,直接進行量化交易的小白是最適合,因為只能相信系統的買賣進出交易,反而可以有紀律
Thumbnail
從機率的角度思考投資的重要性,以及如何避免倖存者偏差和過度樂觀的問題。 投資是廣義的機率遊戲,重要的是決策品質,而非特定事件的結果 優秀的投資人永遠都從「機率」的角度思考問題,需要不斷優化與再執行。
本篇文章介紹了一種簡單但正確的評估方法,以投資評估總分和本益比為依據,給出了公司的投資評級,並以臺積電和NVDA作為範例。文章還提到了演算法的重要性,以及執行長數學的思路。建議投資者試用這種投資策略來輔助自己的投資。
這篇文章介紹瞭如何使用sigmoid函數來解決函數過於簡單導致的模型偏差問題,並透過尋找函數和參數來逼近precise linear curve。另外,也講述瞭如何尋找讓損失函數最小的參數以及使用batch和反覆進行Sigmoid的方法。
Thumbnail
本文介紹瞭如何利用正報酬長尾和獲利曲線正偏兩種方式來設計交易策略,以達到正期望值。同時提到了在停損停利設計上的一些要點,以及如何透過回測資料進行調整。
Thumbnail
以下內容是我閱讀Probabilistic Graphical Model, Koller 2009一書的讀書筆記,未來將不定期新增內容,此技術屬AI人工智慧範疇。 1.2 Structured Probabilistic Models 既然要融入Uncertainty和Probability
Thumbnail
當更多選擇等於更多優勢的同時,是否我們應該著手的是為自己創造更多選擇,並減少對手的選擇。
Thumbnail
每個人心中都應該要內建三種對錯觀,法學家、商人跟經濟學家。學好經濟學,會發現我們都不可能是完全對的。人生三層智慧:博弈、定力、選擇。人脈的本質是給予價值、平等交換。