我對精準度可解釋性權衡的三個思考：度量相關，模型族專屬，權衡的確存在

紫式講義

2022/08/04閱讀時間約 8 分鐘

圖片來源：https://www.johnslots.com/en/responsible-gambling/

本文章收集與評論三個體現「精準度-可解釋性權衡 (Accuracy-Interpretability Tradeoff)」的例子。

在詐欺偵測的數據集中，本來預期要觀察到的權衡，似乎並沒有出現。這令人非常好奇這個權衡的故事，源頭是哪邊。

本文章收錄三個，對於此權衡的認知升級

這個權衡，似乎是metric dependent的
可解釋性的刻畫，是model class specific
賭博預測，在小範圍的模型下，的確有這個權衡

思考#1：權衡的確發生在R score與平均絕對誤差上

此文章提供了一個「精準度-可解釋性權衡」的實踐例子。

此文章考慮的三個模型為

線性回歸 (Linear Regression)
決策樹 (Decision Tree)
梯度提升法 (Gradient Boosting)

裡面提供的數據為

#1 線性回歸
Mean Squared Error: 19592.4703292543
R score: 0.40700134640548247
Mean Absolute Error: 103.67180228987019
#2 決策樹
Mean Squared Error: 10880.635297455
R score: 0.6706795022162286
Mean Absolute Error: 73.76311613574498
#3 梯度提升法
Mean Squared Error: 1388.8979420780786
R score: 0.9579626971080454
Mean Absolute Error: 23.81293483364058

可以看到的是，隨著模型可解釋性下降，R score與Mean Absolute Error有顯著上升。

🤔 然而，這並不代表「分類任務」也會有這個權衡。還續繼續觀察。

思考#2：廣義加性模型，似乎沒有這個權衡

此文章提供對廣義加性模型(Generalized Additive Model; GAM)的可解釋性思考。

文章提供的觀點是，歸納偏誤(Inductive Bias)是可解釋模型中重要的元素。

Our results suggest that inductive bias plays a crucial role in what interpretable models learn and that tree-based GAMs represent the best balance of sparsity, fidelity and accuracy and thus appear to be the most trustworthy GAM models.

其中想權衡的三個點為

Sparsity: use fewer features to make predictions 用少一點的特徵來做預測
Fidelity: true patterns in the data 要能反應數據的真實模式
Accuracy: 就是準確度

思考#3：解釋賭博，的確在小範圍有這個權衡

此文章是要看賭博行為，需要算法可解釋性。

Section 2 discusses the related work in the application of machine learning to understand and interpret gambling behaviour. Section 5 discusses the interpretability of our empirical results, and concludes the need for further research of understanding and measuring algorithm interpretation.

同樣的邏輯，應該也可以應用到我們這裡。

可解釋性的需求，來自Responsible Gambling這個社群，需要輸出對賭博行為的知識。

As reported in [15], we polled the audience at a related presentation at the 2016 New Horizons in Responsible Gambling conference to explore the importance of knowledge extraction and algorithm interpretability.

用投票的方式，人還是喜歡可以解釋的演算法或模型。

Respondents were asked whether they would prefer a responsible gambling assessment algorithm that provided a 90% accurate assessment of problem gambling risk that they could not unpack or understand, or a model that provided a 75% accurate assessment that was fully interpretable and accountable. Only 20% chose the more accurate model, with 70% preferring to sacrifice 15 percentage points of accuracy for greater interpretability (10% were uncertain or felt it depended on the circumstances).

這邊的目標是預測有害博弈(Harmful Gambling)。也算是一種分類問題。

其使用的數據集，在上癮部門可以拿到。

Building on the work from the live action sports betting dataset available from the Division on Addiction public domain, in [12] nine supervised learning methods were assessed at identifying disordered Internet sports gamblers.

This paper focuses on knowledge extraction by using random forests and artificial neural networks and TREPAN on a new IGT dataset to not only predict, but also describe, self-excluders through knowledge extraction.

裡面比較了Random forest, Neural Network, Decision Tree. 是用預測正確率來看。其中Random forest最好。

感覺這個還是要自己做看看才知道。

而外產生的對合成數據的思考

合成數據與模擬數據還是不一樣的。

合成數據是根據真實數據來訓練一個「數據集模型」，藉此生成數據
模擬數據則是根據數理模型，根據隨機性機率理論，生成數據

合成數據訓練，可解釋性要如何賣？

想要弄成三個維度。現在有Fidelity, Accuracy，但不知道要怎麼「量化」可解釋性。

可能可以做Adult dataset，更原始，可能有更好的觀察？

紫式講義的沙龍

4會員

23內容數

思考合成數據的各種原理，應用與效果。

留言0

查看全部

發表第一個留言支持創作者！

紫式講義的沙龍的其他內容

我對合成數據本質的三個思考：可信任元素，任務導向生成模型，基準真相。

這篇文章與你分享，我閱讀合成數據文章以後，產生的三個思考與理解。

#合成數據

我對可解釋性的三個思考：可解釋資訊，合規與風險權衡，詐欺機率分數

本文章分享閱讀關於可解釋性的文章後，產生的三個思考理解。利用真實數據訓練，可解釋性與準確度的權衡，是很常聽到的現象。研究的主題，則是去問說：「這個權衡，如果改成合成數據訓練的話，是否還是有這種現象？」

我讀超速文章術的三個思考：文章就是素材，素材就是個人，素材是從葉子長出的樹枝

這篇文章記錄我讀超速文章術的三個思考與理解。這本書之前有讀過，這次想到又拿來讀讀。讀完後感覺重點其實不太明顯，很多敘述性的冗余，但也還算有思想。但離目前我想寫的東西，還需做很多修改。不過也是多看多想多想。隨意寫，讓讀的人有感覺，之後自己也會愈來愈進步，想到特殊的做法。獨自的事實數字

我對工具內容寫作策略的三個思考：可改變行動，有肉有評價有總結，目的內容步驟

今天早上想到這個問題，就是當我要介紹一個思維工具時，很詳細的話，是到什麼內容的層級？思考#1：工具要用起來，要讓讀者真的能參與行動，造成改變分析最近閱讀的工具書，發現他是一種資訊導向的文獻式寫作。其針對思維工具的關鍵字，不斷給出描述，串起各種技術細節內容。一個工具要用起來，要親身實踐。

#思維工具 #工具寫作

我對OORMLP後悔界的一個思考：用問題零件，讓後悔界可讀

本文章思考最新證明的後悔界，要如何讓審稿人容易理解。思考#1：用問題零件，讓後悔界可讀我覺得可以用幾個分類，來把相關的Term給仔細描述。我覺得分別從3個角度(beta, x, epsilon)出發，會讓讀者更容易消化裡面的內容。

我對數位寫作的三個思考：社交寫作，優勢範疇，內容平台。

本文章想分享給你，我在閱讀數位寫作的22條法則後，產生的3個理解與思考。這個月的一個聚焦目標，是仔細研究數位寫作的各種技術。數位寫作有別於一般寫作，講究以讀者的反應為優先。你的寫作是為了自己，為了一個具體讀者，還是為了一群想像的讀者呢？

#數位寫作 #優勢類別 #內容平台

我對合成數據本質的三個思考：可信任元素，任務導向生成模型，基準真相。

這篇文章與你分享，我閱讀合成數據文章以後，產生的三個思考與理解。

#合成數據

我對可解釋性的三個思考：可解釋資訊，合規與風險權衡，詐欺機率分數

我讀超速文章術的三個思考：文章就是素材，素材就是個人，素材是從葉子長出的樹枝

我對工具內容寫作策略的三個思考：可改變行動，有肉有評價有總結，目的內容步驟

#思維工具 #工具寫作

我對OORMLP後悔界的一個思考：用問題零件，讓後悔界可讀

我對數位寫作的三個思考：社交寫作，優勢範疇，內容平台。

#數位寫作 #優勢類別 #內容平台

你可能也想看

Google News 追蹤

方格子 vocus 官方沙龍

2024/10/21

「天天秋嗨嗨」：vocus 秋季徵文，五大主題 & 獎品登場！

這個秋，Chill 嗨嗨！穿搭美美去賞楓，裝備款款去露營⋯⋯你的秋天怎麼過？秋日 To Do List 等你分享！秋季全站徵文，我們準備了五個創作主題，參賽還有機會獲得「火烤兩用鍋」，一起來看看如何參加吧～

#天天秋嗨嗨 #秋季旅遊 #秋季穿搭

MimiVsJames的美股投資分享

2024/11/03

美國大選『終局之戰』（Endgame）即將展開，美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）

美國總統大選只剩下三天，我們觀察一整週民調與金融市場的變化（包含賭局），到本週五下午3:00前為止，誰是美國總統幾乎大概可以猜到60-70%的機率，本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變

#美股 #美國大選 #投資理財

矮袋鼠律師的沙龍

2024/11/03

如果這個世界有神，那祂一定姓李名相赫｜矮袋鼠律師

Faker昨天真的太扯了，中國主播王多多點評的話更是精妙，分享給各位王多多的點評「Faker是我們的處境，他是LPL永遠繞不開的一個人和話題，所以我們特別渴望在決賽跟他相遇，去直面我們的處境。我們曾經稱他為最高的山，最長的河，以為山海就是盡頭，可是Faker用他28歲的年齡...

#Faker #電競 #運動

三十好擠

2024/05/05

我曾經對同事做的事蹟

是這樣的，我先承認我是個瘋狂又我行我素的同事暨主管，從業多年很多點點滴滴，會有好情緒跟壞情緒及壓力無法紓解的時候，我總是喜歡在生活裡找那麼點樂趣，也幸好我的同事們願意陪我一起創造回憶。事件一我有個做事認真又有時ㄎㄧㄤ的新人同事，鄰近她生日時我決定給她一個驚喜，我要幫她做一台假螢幕，首先我去買

#長照 #有趣生活 #惡搞

這裡是曦粼的地盤！

2024/01/25

曦粼碎碎唸1130125：頂著彷彿針對駕駛的交通法規，我依然得膽戰心驚的每天通勤...

身為一個機車騎士，我最近遇上一些比機車騎士更機車的人事物，導致我很想跳下機車，痛毆他們一頓...

#曦粼碎碎唸 #通勤族的悲傷 #路權問題

沈溺在經典閱讀中的 John Lin

2024/01/07

怎樣的文章，值得讀者付費閱讀？兼談我對J Premium經營的期許

J Premium正式開跑，請大家來見證我們上台挨打的歷史時刻吧！

#vocusPremium #歷史 #中國文化

DUO天使塔羅占卜的沙龍

2023/09/25

「免費個人私訊主題塔羅占卜」2. 已經分手了！對方會跟我復合嗎？

有別於很大眾很普遍的大眾占卜，老師會傾向個別占卜服務，因為除了隱私之外，重點是這樣可以才能讓大家明白自己的問題要如何面對。所以要參加的人可以至instagram：duotarot 私訊老師，收到訊息最慢一個星期內會回覆您的問題。如超過一個星期記得提醒喔！然後說明自己是從方格子看到活動資訊，然

#復合 #分手

電視兒童可莉絲塔的沙龍

2023/08/14

絲塔看電視｛安樂傳｝21-25｜我曾經對一名叫任安樂的女子動心，但我這一世都會護著帝梓元

絲塔從小就很愛看電視，沒錯我不是出生在喝奶配平板的年代，而是經歷過胖屁股電視跟電腦的人，劇看完了看綜藝看完了看動漫，無所不看，總稱看電視，也當作懷念不停看電視的小時候

#安樂傳 #帝梓元 #任安樂

Ferdinand Tsai的沙龍

2022/10/02

輕小說「曾經對我造成過精神創傷的女性們又開始關注我，但可惜的是為時已晚」御堂ユラギ2022校園戀愛新作

由OVERLAP文庫推出的校園戀愛輕小說「曾經對我造成過精神創傷的女性們又開始關注我，但可惜的是為時已晚」是作家御堂ユラギ執筆創作、畫師緜繪製插畫的作品，Web版於2020年7月開始在成為小說家吧網站上開始連載，並於2022年4月正式出版文庫版第1卷，其中劇情大約對應Web版前20話，但有明顯修改，

#曾經對我造成過精神創傷的女性們 #御堂ユラギ #OVERLAP文庫