模型解釋能力進步的代價

更新 發佈閱讀 2 分鐘

最近工作的關係,一直在學習資料科學。

分享一個今天有被震驚到的觀念:

我們傳統認知上,目標假設100分,好像付出努力或代價就有機會達到100分。

舉例來說,考試滿分是100分,若考出95分的成績。

大概意味著還有5%的知識理解不足、或作答技巧不夠熟練、或心態不好等等。

雖然5分的進步空間不多,要進步所需要付出的努力,會比考了60分要進步困難很多,不過達到滿分的機會真實地擺在眼前。

而機器學習的模型不是這樣。

假設資料統計起來,看起來約有3%的極端值解釋不了。

如果捨去這3%的極端值,解釋能力就可以大幅提升達到90%,要不要做?鐵定是要的。

回到考試分數的舉例,解釋能力90%比喻當作90分,

這個情況也就變成是說『用永遠得不到那剩下的10分作為犧牲,換來的90分分數』。

那你說,想要把3%的極端值考慮進來呢?

很抱歉,而現有的條件,解釋能力可能會下降到70%不到。

想要考慮進來又提高解釋能力的話,那可能需要:

更多的參數(知識),更好的資料整理(融會貫通),更好的心態(作答技巧之類的)等等

但你看不到範圍,有可能窮盡大量時間和成本,只能換到不起眼的進步。

所以追求解釋能力的進步,困難度完全不同於我們以往所謂『進步』的概念。

留言
avatar-img
虎斑貓的散記
6會員
12內容數
量化研究心得,社會觀察,自我反思
虎斑貓的散記的其他內容
2021/09/23
內政部與主計總處2021年統計數據顯示臺灣空屋率差距甚大,內政部數據顯示空屋率創新低,主計總處數據則顯示空屋率創新高。此差異源於兩單位對空屋定義的不同。
Thumbnail
2021/09/23
內政部與主計總處2021年統計數據顯示臺灣空屋率差距甚大,內政部數據顯示空屋率創新低,主計總處數據則顯示空屋率創新高。此差異源於兩單位對空屋定義的不同。
Thumbnail
看更多
你可能也想看
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
如何評量一個大型語言模型有學到東西? 其中一個常用指標就是Perplexity(困惑度)。由於困惑度被大量論文引用,學習CP值很高,所以寫專文介紹。
Thumbnail
如何評量一個大型語言模型有學到東西? 其中一個常用指標就是Perplexity(困惑度)。由於困惑度被大量論文引用,學習CP值很高,所以寫專文介紹。
Thumbnail
在資料科學中常可以聽到「權重」,可藉由專家經驗和機器學習取得「權重」,但他們差別是什麼?在透過演算法決定權重的想法相對盛行的現今,又如何整合兩種途徑的結果?
Thumbnail
在資料科學中常可以聽到「權重」,可藉由專家經驗和機器學習取得「權重」,但他們差別是什麼?在透過演算法決定權重的想法相對盛行的現今,又如何整合兩種途徑的結果?
Thumbnail
本文探討了大型語言模型中的特殊現象,包括頓悟現象,大模型的隱藏知識引導,以及模型越大對某些問題的理解越偏離的U型曲線。文章強調,當模型不夠理想時,我們需要更好地引導模型或了解問題的本質,而非只是增加模型的大小。
Thumbnail
本文探討了大型語言模型中的特殊現象,包括頓悟現象,大模型的隱藏知識引導,以及模型越大對某些問題的理解越偏離的U型曲線。文章強調,當模型不夠理想時,我們需要更好地引導模型或了解問題的本質,而非只是增加模型的大小。
Thumbnail
越想要精確回應的結果,就越會被問題的根本給困住。
Thumbnail
越想要精確回應的結果,就越會被問題的根本給困住。
Thumbnail
工作知識的全局觀與拆解,也能運用在知識學習上! 打造超人學習 科學打造智商10000的自學超能力 作者:xdite ,鄭伊廷 商周出版 科幻片中,拿著競爭對手的成品,然後透過逆向拆解,在重新建構一次,推出更具破壞市場的商品。(如果時間夠快的話),作者透過程式語言的學習過程,打造全棧營的實務過程,再一
Thumbnail
工作知識的全局觀與拆解,也能運用在知識學習上! 打造超人學習 科學打造智商10000的自學超能力 作者:xdite ,鄭伊廷 商周出版 科幻片中,拿著競爭對手的成品,然後透過逆向拆解,在重新建構一次,推出更具破壞市場的商品。(如果時間夠快的話),作者透過程式語言的學習過程,打造全棧營的實務過程,再一
Thumbnail
打造超人思維。作者:鄭伊廷xdite 。商周出版。 算是容易閱讀的一本好書。副標下的也很聳動-智商如何從100提升到1000。人生中95%以上的難題都可破解。 人生與職場難免遇到問題,基本多數思維是線性的,先參酌過往自己或他人經驗,然後通常就硬上了!硬上個幾次,好一點的做優化跟紀錄。差一點的開始怨嘆
Thumbnail
打造超人思維。作者:鄭伊廷xdite 。商周出版。 算是容易閱讀的一本好書。副標下的也很聳動-智商如何從100提升到1000。人生中95%以上的難題都可破解。 人生與職場難免遇到問題,基本多數思維是線性的,先參酌過往自己或他人經驗,然後通常就硬上了!硬上個幾次,好一點的做優化跟紀錄。差一點的開始怨嘆
Thumbnail
很多公司面試確實會去考這些題目,並不是為了知道你是否會解題,更多的是想知道你怎麼思考。在工作中,當我們遇到各種不同類型的問題時,是否能夠根據自身的知識、經驗去探索出最佳的解決方案,大多是面試工程師所看重的一環。
Thumbnail
很多公司面試確實會去考這些題目,並不是為了知道你是否會解題,更多的是想知道你怎麼思考。在工作中,當我們遇到各種不同類型的問題時,是否能夠根據自身的知識、經驗去探索出最佳的解決方案,大多是面試工程師所看重的一環。
Thumbnail
不知道大家對於知識價值的想法是什麼呢? 在經歷過網路知識大爆炸的衝擊之後,感覺知識好像已經被定義為毫無價值或價值偏低,歸類為隨手可得的東西。 這樣的想法,因為立場和觀點不同,很難說是對或錯。 但在我看來,知識價值變相來說,其實就是專業價值,這個部分,我想大家應該就深有所感了吧。
Thumbnail
不知道大家對於知識價值的想法是什麼呢? 在經歷過網路知識大爆炸的衝擊之後,感覺知識好像已經被定義為毫無價值或價值偏低,歸類為隨手可得的東西。 這樣的想法,因為立場和觀點不同,很難說是對或錯。 但在我看來,知識價值變相來說,其實就是專業價值,這個部分,我想大家應該就深有所感了吧。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News