最近工作的關係,一直在學習資料科學。
分享一個今天有被震驚到的觀念:
我們傳統認知上,目標假設100分,好像付出努力或代價就有機會達到100分。
舉例來說,考試滿分是100分,若考出95分的成績。
大概意味著還有5%的知識理解不足、或作答技巧不夠熟練、或心態不好等等。
雖然5分的進步空間不多,要進步所需要付出的努力,會比考了60分要進步困難很多,不過達到滿分的機會真實地擺在眼前。
而機器學習的模型不是這樣。
假設資料統計起來,看起來約有3%的極端值解釋不了。
如果捨去這3%的極端值,解釋能力就可以大幅提升達到90%,要不要做?鐵定是要的。
回到考試分數的舉例,解釋能力90%比喻當作90分,
這個情況也就變成是說『用永遠得不到那剩下的10分作為犧牲,換來的90分分數』。
那你說,想要把3%的極端值考慮進來呢?
很抱歉,而現有的條件,解釋能力可能會下降到70%不到。
想要考慮進來又提高解釋能力的話,那可能需要:
更多的參數(知識),更好的資料整理(融會貫通),更好的心態(作答技巧之類的)等等
但你看不到範圍,有可能窮盡大量時間和成本,只能換到不起眼的進步。
所以追求解釋能力的進步,困難度完全不同於我們以往所謂『進步』的概念。