要解決問題,就別把年月日放在長條圖的橫軸了吧

閱讀時間約 5 分鐘

離開學術環境,進入到產業界之後,最近最有體會的事情有兩個。

學界vs業界

第一點是在製作簡報,整理資料的時候,不需要書寫太多的論述與說明。第二點是在製作圖表的時候,往往看到很多橫軸為時間的圖,不論是by月、日或年,而且圖上的資料標籤相當多。

有關第一點我目前還在調適當中,如果我寫太多字,說明太冗長詳盡,往往被從中截斷或者又會再被重新排列組合簡化內容。而當我自己試著簡化我想要表達的內容時,又可能因為我所簡化的文意不合同事長官的慣用語而產生誤解。不過這也還算是正在磨合當中,也需要長時間的工作默契培養。

而有關第二點,橫軸為時間軸的疑慮,我想要特別寫文章紀錄探討一番。

作帳方便=管理效率提升?

當橫軸為時間軸的好處

可以理解當我們把長條圖或折線圖的橫軸設定為時間時,不論是年、月、日,都能夠看出時間上產生的變化,尤其若涉及金流,也能看得見金流上面產生的變化,藉此review隨著時間軸公司營運狀況並且在未來進行調整。

依照時間軸所呈現的數據,能告訴我們過去、現在的資訊,甚至若數據展現出某種趨勢的話,也能因此告訴我們未來的預測。對於決策者而言,能從圖中讀到過去及現在的狀況,藉此決定要延續做法還是改變策略。

然而,「時間」是個恆常的存在,我的意思是,時間的流動在大部分的情況下並不會影響公司內產出的任何東西。除非產品或服務會因為季節,天氣,室外溫濕度等等時間造成的因素而有所變化,否則,時間並不會被認為是一個「變項」,它並不是個variable 或factor。

只看時間軸上的變化會忽略的事

在做學術研究時,沒有需要管理「帳」的問題,所以幾乎不可能會用時間軸來review實驗室做了多少實驗,也不會review單一實驗內那些實驗結果隨著時間的變化,因為如果當時間(包含間接所產生的因素)本身不會影響到實驗本身的時候,那不會是一個需要考慮的點。

如果要尋找問題的解決方案,挖掘資料背後所反映出的問題,我們還是得去從其他可供調整的項目,也就是真正的變項來進行變項及我們所想要的結果變項之間的關係探討。

又或者當我們遇到時間軸上的變化沒有辦法顯現出任何趨勢的時候,因為在二維的圖面上我們只能呈現單一變項與時間軸的關係,但實際上那個單一變項是同時有多個項目的合計。光是看時間軸所展現的圖,在沒有辦法呈現趨勢的時候,只會徒增管理者的慌張與困擾,並沒有辦法從圖中得到決策的依據,因為數據全部都被混合在內。

案例說明

raw-image

以這張圖為例,縱軸為產量,橫軸為月份,這裡呈現了1-12月整年的資料。A和B分別是兩種不同的產品。

如果我們只看黃色的合計,我們能得到的訊息是4月份和年底相較於整體,產量都比較低,但是這兩次產量降低的原因相同嗎?

這時,我們第一個反應確實就是應該要分不同的產品來探討,所以應該也要把其他產品線的資訊都列出來。

所以當我們看到A、B兩個產品的資料之後我們發現,大趨勢和B產品線類似,可是A產品常常呈現和大趨勢相反的走向。而且,雖然大趨勢和B產品趨勢大致吻合,但4月底的低谷,卻是A產品造成的。

知道了趨勢,然後呢?

接著,就進入到找問題的階段了,也許這時候就不是管理者的煩惱,而是背後的工程團隊、開發團隊要去解決問題地方。而解決問題時,就先放棄時間軸為橫軸的思考邏輯。

這時候就開始來思考可以動的變項(或參數)有哪些。

1.訂單量的多寡

2.機器的參數

3.原料的投入

4.人為因素

等等各種原因,這時候不同的團隊也會從不同的地方來著手,例如工程相關的團隊沒辦法改變訂單多寡,但是關於原料以及機器的調整則是可控的,那麼就可以透過這些相關的變項來調整產品的產量。

raw-image

這裡簡單用AB兩個參數來解釋,假設這兩個參數都分別可以調整成高或低,那麼可以繪製出如上圖的圖。在不同參數高低的配置之下所產生的產量的變化圖。

從圖中我們可以看到,參數A的調整不太會影響產量,但是當參數B高且參數A高的時候,才會有較大產量。以ANOVA的術語來說,這就是有交互作用的產生,所以必須同時考量這兩個變項。

現實資料維度更大更複雜

以上只透過非常簡單的例子來說明,但實際上不論是在做研究還是在產業界中的真實問題,往往接觸到的資料維度相當龐大,也就是變項非常多(參數非常多)。

所以光只是用ANOVA會面臨侷限,用多元迴歸也會導致多項式過長,這時就會出現機器學習等AI介入的空間。

不過今天這篇文章主要在分享只用時間軸為X軸的時候,可能會忽略的事情,因此先不討論如何用機器學習等AI模型處理高維度的資料。

同時,透過這篇文章也一面在思考,如果決策者只有從時間的推移看到最終結論的時候,是不是非常容易形成決策的偏誤。不過有時工程師團隊又少有足夠的時間說明整個分析架構,或者,為了服膺於算帳的需求,把大量時間投入於適合製作財務報告的報告,那麼也會影響整個資料分析。畢竟,以時間的推移來計算資料,直觀又好處理,但若是真要透過資料來尋找問題解決方式,還必須花大量的時間清洗資料,做前處理,特徵工程,選擇並評估模型。高維度(超多變項)的處理也會因為做了很多資料處理變得費時(對資料分析人員而言)而難以理解(對決策者而言)。

不過,我想,工作的問題的核心,是溝通問題,在資料分析工程以及決策者之間,也需要磨合並且溝通理解,甚至這中間再出現一位專責轉譯技術語言的角色也不是奇怪的事。

對於我自身而言,不論是硬技能還是軟技能,也都還有很多需要繼續學習的地方。


高中時候夢想成為一位「文人」,至今依舊。雜食性熱愛學習,念過中文系、心理所、資訊所。古有六藝:禮樂射御書數。願以文字為核心,建立我的六藝。這是我的沙龍,包含文學、心理學、AI、資訊工程,還有很多雜七雜八。透過書寫,我想要持續成長,讓今天的自己比昨天更好,散發正能量。E-mail: [email protected]
留言0
查看全部
發表第一個留言支持創作者!