更新於 2023/10/27閱讀時間約 6 分鐘

【專訪天下數位敘事組實習生】曾子軒(下):必備能力有哪些?「資料新聞的門檻在降低」

本篇重點:
  • 資料新聞必備的能力有哪些?是否一定要懂程式語言?
  • 如何搜集資料?網路爬蟲的法律紅線
  • 初學者可能遇見哪些問題?怎麼有效解決?
  • 資料新聞業界最缺什麼樣的人才?一些給後輩的建議
《聊聊資料新聞吧》Podcast的第三集,與上一集同樣邀請到《天下雜誌》編輯部數位敘事組實習生、臺大新聞研究所學生的曾子軒。在這一集裡,子軒將與我們聊聊他在新聞所擔任R語言課程助教時的經驗,探討一個初學者要成為資料新聞記者該具備的基本能力、實務認知及最常遇見的困境與應對方法。
曾子軒在《聊聊資料新聞吧》與主持人暢談自己對初學者困境的理解與觀察。(攝影/Aqua)
曾子軒在《聊聊資料新聞吧》與主持人暢談自己對初學者困境的理解與觀察。(攝影/Aqua)

資料新聞的基礎能力

談及資料新聞記者必備的能力,曾子軒認為,資料記者、數據記者最基本的身份還是記者,因此諸如採訪、寫作等新聞實務能力都是必備的,這樣才能把一篇新聞報導完整產製出來。
至於產製資料新聞的重要能力,主要包含輸入、輸出兩大面向。輸入面包含搜集資料與處理資料。資料分為很多種,一種是直接從公部門下載開放的CSB,這種資料可以直接用excel處理。另外有一種是網路爬蟲,由於從網路上爬下來的資料是雜亂的,我們需要將雜亂的資料彙整成趨勢,在這部分通常會使用R、Python、JavaScript。只要能把資料整理清楚,無論使用哪一種程式語言都殊途同歸。
其次輸出面則是資料的視覺化等網頁技術。曾子軒提及,有些人專注於如何把資料更好地呈現出來,因此學習前端的網頁技術,例如繪製動態圖表;有些人則會培養特定的記者線,諸如政治、社會、教育等,主要以記者本身的專長,加上資料的輔佐以完成一篇有深度的報導。
資料查詢管道可參考【聊聊資源吧】學習資料新聞不可不知的社群平台

一定要懂程式嗎?

是否一定要懂程式才能產製資料新聞?曾子軒說,這取決於新聞組織的運作模式。如果身處於比較小的媒體組織,一般來說,會期望記者具備從搜集資料到產製報導一條龍獨立完成的能力;但如果在有較多分工、相對較大的組織內,因為有其他合作夥伴,在產製流程中就可以專注在特定領域,或者也可以使用Google Spreadsheet、Excel等工具簡單化操作資料視覺化。
現在因為有愈來愈多的新聞媒體會使用外部工具,供記者更簡易地視覺化手頭上的資料,因此記者就算不會寫程式,有清整資料的能力也能在資料新聞上有所發揮。總體而言,資料新聞的門檻是在降低的,最關鍵的是記者要思考怎麼寫、怎樣能更好地呈現資料。

如何搜集資料?網路爬蟲的法律紅線

在過去的工作經驗中,曾子軒曾負責爬梳「嘖嘖」以及「貝殼放大」平台十年來的募資案趨勢。和公家機關開放的統計資料不同,這類與營利機構有關的資料需要自己想辦法去搜集。如果有外部調研機構,可以使用一些外部的市場調查、產業報告等;如果沒有,就需要自己想辦法去搜集,比如從網頁的趨勢去獲取資料,也就需要使用爬蟲的技術。
關於網路爬蟲是否可能踩到法律紅線,曾子軒表示,過去的老闆、老師都會強調,爬蟲時需要確定沒有侵犯架設網站者的權益。如果使用不正當的方式造成網站負擔,可能就會有法律問題。例如為了求快,一秒鐘爬了很多頁,影響到伺服器的運作。因此需要注意爬蟲的速度、時間,做正當的使用者。

初學者從哪裡開始?R語言容易嗎?

對於初學的、希望往資料新聞業發展的學生,曾子軒建議,一開始從數值資料、公部門的資料下手,因為公部門的資料通常穩定更新、可以往回推的時間較長,數值資料也較好處理。如果該資料公部門沒有公布或無法下載,也可以寫信跟公部門反應,因為政府有義務回應人民對資料公開的要求。等技術上更進步之後,則可以開始挑戰爬蟲和從其他管道取得資料,同樣可以試著寫信尋求相關資料的公布。
曾子軒目前在台大新聞所擔任R課程的助教,觀察到許多剛開始學習R語言的同學們會感到懼怕,因為對程式語言的未知、數理、冰冷感到無所適從。但如果能有明確的目標,先有某個想要打造、學習的東西(例如圖表),再回頭對應技術,學習起來就會比較容易。以曾子軒為例,他就是因為看到一則網路上與選舉相關的作品而受到啟發,沒有放棄,學習了將近一年就對R語言稍微上手了。因此對於初學者來說,尋找自己學習的契機、動力,是很重要的。

初學者最常遇見什麼問題?

作為台大新聞所R課程的助教,曾子軒平時設計的教材、作業都讓同學們能更有方向掌握R語言。他表示,初學者最大的遇見的問題就是【挫折感】很重,因為遇到的一個問題背後牽連的東西可能非常廣,上網查詢問題,也看不懂其他人的解答。這是最吃學習動機的地方,需要初學者們不排斥問題、持續地練習,認知到R是個好用的工具,能讓工作更有效率,會更容易撐過初學最困難的幾週。

資料新聞最缺的人才

目前在大多媒體裡,都有相應的人手會Python、R等程式語言。而新聞媒體徵才時,大多會希望資料新聞記者具備記者原有的專業,當然可以處理一些資料,能直接上手是最好的。
媒體老闆一般還是覺得記者能力是最重要的。因此如果沒有很擅長程式語言,但對數據有基本的理解、知其運作方式,也有利於與相關部門的合作與報導模式的發想。專業技術部份,等進入媒體,還可以慢慢接觸。總體而言,只要願意嘗試、摸索相關技術,大部分都是願意接受新人的。

沒有新聞點、資料來源不準怎麼辦?

在整理資料時,我們可能發現資料顯現的結果不如預期的有新聞點。對此曾子軒有兩個建議,一是很直覺的放棄這個題目,因為新聞寫作不能無中生有,沒有就沒有。就算先前花了很多時間爬梳資料,但沒有現象就沒辦法寫。
第二是思考其他角度、搜尋其他資料,例如有些公部門可能只填寫了有代表性的資料,也許還有其他角度的資料可以使用。另外也可以找相關專家訪問,了解資料為何沒有現象,及此無現象背後是否由另一個原因所導致?如果有,那也是可以持續挖掘的點。
曾子軒表示,一般新聞記者同樣也要先初訪,才能確定報導的走向,只是資料新聞初訪的對象是資料,後期的工作流程與一般新聞是相似的。
另一個常見的困境是,我們不確定資料來源的準確度,或是面向是否太過單一。在這個問題上,最重要的是思考什麼樣的資料能反映現實,例如公部門的資料可能只有單一面向,建議可以從多個角度搜集資料,不依賴單一來源,並多加訪問相關人、該領域的第一線。資料在報導內可以作為很好的輔助,但也不要完全依賴它。

給後輩的建議

對文組背景的初學者來說,比較困難的就是如何掌握程式語言,雖然大家都從零開始學,但初學時還是會感到恐懼,需要恆心克服;而對於數理背景的同學而言,難點就在於如何找出新聞點,這也是子軒個人最常遇到的問題。
子軒建議,要做出好的資料新聞,新聞點、資料兩者都不能偏廢。每個人都有自己擅長的領域,但處在原本的舒適圈做自己習慣的工作很難進步。因此在學習資料新聞的路上,要保持好奇心和對新聞的敏銳度,知道讀者在乎什麼,往前走。
分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.