AI 的快速發展,顛覆了各個產業的發展,ChatGPT 的出現,加快了作家寫作的速度,加快了工程師寫程式的速度,世界正在快速的改變。
許多人開始探究自己的工作會不會被 AI 取代,身為資料領域的工作者,我也開始在思考,當 AI 的能力不斷進化且遠遠超過人類時,在我的工作中有哪些任務交給 AI 會更有效率?哪些任務仍然需要人類去執行?
Data Scientist 是一個比較模糊的職位名稱,包含的任務大致分為以下 3 種
數據分析
我認爲做數據分析最重要的能力是,結合商業與產品思維,提供深入的數據見解,並推動數據影響力,在剛開始數據分析工作時,許多人會專注在學習 SQL, Python, 視覺化工具等等,現在 ChatGPT 就可以提供你分析需要的 SQL 跟 Python 程式碼,甚至上傳一個 Excel 檔案,ChatGPT 就能產生數據圖表,也有許多 no-code 分析工具出現,未來 AI 高機率會自動產生分析的結果,我們會將心力放在解讀數據,結合用戶心理、產品思維、商業思考等等多個面向來解釋數據的變化,並且回到人與人的溝通,根據數據分析的結果去影響公司與產品的決策。
數據工程
最重要的目標是建立一個穩定、高效且安全的數據基礎設施,提供數據進行後續的應用。除了常見的建立 data-pipeline,將自動化資料處理過程,還經常會使用到雲端服務、資料庫、資料倉儲等等。
未來,想像每間公司都能根據自己的資料格式與型態訓練一個寫 code 的模型,能夠自動化完成資料存取與轉換等等工作,用 AI 幫助我們建立 data-pipeline,未來的數據工程將更加專注在了解整個系統的運作、不同服務間的交互,並且規劃可規模化的數據儲存與運算架構,提供 AI 應用所需要的計算資源,未來的數據工程師也許更像是數據架構師。
機器學習
機器學習的任務,大致分為研究與應用兩種。研究任務需要投入大量的時間與資金支持,由於訓練的數據量級將大大影響模型成效,將來最先進的模型研究也許只會集中在 FAAMG 等級的大公司,才能負擔得起高昂的模型開發成本。另一類則是 AI 應用,由於 AI 運算成本高,例如生成一張圖片的能耗大約等於將一隻手機充滿電的能量,除了要針對 AI 使用場景選擇合適的算法,還需要權衡 AI 的使用成本與其商業價值之間的平衡。此外,還需要考慮 AI 使用者的心理,由於 AI 的運作過程常被形容為黑盒子,其決策過程不透明,如何提高模型的可解釋性已取得用戶信任變得尤為重要。