人工智慧(AI)是當前最熱門的議題之一。然而,每當企業討論如何進行AI相關專案時,往往忽略了資料的重要性。大多數企業的資料並非乾淨或完整,因此在導入AI時,需要花費大量的精力來清理和準備資料。不過,管理層通常並不理解這個問題,認為只要將資料丟進去,就可以立即實現AI化。
我想用這張圖片作為開場。人工智慧看起來很神奇,但真正驅動它的力量是正確的資料。只有在準確且乾淨的資料基礎上,AI才能展現其強大的能力,否則只會產生垃圾結果。這就像擁有一輛超跑卻沒有汽油,它依然無法行駛。在這篇文章中,我們將探討資料工程的重要性,以及它如何為AI提供動力。
沒有正確的資料,就沒有人工智慧。AI應用前的資料處理可以分為四個步驟:- 資料準備
- AI模型構建
- AI模型訓練
- 模型部署
AI前的資料處理方法完全可以按照這四個步驟進行。而且,這並不是一次性的工作。隨著資料的變化,這些AI模型需要不斷更新和訓練。根據報導,大約80%的人工智慧專案時間都花在了資料處理和清洗上。只有在機器學習中使用乾淨且高質量的資料,我們才能確保所構建的模型能夠產生有價值的結果。
在AI應用中,資料收集和預處理是至關重要的步驟。首先,我們需要確定資料的來源,這些來源可以是內部系統、外部API、公開資料集等。接著,我們需要選擇合適的資料收集方法,確保資料的完整性和準確性。
資料預處理技術包括資料清洗、缺失值填補、資料標準化等,這些步驟能夠提升資料的質量。資料特徵工程則是從原始資料中提取有用的特徵,這對於模型的性能至關重要。最後,資料質量保證是確保所有這些步驟都能夠產生高質量的資料,從而為AI模型的訓練提供可靠的基礎。
資料準備的四個步驟,從接收來自不同來源的資料開始,到最終確保資料質量為止,每一個步驟都決定了我們提供給AI訓練的資料是否可靠。因此,在實施AI的公司中,大部分時間都花在了「訓練集」上。資料工程對於AI應用至關重要。
為什麼說準備資料階段是具有挑戰性的?
準備資料是最複雜且耗時的工作。如果我們想完成這些步驟,就需要將多個角色組合成一個團隊。因此,我們不僅需要開發人員或工程師,還需要來自領域專家的支持,或者用戶提供正確的方法和經驗來進行AI學習。
資料來源可以來自多種途徑,包括資料庫、檔案、用戶電腦或設備端點。這些資料的格式可能是結構化的,也可能是非結構化的,其中以非結構化資料居多。
在資料處理過程中,資料清理是最為關鍵的一步。這個過程不僅耗時最多,而且挑戰性最大。由於無法直接使用原始資料,我們需要對其進行清理,以確保資料的清潔度和完整性,從而避免「垃圾進,垃圾出」的現象。此外,確認資料的領域特徵也是一個重要的步驟。
資料轉換同樣是資料處理中的重要環節。資料維度轉換和資料類型轉換是創建適合機器學習的資料集的關鍵步驟。這包括合併或分類資料集,以創建適合機器學習任務的格式。通過這些步驟,我們能夠將原始資料轉化為高質量的資料集,為後續的機器學習任務打下堅實的基礎。
當資料不乾淨或顯示出偏斜的分佈時,我們必須與用戶合作,進行觀察和討論,然後進行轉換和修正。這個過程通常需要大量的時間來完成,尤其是隨著資料量的增加,所需的時間也會更多。
企業應該如何看待AI中的演算法?
在構建AI模型時,大多數演算法都可以在學術資源或AI的開源工具中找到,除非是針對企業應用的特定需求。我們需要找到合適的演算法作為企業應用的基礎。
- 選擇演算法
選擇適合領域的演算法是一個細緻的過程,並沒有絕對的對錯答案。這需要理解資料的分佈特徵,並選擇最能匹配預期分類的演算法。
- 自動化模型與參數選擇
選擇最佳模型和最優訓練參數是關鍵步驟。模型訓練過程通常涉及不斷調整訓練參數,以確保訓練結果能夠有效收斂。
- 模型測試與部署
首先使用少量資料進行驗證,以確保邏輯和分析方法的正確性。然後,逐步增加樣本量和訓練參數。一旦基礎模型完成,必須將其部署到生產環境中。模型需要持續進行訓練、測試和部署,以確保其長期有效性。
因此,演算法部分多數企業情境式可以不用從0到1建立演算法模型或是特別去發展新一套的演算法。且在未來LLM時代,是否挑選演算法的模型,可能也是可以省去了
演算法就像電力一樣,可以為不同的產品提供動力,如電視、電腦和汽車。這些產品可以在不同的情境中解決不同的問題,這一切都通過電力的定制應用來實現。因此,我們不需要改變電力的本質;我們的重點應該放在創造新時代的應用,如電燈和電視。
結構化資料就像為任何資料應用奠定基礎,它是IT的管道工程。創新不一定總是由AI驅動;通過重新關注資料工程的基礎,我們可能會發現新的創新道路。
多數企業為了快速搭上AI浪潮,往往忽略了基本的資料工程。同時,我們也發現這樣基礎的資料工程能力在市場上的人才逐漸減少。畢竟,這是一項繁重的工作,而沒有這樣的基礎能力,AI的成功將會耗費大量成本,且效益和時間也將不顯著。
從另一個角度來看,有些企業可能只是為了AI而AI,這樣做反而喪失了我們希望通過AI簡化工作的初衷。
原創來自資料整理是大工程且重要 - EK.Technology Learn


























