企業思考AI前,資料整理是大工程且重要

更新 發佈閱讀 6 分鐘

人工智慧(AI)是當前最熱門的議題之一。然而,每當企業討論如何進行AI相關專案時,往往忽略了資料的重要性。大多數企業的資料並非乾淨或完整,因此在導入AI時,需要花費大量的精力來清理和準備資料。不過,管理層通常並不理解這個問題,認為只要將資料丟進去,就可以立即實現AI化。

我想用這張圖片作為開場。人工智慧看起來很神奇,但真正驅動它的力量是正確的資料。只有在準確且乾淨的資料基礎上,AI才能展現其強大的能力,否則只會產生垃圾結果。這就像擁有一輛超跑卻沒有汽油,它依然無法行駛。在這篇文章中,我們將探討資料工程的重要性,以及它如何為AI提供動力。

沒有正確的資料,就沒有人工智慧。AI應用前的資料處理可以分為四個步驟:

  1. 資料準備
  2. AI模型構建
  3. AI模型訓練
  4. 模型部署

AI前的資料處理方法完全可以按照這四個步驟進行。而且,這並不是一次性的工作。隨著資料的變化,這些AI模型需要不斷更新和訓練。根據報導,大約80%的人工智慧專案時間都花在了資料處理和清洗上。只有在機器學習中使用乾淨且高質量的資料,我們才能確保所構建的模型能夠產生有價值的結果。

在AI應用中,資料收集和預處理是至關重要的步驟。首先,我們需要確定資料的來源,這些來源可以是內部系統、外部API、公開資料集等。接著,我們需要選擇合適的資料收集方法,確保資料的完整性和準確性。

資料預處理技術包括資料清洗、缺失值填補、資料標準化等,這些步驟能夠提升資料的質量。資料特徵工程則是從原始資料中提取有用的特徵,這對於模型的性能至關重要。最後,資料質量保證是確保所有這些步驟都能夠產生高質量的資料,從而為AI模型的訓練提供可靠的基礎。

資料準備的四個步驟,從接收來自不同來源的資料開始,到最終確保資料質量為止,每一個步驟都決定了我們提供給AI訓練的資料是否可靠。因此,在實施AI的公司中,大部分時間都花在了「訓練集」上。資料工程對於AI應用至關重要。

為什麼說準備資料階段是具有挑戰性的?

準備資料是最複雜且耗時的工作。如果我們想完成這些步驟,就需要將多個角色組合成一個團隊。因此,我們不僅需要開發人員或工程師,還需要來自領域專家的支持,或者用戶提供正確的方法和經驗來進行AI學習。

資料來源可以來自多種途徑,包括資料庫、檔案、用戶電腦或設備端點。這些資料的格式可能是結構化的,也可能是非結構化的,其中以非結構化資料居多。

在資料處理過程中,資料清理是最為關鍵的一步。這個過程不僅耗時最多,而且挑戰性最大。由於無法直接使用原始資料,我們需要對其進行清理,以確保資料的清潔度和完整性,從而避免「垃圾進,垃圾出」的現象。此外,確認資料的領域特徵也是一個重要的步驟。

資料轉換同樣是資料處理中的重要環節。資料維度轉換和資料類型轉換是創建適合機器學習的資料集的關鍵步驟。這包括合併或分類資料集,以創建適合機器學習任務的格式。通過這些步驟,我們能夠將原始資料轉化為高質量的資料集,為後續的機器學習任務打下堅實的基礎。

當資料不乾淨或顯示出偏斜的分佈時,我們必須與用戶合作,進行觀察和討論,然後進行轉換和修正。這個過程通常需要大量的時間來完成,尤其是隨著資料量的增加,所需的時間也會更多。

企業應該如何看待AI中的演算法?

在構建AI模型時,大多數演算法都可以在學術資源或AI的開源工具中找到,除非是針對企業應用的特定需求。我們需要找到合適的演算法作為企業應用的基礎。

  • 選擇演算法

選擇適合領域的演算法是一個細緻的過程,並沒有絕對的對錯答案。這需要理解資料的分佈特徵,並選擇最能匹配預期分類的演算法。

  • 自動化模型與參數選擇

選擇最佳模型和最優訓練參數是關鍵步驟。模型訓練過程通常涉及不斷調整訓練參數,以確保訓練結果能夠有效收斂。

  • 模型測試與部署

首先使用少量資料進行驗證,以確保邏輯和分析方法的正確性。然後,逐步增加樣本量和訓練參數。一旦基礎模型完成,必須將其部署到生產環境中。模型需要持續進行訓練、測試和部署,以確保其長期有效性。

因此,演算法部分多數企業情境式可以不用從0到1建立演算法模型或是特別去發展新一套的演算法。且在未來LLM時代,是否挑選演算法的模型,可能也是可以省去了

演算法就像電力一樣,可以為不同的產品提供動力,如電視、電腦和汽車。這些產品可以在不同的情境中解決不同的問題,這一切都通過電力的定制應用來實現。因此,我們不需要改變電力的本質;我們的重點應該放在創造新時代的應用,如電燈和電視。

結構化資料就像為任何資料應用奠定基礎,它是IT的管道工程。創新不一定總是由AI驅動;通過重新關注資料工程的基礎,我們可能會發現新的創新道路。

多數企業為了快速搭上AI浪潮,往往忽略了基本的資料工程。同時,我們也發現這樣基礎的資料工程能力在市場上的人才逐漸減少。畢竟,這是一項繁重的工作,而沒有這樣的基礎能力,AI的成功將會耗費大量成本,且效益和時間也將不顯著。

從另一個角度來看,有些企業可能只是為了AI而AI,這樣做反而喪失了我們希望通過AI簡化工作的初衷。

原創來自資料整理是大工程且重要 - EK.Technology Learn

留言
avatar-img
EK.Technology 日常
6會員
15內容數
沒有最完美架構、只有最適合情境的架構、好的架構是需要不斷迭代
EK.Technology 日常的其他內容
2025/07/28
有一天在公司分享AI要如何在企業應用上的實踐和方向,主要是近來,LLM和AI相關技術備受關注,無論是新創公司還是大型原廠,都大力發展AI。然而,對企業而言,AI真正落地的速度並沒有外界想像中那麼快。撇開資安議題不談,單是投入AI所需的成本與實際效益提升,對IT部門而言,評估起來就相當困難,尤其是在企
2025/07/28
有一天在公司分享AI要如何在企業應用上的實踐和方向,主要是近來,LLM和AI相關技術備受關注,無論是新創公司還是大型原廠,都大力發展AI。然而,對企業而言,AI真正落地的速度並沒有外界想像中那麼快。撇開資安議題不談,單是投入AI所需的成本與實際效益提升,對IT部門而言,評估起來就相當困難,尤其是在企
2025/04/16
GitHub Copilot 是近年來最受矚目的 AI 開發輔助工具之一,其在網路上的討論熱度以及相關課程的數量均顯示出其受歡迎程度。有許多課程開課教學如何使用 GitHub Copilot 來提升開發效率或是怎樣使用GitHub Copilot,吸引了大量開發者上課。不可否認,GitHub C
Thumbnail
2025/04/16
GitHub Copilot 是近年來最受矚目的 AI 開發輔助工具之一,其在網路上的討論熱度以及相關課程的數量均顯示出其受歡迎程度。有許多課程開課教學如何使用 GitHub Copilot 來提升開發效率或是怎樣使用GitHub Copilot,吸引了大量開發者上課。不可否認,GitHub C
Thumbnail
2024/10/12
近期,我在公司內部討論了關於大型語言模型(LLM)的導入問題,焦點在於應該選擇自建AI伺服器還是使用雲端服務。這個問題在生成式AI風氣盛行的今日,顯得尤為重要。企業在選擇語言模型進行微調,或是語言模型搭配使用檢索增強生成(RAG)模式時,面臨AI基礎建設的選擇主要會是考量自建AI伺服器或採用雲端
Thumbnail
2024/10/12
近期,我在公司內部討論了關於大型語言模型(LLM)的導入問題,焦點在於應該選擇自建AI伺服器還是使用雲端服務。這個問題在生成式AI風氣盛行的今日,顯得尤為重要。企業在選擇語言模型進行微調,或是語言模型搭配使用檢索增強生成(RAG)模式時,面臨AI基礎建設的選擇主要會是考量自建AI伺服器或採用雲端
Thumbnail
看更多
你可能也想看
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
現代技術背景下的挑戰與機遇 隨著技術團隊和項目規模的擴大,領導力與項目管理的重要性日益凸顯。特別是在AI技術飛速發展的今天,如何有效地管理項目、激勵團隊並推動技術變革,已成為每一位技術領導者面臨的核心挑戰。 技術熟悉度與應用能力 領導者必須對AI技術有深刻的理解,了解其能力和限制。這樣
Thumbnail
現代技術背景下的挑戰與機遇 隨著技術團隊和項目規模的擴大,領導力與項目管理的重要性日益凸顯。特別是在AI技術飛速發展的今天,如何有效地管理項目、激勵團隊並推動技術變革,已成為每一位技術領導者面臨的核心挑戰。 技術熟悉度與應用能力 領導者必須對AI技術有深刻的理解,了解其能力和限制。這樣
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
AI 工具雖能在短時間生成內容,但它不瞭解你的客戶,也無法取代你做現場互動交流。在合適的時機選擇使用適合的 AI 工具,幫助我們專注於最重要的人事物上。
Thumbnail
AI 工具雖能在短時間生成內容,但它不瞭解你的客戶,也無法取代你做現場互動交流。在合適的時機選擇使用適合的 AI 工具,幫助我們專注於最重要的人事物上。
Thumbnail
使用AI所產出的資訊,必須審慎判讀取捨,不宜照單全收。
Thumbnail
使用AI所產出的資訊,必須審慎判讀取捨,不宜照單全收。
Thumbnail
這篇文章分享了在職場中如何準備關鍵字,以提升溝通效率,解決面對報告內容繁瑣,聽者不一定聽懂的問題。建議在溝通中選擇好記的單字以增加價值,讓對方能留下關鍵字,提供了良好的影響。
Thumbnail
這篇文章分享了在職場中如何準備關鍵字,以提升溝通效率,解決面對報告內容繁瑣,聽者不一定聽懂的問題。建議在溝通中選擇好記的單字以增加價值,讓對方能留下關鍵字,提供了良好的影響。
Thumbnail
近年來,生成式AI對市場帶來了巨大變革,然而,企業的AI專案卻面臨許多部署和失敗的問題。從MIT Sloan Management Review的研究中,我們發現數據科學家在尋找防止AI模型失敗的模式上面存在許多問題。本文提供了三個觀點,協助缺乏技術的高階主管針對辨識有效的AI模型和數據集提出方法。
Thumbnail
近年來,生成式AI對市場帶來了巨大變革,然而,企業的AI專案卻面臨許多部署和失敗的問題。從MIT Sloan Management Review的研究中,我們發現數據科學家在尋找防止AI模型失敗的模式上面存在許多問題。本文提供了三個觀點,協助缺乏技術的高階主管針對辨識有效的AI模型和數據集提出方法。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News