打工仔也想學 AI：Gen AI 開發的第一坑 Finetuning

楓葉國小K

2025/08/02 更新2025/08/02 發佈閱讀 5 分鐘

我在我Substack上的電子報開設了一個新專題，分享自己由 0 開始學習 AI 開發的過程，例如 RAG、AI Agent，有興趣可以訂閱我的電子報。

2022-23 年，我還在香港當工程師。

那時候的我非常羨慕外國的工程師，偉大的防火牆讓我無法正常使用許多 AI 工具，AI 看起來就像是另一個世界的科技。

後來我發現 GitHub Copilot 在香港不用 VPN 也能跑，馬上刷了 $100 USD 訂閱體驗一下。

還記得第一次看到在 VSCode 裏打幾個字後出現一堆 Placeholder，按個 Tab 就自動補好幾句程式碼，那種感覺真的爽到不行！

當時我拿 Copilot 給同事看，他們已經覺得我走在最前線了。

直到我搬來加拿大，能直接使用 OpenAI API，才真正開始接觸 AI 各種 AI 工具。

而我第一個念頭是：

做一個能根據公司內部文件回答問題的 Chatbot

Solen Feyissa on Unsplash

為什麼會想做 Internal Chatbot？

原因很簡單：公司文件亂成一團。

除了初創公司之外，在我以前待的中大型公司遇到問題時，常常要先從一堆內部資料找頭緒，例如內聯網、Confluence、JIRA、Google Doc、FTP 伺服器…

就算找到了，大部份也沒有統一的文件格式。

有人是圖像派、有人是純文字派，而更多人是相信程式碼能自己說話，乾脆不寫文件。

曾經有團隊試圖統一格式，做了個模版讓大家跟著寫，但無奈舊文件實在太多沒人想動，新文件又總是有「更急的事」而草草了事。

幾年後團隊一換人，那套格式自然也就失傳了。

所以我想做一個擁有公司內部知識的 Chatbot，幫工程師回答常見問題，或者至少從垃圾場中翻出一兩個可能有用的連結，總比花個幾小時還只能找到個桔要好。

第一步就走錯了路

當時的我對 RAG、Embedding、Retrieval 這些完全沒有概念，只是一股腦地想玩 Gen AI，找點新技術來嘗鮮。

在 OpenAI 文件看到 Fine-tuning 的介紹，說得好像能教模型客製化的知識，一時熱血上頭，就這樣衝進去了。

第一次嘗試，我是用 Excel 手動建立資料集，裏面有 Prompt 和 Completion 兩欄。

我自己寫了大約 240 行問答配對，然後丟去 Fine-tune。

第一次 Fine-tune 用的資料，EOP 是我當時用的 Prompt Delimiter

結果，模型答得一塌糊塗，還不時出現亂碼。

後來我改變策略，改為同一問題寫 5 種問法，讓資料量擴充到 1100 行後再來一次。

修改後的資料，EOC 是我當時用的 Completion Delimiter

這次好一點，偶爾能答出我想要的內容，但大多時候還是答非所問，甚至會憑空捏造沒提供的資訊。

當時我也沒深究怎樣的資料才叫好，整理資料的方法只是自己摸出來的，歡迎各路大神指錯🙏🏻

盲目追新技術的教訓

多試幾次後，我意識到光靠自己是很難把模型 Finetune 得好的。

一來需要大量的資料，二來我缺乏相關知識。

最後我選擇暫停這個實驗，但這段經驗也讓我學到兩件事：

模型像小孩，而不是 API

它不像傳統 API 一樣能被準確控制，不是我寫一行就跑一行。

更像的是一個小孩，而工程師就像父母，要一直餵它資料，靠大量例子、適當的獎勵及懲罰去引導它學習。

這對習慣掌握流程的工程師來說是一種全新的開發體驗。

資料的質最為重要，但也不能忽視量

「Garbage In, Garbage Out」這句話，在 AI 開發裏是鐵則。

資料的品質不用多說，內容含糊不清或有誤導，模型學到的就是垃圾 (難怪需要 Data Engineer 這專業了😂)。

同一時間資料太少也不行，它就像人一樣，一知半解最危險。考試前只看講義，不做練習題，通常都考不出好成績。

想了解更多關於 Fine-tuning 的資料可以參考此網頁。

雖然這次只做到一個簡單的 POC 就停下來，但它讓我知道 Gen AI 開發也許沒有想像中那麼遙不可及 (雖然還是很難啦😂)。

也許正是這次經驗，種下了現在決心深入研究 Gen AI 的種子。

這是我電子報《打工仔也想學 AI》新系列的第一篇，下一篇將會寫：

同樣的問題，為什麼我後來選擇 RAG 而非 Finetune
怎樣在本地環境用低規格電腦跑 LLM

如果你對實作細節有興趣的話，歡迎閱讀我此篇電子報。

留言

Keith的沙龍

0會員

17內容數

Keith的沙龍的其他內容

2025/07/08

北美職場的所見所聞：別像我這樣浪費免費職涯諮詢的機會

我會在Substack上分享更多關於北美職場上的所見所聞，有興趣可以訂閱我的電子報。

2025/07/08

北美職場的所見所聞：別像我這樣浪費免費職涯諮詢的機會

我會在Substack上分享更多關於北美職場上的所見所聞，有興趣可以訂閱我的電子報。

2025/06/10

北美職場的所見所聞：主管給我的挑戰

2025/06/10

北美職場的所見所聞：主管給我的挑戰

2025/05/26

從面試到職場，養成解難的肌肉

最近看到Kelly分享一段影片，模擬以應徵者身份參與軟體工程師的技術面試，面試官是Amazon的工程師，理所當然地面試內容是Leetcode類型...

2025/05/26

從面試到職場，養成解難的肌肉

最近看到Kelly分享一段影片，模擬以應徵者身份參與軟體工程師的技術面試，面試官是Amazon的工程師，理所當然地面試內容是Leetcode類型...

#AI 的其他內容

AI 浪潮下的「毀滅性創新」：解析湯森路透、納斯達克股價重挫的關鍵

與老查一起讀商業好書

當部屬用 AI 一小時完成你三天的工作量，主管如何重塑領導力？運用「情境領導」重新定義 AI 協作時代的管理

上游洞見

川普關稅 2.0 下的供應鏈重構

你可能也想看

方格子 vocus 官方沙龍

【 vocus 全站慶，更好的 2026 上線了！】折扣碼 x 抽紅包 x 新手禮 x App 登場！

vocus 慶祝推出 App，舉辦 2026 全站慶。推出精選內容與數位商品折扣，訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包，以及全站徵文，並邀請你一起來回顧過去的一年， vocus 與創作者共同留下了哪些精彩創作。

#vocus#2026#vocus2026

2026/01/26

方格子 vocus 官方沙龍

【 vocus 全站慶，更好的 2026 上線了！】折扣碼 x 抽紅包 x 新手禮 x App 登場！

#vocus#2026#vocus2026

2026/01/26

金融人類學徒

別讓你的房子，變成家中最大的「閒置資產」

別讓你的房子，變成家中最大的「閒置資產」作為一名服務高淨值客戶的私人銀行顧問，我每天的任務只有一個：幫客戶「讓錢滾動」。然而，當我觀察身旁許多同樣育有子女的朋友們，即便他們多半已是職場上的中高階主管，表面上看似光鮮亮麗，有房有車；但實際上，大家都是典型的「夾心世代」。每個月薪水一入帳，扣掉沉重的

2026/02/03

2026/02/03

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 116 | Google Trax 進行推論

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型，並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing，現

#AI#ai#PromptEngineering

2024/08/06

Learn AI 不 BI

AI說書 - 從0開始 - 116 | Google Trax 進行推論

#AI#ai#PromptEngineering

2024/08/06

Learn AI 不 BI

AI說書 - 從0開始 - 105 | AI 資料準備

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經有資料集在 AI說書 - 從0開始 - 103 ，必要的清理函數在 AI說書 - 從0開始 - 104 ，現在把它們湊在一起，如下： # load Eng

#AI#ai#PromptEngineering

2024/07/27

Learn AI 不 BI

AI說書 - 從0開始 - 105 | AI 資料準備

#AI#ai#PromptEngineering

2024/07/27

蠢孩子の小說世界

AI 聽你說圖

科技發達，AI智能也越來越發達。蠢孩子，我每篇小說的圖片都是用AI製作的唷!!

#AI繪圖#AI製圖#圖片

2024/07/08

蠢孩子の小說世界

AI 聽你說圖

科技發達，AI智能也越來越發達。蠢孩子，我每篇小說的圖片都是用AI製作的唷!!

#AI繪圖#AI製圖#圖片

2024/07/08

Learn AI 不 BI

AI說書 - 從0開始 - 66

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先做個總回顧： Transformer 架構總覽：AI說書 - 從0開始 - 39 Attention 意圖說明：AI說書 - 從0開始 - 40 Transfo

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 66

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 23

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 22解釋Foundation Model與Engines意涵後，我們來試用看看ChatGPT。嘗試問以下問題：Provide a

#AI#ai#PromptEngineering

2024/06/17

Learn AI 不 BI

AI說書 - 從0開始 - 23

#AI#ai#PromptEngineering

2024/06/17

莎姐的矽谷茶棧

你開始使用AI了嗎？

最新的AI趨勢讓人眼花撩亂，不知要如何開始學習？本文介紹了作者對AI的使用和體驗，以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具，可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心，不停止學習，並提出了對健康生活和開心生活的祝福。

2024/06/14

2024/06/14

我如何從零開始接觸與學習 AI，超詳細學習方法與心得

AI 相關的內容每天都非常多，有聽過很多人因此感覺到焦慮，怕錯過了最新資訊就會趕不上，這篇內容會跟大家詳細的分享我自己的學習方法和經驗，並且會在最後分享一些我的學習資訊來源。

#AI#學習#創作

2024/05/01

創作邦｜設計X工具X品牌的沙龍

我如何從零開始接觸與學習 AI，超詳細學習方法與心得

#AI#學習#創作

2024/05/01

易樂的沙龍

加油！以生成式AI 創建，各式各樣客製化精準學習AI BOT！

這篇文章介紹瞭如何利用生成式AI（GenAI）來提高學習效率，包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度，保持學術誠信，適當運用GenAI能大幅提升工作效率。

#學習#生成式AI#文章

2024/03/24

易樂的沙龍

加油！以生成式AI 創建，各式各樣客製化精準學習AI BOT！

#學習#生成式AI#文章

2024/03/24

私大王牌教授 (私人大學ACE) feat. mr gary

《Brief AI 電子報》每日 3 分鐘掌握 AI 趨勢

http://tinyurl.com/12000ai888 http://tinyurl.com/12000ai888 http://tinyurl.com/12000ai888

2024/01/22

私大王牌教授 (私人大學ACE) feat. mr gary

《Brief AI 電子報》每日 3 分鐘掌握 AI 趨勢

http://tinyurl.com/12000ai888 http://tinyurl.com/12000ai888 http://tinyurl.com/12000ai888

2024/01/22

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News