嗨嗨大家,今年最後一場iPAS的AI應用規劃師(初級)即將登場,不曉得備考得如何呢?是從從容容游刃有餘?還是匆匆忙忙連滾帶爬呢?
我先前靠著自己網路找的資源和參考資料訓練AI陪我備考,刷了上百題,在9月順利通過了(證書11月中才會寄到)。這對不是資訊/資工背景的我而言是很大的鼓舞。距離考試日剩不到幾天了,不論你是準備充分還是緊張抱佛腳,希望以下的分享對觀念釐清、方便記憶、複習深化,能有一些幫助!也預祝大家都順利獲證。

卷積神經網路(CNN):想像你在玩拼圖遊戲,有一張圖片,你要用放大鏡去看每一個角落、每一塊拼圖的形狀和顏色,才能知道整張圖是什麼。
- CNN就像是一個有超多「小放大鏡」的工具,可以自動幫你看一張圖的細節,再組合成整體意思。
- 它專門拿來看圖片或影片,像是:這張照片是狗還是貓?這張X光片有沒有骨折?
應用情境:
- 臉部辨識:手機解鎖用你臉部圖像,靠的就是 CNN。
- 自動標記照片:Google 相簿可以自動認出「這是海邊」、「這是生日派對」,也是 CNN 幫忙分析的。
- 醫學影像判斷:醫生用 AI 看出 X 光或 MRI 有沒有問題,背後的技術也可能是 CNN。
RNN(循環神經網路):比較像是一個聽故事很強的朋友,會記住「前面說了什麼」,幫助理解「接下來要說什麼」。(但它會漸漸忘記前面的內容)
應用情境:
- 聽聲音、理解文字:像是語音助理(Siri、Google 助理)
- 自動寫作文、翻譯句子:記得上下文的前後語意
- 預測下一個字:像輸入法猜你要打什麼
Transformer 就像是全班同學一起思考問題,不只是記住前後順序,而是彼此討論、互相看彼此說了什麼。
它會「注意」每一個字、每一句話的重點,叫做「注意力機制(Attention)」,讓回答更準確、有邏輯。
應用情境:
- ChatGPT、Bard、Claude、Sora 這些聊天AI都用 Transformer!
- 機器翻譯(Google翻譯)、自動摘要、代碼生成
- 圖片與文字結合生成(像是 DALL·E、Gemini)
延伸補充:
Transformer 原本是用在文字的,但現在也能用在:
- 圖像(像是 Vision Transformer,ViT)
- 語音
- 多模態應用
LSTM 就像是有「長期記憶+短期記憶」的筆記本,幫助它記得重要的事、忘掉不重要的事。
應用情境:
- 文章理解:理解整篇故事的內容(前後文呼應)
- 對話AI:記得你之前說了什麼(讓回覆更連貫)
- 音樂生成:創作旋律時記得之前的節奏與風格
GAN:生成對抗網路(Generative Adversarial Network):由 Ian Goodfellow 在 2014 年提出,是一種對抗式學習架構,包含兩個互相競爭的神經網路:
- 生成器(Generator):試著「畫出」逼真的資料(例如假人臉、假聲音、假照片)
- 鑑別器(Discriminator):負責「抓包」這些資料是真還是假
它們像是一個畫家和一個鑑賞家互相練功:畫家想畫出騙得過鑑賞家的偽畫>>鑑賞家則要越來越厲害看出破綻>> 最後畫家畫得越來越真,AI 就能「生成擬真內容」
應用情境:
- AI 捏臉:thispersondoesnotexist.com
- 圖像風格轉換:把素描變彩色,照片變油畫
- 數據合成:為醫療、金融補足資料樣本
- 動畫或電影視覺特效:生成背景、角色動畫片段
🚫 注意:GAN 不是基於注意力機制,它是一種「對抗式架構」,和 Transformer 使用的「注意力運算」完全不同。















