
大家早安,今天我們來看看 Google 剛推出的 Gemini 3。這一次的更新,很明顯已經不是模型變聰明那麼簡單,而是讓 AI 開始主動「決定要怎麼呈現答案」。你丟進去一個問題,它不再只回覆一串文字,而是直接生成一個介面,像是旅行網站、互動頁面、產品指南。這種用語被內部稱為 generative interfaces,本質上是讓 AI 具備介面創造力,像是能想出最適合你的呈現方式。
從 Gemini 2.5 的多模態,到 Gemini 3 的介面自主
Gemini 2.5 其實已經能理解圖像、聲音與手寫內容,但它仍然是一種「輸入多模態、輸出單一文本」的模型。Google 為了讓它更貼近人類的思考方式,開始建立一種新的互動邏輯:模型必須能判斷「什麼形式最能幫助使用者」。於是到了 Gemini 3,我們看見了從回覆文字,進化到回覆一整個視覺化布局。這意味著 Google 企圖讓 AI 成為完整的「互動系統」,而不是一個被動產出答案的工具。- Generative Interfaces 的原理與突破:Gemini 3 最大的變化,是讓回答不再局限於段落,而是由模型自行組合模組、圖像與互動元件。當你詢問旅行計畫,它便會在視窗中生成像是小型網站的介面,提供天數選擇、景點分類以及圖片展示。當你詢問抽象概念,它會畫一張圖,甚至生成一段簡單動畫。這是一種新型態的思維:答案不是被文字定義,而是被目的定義。模型以完成你的事情為核心,並挑選最直觀的視覺形式帶你理解。
- Gemini Agent 與 Google 生態系的深度綁定:Google 同步推出 Gemini Agent,讓模型能在應用內完成多步驟任務。它能拆分流程、即時呈現進度,並在每個階段停下來詢問你是否要繼續。這與傳統助理最大的不同,是它擁有權限能直接操作你的 Google 生活圈,包括 Gmail、Calendar、Reminders。這使得 Gemini 不再只是回答問題,而是開始管理行程、整理郵件、追蹤任務。對 Google 來說,這是邁向真正通用型代理人的重要一步。
AI 將成為下一代使用者介面
Generative interfaces 的出現,讓我們重新思考介面設計。過去,工程師必須先寫出網站或 App,使用者再從固定的視覺框架中操作。如今,我們告訴 AI 我們想做什麼,它就自動生成所需頁面。這讓介面從事先設計變成當下生成。如果趨勢走向成熟,未來任何產品皆有可能只需要描述使用情境,AI 就能即時組裝一個功能完整、專屬於你的微型應用。
Gemini Agent 雖然強大,但 Google 也承認它仍需要大量測試來確保穩定度、隱私性與跨任務效率。模型看似能執行複雜流程,但實際效果仍依賴其對任務結構的判斷能力。對開發者而言,Gemini 3 的速度與成本提升確實吸引人,但也必須面對模型在極長任務與高細節邏輯中仍有失誤的情況。這是一條從智慧助理走向真正代理人的長路,而 Gemini 3 是其中非常具象徵性的起點。




















