我們多數人都已體驗過生成式 AI 的威力,無論是要求它撰寫郵件、整理摘要,或是生成圖片。這些工具雖然強大,卻往往像是一個個功能單一的計算機,被限制在單一的應用程式或分頁中。然而,我們日常的辦公室工作,卻是由一連串跨越不同軟體、文件與系統的繁瑣流程所組成,例如「將 PDF 報告中的數據,整理到 Google Sheets,再根據結果到 Salesforce 查詢客戶資料,最後撰寫一封客製化的 Email」。
長久以來,我們期待的 AI 助理,不該只是一個指令一個動作的工具,而是一個能理解複雜工作流程、並代為執行的「數位同事」。Google 最新發布的 Gemini Enterprise 平台,正是朝著這個願景邁出的關鍵一步。
Introducing Gemini Enterprise
發布懶人包
Google 這次的發布,是名為 Gemini Enterprise 的全新 AI 平台,定位為「企業 AI 的新入口」。與其說它是一個單一產品,不如將其理解為一個整合性的商業解決方案,目標是將 Google 最頂尖的 AI 技術,安全、可控地導入到企業的每一個工作流程中:
- 不只是模型,而是完整平台:Gemini Enterprise 整合了六大核心組件,包含最強大的 Gemini 模型、讓非工程師也能使用的無程式碼(no-code)工作台、預先建置好的 AI 代理(Agent)、連接企業內部數據的管道(如 Google Workspace、Microsoft 365、Salesforce)、以及統一的安全治理後台。
- AI 代理是核心概念:未來的 AI 將以「代理(Agent)」的形式存在,它們是能自主執行多步驟任務的程式。Gemini Enterprise 讓企業能夠建立、管理並部署這些 AI 代理來自動化特定工作。
- 賦予 AI 眼睛與手:Google 也同步發表了 Gemini 2.5 電腦使用模型(Computer Use model)。這是一項關鍵技術,它能讓 AI 分析螢幕截圖,並模擬人類的滑鼠點擊、鍵盤輸入等操作。這徹底改變了 AI 與軟體互動的方式。
- 開放生態系:Google 強調其開放性,不僅能與 Microsoft 365 等競品系統協作,也積極與超過十萬個合作夥伴建立生態,推動 Agent2Agent(A2A)等開放協定,企圖打造一個全新的「代理經濟」。
主要亮點剖析
不只是聊天機器人:Gemini Enterprise 的企業級架構
過去企業導入 AI 時,最大的痛點在於資安、資料串接與後續管理。Gemini Enterprise 的設計,正是為了掃除這些障礙。它提供的不僅僅是強大的 AI 大腦,更是一整套確保 AI 能在企業環境中順暢運作的骨架與神經系統。
根據 Google 官方的說明,這個平台的核心架構包含幾個關鍵部分。 首先,它由 Google 最先進的 Gemini 模型驅動,確保了其智慧的核心。其次,透過無程式碼工作台,就算是行銷、財務或人資部門的員工,也能像堆積木一樣,設計出符合自己需求的自動化流程,大幅降低了 AI 的使用門檻。
更重要的是,平台內建了許多預先訓練好的 Google 代理,能處理如深度資料研究或數據洞察等專業任務,企業可以立即使用,並在此基礎上建立更客製化的代理。 為了讓 AI 的決策有所本,Gemini Enterprise 能夠安全地連接到企業的數據,無論它們儲存在 Google Workspace、Microsoft 365,還是像 Salesforce 和 SAP 這樣的商業應用中。這一切都在一個中央治理框架下進行,讓 IT 部門可以從單一介面監控、保護和審核所有 AI 代理的活動,確保一切符合公司規範。
AI 的眼睛與手:解密 Gemini 2.5 電腦使用模型
這是讓 Google 藍圖真正變得可行的關鍵技術。傳統的軟體自動化極度依賴 API(應用程式介面),但現實是,有大量的內部系統、老舊軟體或網頁,根本沒有提供 API。這使得自動化在「最後一哩路」上常常卡關。
Gemini 2.5 電腦使用模型繞過了這個限制。 它的運作方式非常直接:
- 看見(See):AI 模型接收目前的螢幕截圖(Screenshot)作為輸入。
- 理解(Understand):模型利用其強大的視覺理解能力,分析畫面上的各種元素,例如按鈕在哪裡、哪個是輸入框、下拉式選單有哪些選項。
- 行動(Act):基於使用者的指令(例如「幫我預訂一張機票」),模型會生成一個具體的 UI 操作指令,像是「點擊座標 (350, 500) 的按鈕」或「在 ID 為 'username' 的輸入框中打字」。
- 重複(Loop):這個「看見 -> 理解 -> 行動」的循環會不斷重複,直到完成整個任務為止。這項能力代表 AI 不再需要軟體為它「開後門」(API),而是可以直接像真人一樣,從「正門」(UI)走進去操作。
Introducing the Gemini 2.5 Computer Use model

從單點任務到跨平台工作流:AI 代理 (Agent) 的真正潛力
接下來,當「企業級平台」與「電腦使用模型」這兩大要素結合時,AI 代理的潛力才真正被釋放。一個運行在 Gemini Enterprise 上的 AI 代理,將不再只是個聊天視窗,而是一個能被賦予具體任務的數位員工。
想像一下,一位業務主管可以對 AI 代理下達指令:「分析上季度的所有銷售報告,找出銷售額前 10% 的客戶,檢查他們在 CRM 系統中的互動紀錄,並為每一位客戶草擬一封個人化的感謝信,信中要提及他們最近一次購買的產品。」
這個任務橫跨了文件處理(讀取報告)、數據分析、系統操作(查詢 CRM)和內容生成。在過去,這需要數小時的人工作業。但一個搭載了電腦使用模型的 AI 代理,理論上可以獨立完成所有步驟。它會打開報告檔案、複製數據、登入 CRM 系統查詢、然後在郵件軟體中撰寫草稿。這正是 Google 所描繪的「代理經濟」的雛形,開發者、軟體商甚至個人,未來都可能開發並銷售專門處理特定工作流程的 AI 代理。
它將如何影響我們現有的生活或是相關產業?
我們與 AI 的關係,將從「使用工具」進化為「與同事協作」。這將帶來幾個影響:
首先,對於知識工作者而言,這意味著能從大量重複、繁瑣的行政工作中解放出來。員工可以將更多時間和精力投入到更需要創意、策略思考和人際互動的核心價值活動上。企業的生產力有望獲得顯著提升。
其次,對於企業而言,這提供了一個重新思考內部流程的機會。過去許多因人力成本過高而難以實現的細節,例如對每一位客戶進行深度客製化互動,現在都變得可能。特別是在客戶服務、數據分析、市場行銷和軟體測試等領域,AI 代理的應用潛力巨大。
然而,這也對現有的工作帶來了挑戰。許多以執行標準化流程為主的職位,其工作內容可能在未來幾年內被 AI 代理大量取代。這將迫使勞動力市場進行結構性調整,工作者需要培養與 AI 協作、設計和管理 AI 工作流程的新技能。
TN科技筆記的觀點
- 這次最值得關注的是 Google 「平台化」與「具身化」的雙軌策略。將強大的 AI 模型封裝在一個安全可控的企業平台(Gemini Enterprise)中,解決了企業最關心的信任問題;同時,透過電腦使用模型,讓 AI 代理擁有了操作現實世界數位介面的「身體」,解決了自動化的「最後一哩路」難題,讓「AI 數位員工」的概念,從科幻想像,朝著商業現實邁進了一大步。
- 儘管前景令人期待,但在實際應用中,網站一次小小的改版,按鈕位置的輕微變動,或是一個預期之外的視窗,都還是可能讓 AI 代理的執行流程中斷。如何確保 AI 代理在面對這些變化時的穩定性與自我修復能力,將是其能否在關鍵業務中被信賴的核心。
- 此外,讓 AI 擁有操作電腦畫面的權限,形同給予它一把能打開公司所有系統的萬能鑰匙。雖然 Google 強調其安全框架,但如何防範惡意使用者透過提示詞注入(Prompt Injection)等方式來操控 AI 進行未授權操作,或是如何確保 AI 在處理跨系統敏感數據時的隱私邊界,以及不會在執行交易或重要操作時出錯,都會是相當困難的考驗。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!
以下是我的 threads 也歡迎追蹤、回覆、轉發喔!
>>>>> TN科技筆記(TechNotes)