Google DeepMind 於 2025 年 7 月 22 日 正式宣布 Gemini 2.5 Flash‑Lite 進入穩定版本並全面開放給開發者與企業使用。這是 Gemini 2.5 系列中速度最快、成本最低的模型,擁有以下亮點:
為何它備受矚目?
- 毫秒級響應速度:Flash‑Lite 延遲低於 Gemini 2.0 Flash 及 2.0 Flash‑Lite,展現出色的高效率表現。
- 超高性價比:輸入僅需 $0.10 美元/百萬 token,輸出 $0.40 美元/百萬 token,是目前 Gemini 2.5 系列最低成本的模型。
- 質量不妥協:在程式設計、數學、科學、推理與多模態表現上全面超越 Gemini 2.0 Flash‑Lite,整體品質大幅提升。
完整功能與技術特色
- 1 百萬 token 的超長 context window:處理大型文件、長篇文字、甚至多模態內容都可應付自如。
- 思考過程自主啟用:可按需切換「thinking」模式與設置 token 預算,在速度與精準度間取得最佳平衡。
- 原生工具支援:自然連結 Google Search、程式執行、URL Context 等工具,大幅提升模型實用性。
如何快速上手
想使用 Gemini 2.5 Flash‑Lite?只需在 Google AI Studio 或 Vertex AI 的程式碼中引用模型識別字串 "gemini‑2.5‑flash‑lite"
即可啟用。原先的 Preview alias 將於 2025 年 8 月 25 日 停用,屆時請切換為正式名稱。
誰適合使用 Gemini 2.5 Flash‑Lite?
- 需要大量低延遲分類、翻譯、路由等高量請求處理的開發者與企業;
- 想降低 AI 使用成本,但不願犧牲模型性能;
- 希望利用 1M token 長 context 處理大型語料、程式碼庫或多模態內容。
Gemini 2.5 系列全模型對照
