Google 發表新 AI 模型 Gemini 1.5,提供更大的「腦容量」和效率

更新於 發佈於 閱讀時間約 3 分鐘

今天 Google 發表了最新的 AI 模型 Gemini 1.5,不只提高模型訓練和服務效率,而且擁有更強大的理解力,每次能處理的 token 長度更是一口氣突破 100 萬大關,是競爭對手 GPT-4 的 7.8 倍 (GPT-4 目前只提供最長 32K 長度),可以處理更大量的資訊,也擁有更大的「腦容量」。

支援高達 100 萬 token,可以進行更複雜的任務

Gemini 1.5 和前一代同樣是屬於多模態的 AI 模型,今天發布 Gemini 1.5 Pro 在 Google 的定義是屬於中型 AI 模型,但它的能力已與 Gemini 1.0 Ultra 相當。最大的突破是一口氣將模型可以處理的資訊量提升到 1,000,000 個 token,這是目前所有 AI 語言模型中最大規模的容納量。

你可以將單次能處理的 token 數當作是 AI 的「大腦容量」,能處理的 token 越多,表示 AI 越不會忘記之前的對話。而 Gemini 1.5 高達 100 萬的單次 token 處理量,相當於可以處理 1 小時影片、11 小時聲音,或者超過 30 萬行的程式碼。

Google 發表下一代 AI 語言模型 Gemini 1.5,支援高達 100 萬 token

Google 發表下一代 AI 語言模型 Gemini 1.5,支援高達 100 萬 token

Google 也對 Gemini 1.5 進行許多實際測試,並製作成以下影片。

對大量訊息進行複雜推理

將阿波羅 11 號登月任務的 402 頁紀錄丟給 Gemini 1.5 Pro 處理,它可以推理文檔中的對話、事件和細節。另外在測試中也可以看到 Gemini 1.5 Pro 可以同時從圖片和文字間找出邏輯上的關聯,並做出回應。


更棒的跨模態推理

除了理解文字外,Gemini 1.5 Pro 也可以理解影片內的每個畫面。例如這個範例要求「找出從人的口袋取出一張紙的那一刻」,如果是透過人眼來看,至少也要花個幾十分鐘,但 Gemini 1.5 Pro 只花了不到 1 分鐘的時間就將這個畫面出現的時間點找了出來。


支援更長的程式碼區塊,解決複雜問題

寫程式時搭配一些 Lib 會讓系統更加龐大,但 Gemini 1.5 Pro 能一次吃下 100 萬個 token,因此對於解決更複雜的程式開發問題也有很大的改進。


效率

在同時搭配文字、程式碼、圖形、聲音、影片進行評估時,Gemini 1.5 Pro 在大型語言模型測試基準中有 87% 表現優於前一代的 Gemini 1.0 Pro;在星相同的測試基準中,效能甚至已經和 Gemini 1.0 Ultra 不相上下,也就意味著 Gemini 1.5 Pro 可以使用更少的資源得到同等的結果,更有機會在不同的運行環境下使用。

另外 Gemini 1.5 Pro 也展開了「情境學習」技能,在不需要微調的狀況下 AI 模型就能自行推理。這個試驗使用了 MTOB 基準測試,將英文翻譯成網路上少見的卡拉曼語 (Kalamang),它的學習程度和學習相同內容的人相當。

為了提高模型訓練效率,Google 也使用了新的專家混合 (MoE) 訓練架構,讓 Gemini 1.5 可以更快速的學習複雜的任務,同時也能保持訓練品質。

歡迎到《硬是要學》AI 專欄,瀏覽更多 AI 科技發展趨勢文章
avatar-img
1會員
4內容數
Hi 我是手哥!專研 3C 手機、家電,以及各種科技、AI、商務應用
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
手哥科科 的其他內容
Google 近來宣佈在即將推出的 Chrome M121 版本中導入 3 個 AI 功能,包括整理分頁、建立個人主題和幫你寫,將增進使用者的瀏覽體驗。本文介紹這些新功能以及自 Google 推出 Gemini AI 模型後,AI 功能擴展至不同產品的趨勢。
Google 近來宣佈在即將推出的 Chrome M121 版本中導入 3 個 AI 功能,包括整理分頁、建立個人主題和幫你寫,將增進使用者的瀏覽體驗。本文介紹這些新功能以及自 Google 推出 Gemini AI 模型後,AI 功能擴展至不同產品的趨勢。
你可能也想看
Google News 追蹤
提問的內容越是清晰,強者、聰明人越能在短時間內做判斷、給出精準的建議,他們會對你產生「好印象」,認定你是「積極」的人,有機會、好人脈會不自覺地想引薦給你
Thumbnail
大家元宵節快樂! Google AI Gemini 也支援 Ai 生圖囉! (好像以前就有,只是我現在才玩到!)
Thumbnail
Google Cloud Security 發布了 2025 年上半年《Threat Horizons》報告。
Thumbnail
Google Cloud Security發布的《2025 年網絡安全預測》報告分享了有關威脅和其他網絡安全主題的前瞻性見解。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 現在我們來看看 Google Gemini (https://gemini.google.com/ to start a dialog) 的能力: 回答如下:
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
GPT-4o中的“o”代表“omni”,意思是全能。它能夠在232毫秒內做出回應,幾乎和人類一樣快。這個模型可以即時翻譯、進行視覺推理和自然對話,顯示出它在智能對話、多模態處理和擴展應用場景方面的巨大潛力。
Thumbnail
Google最新發表了針對學習進行微調的Gemini新模型系列「LearnLM」,將學習科學原理融入模型及其支援的產品中,包括Google搜尋、Gems、YouTube和Google Classroom。這些新功能將對教育工作者和學習者產生深遠的影響。
Thumbnail
ChatGPT新模型GPT-4o即將推出,速度更快,並支援處理影片以及多種語言。免費用戶也可以使用ChatBots,而付費版本則限制頻寬並提高至原本的5倍。此外,還將推出ChatGPT桌面應用程式,讓使用者在電腦上進行各項工作時,更輕鬆地使用ChatGPT。
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
提問的內容越是清晰,強者、聰明人越能在短時間內做判斷、給出精準的建議,他們會對你產生「好印象」,認定你是「積極」的人,有機會、好人脈會不自覺地想引薦給你
Thumbnail
大家元宵節快樂! Google AI Gemini 也支援 Ai 生圖囉! (好像以前就有,只是我現在才玩到!)
Thumbnail
Google Cloud Security 發布了 2025 年上半年《Threat Horizons》報告。
Thumbnail
Google Cloud Security發布的《2025 年網絡安全預測》報告分享了有關威脅和其他網絡安全主題的前瞻性見解。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 現在我們來看看 Google Gemini (https://gemini.google.com/ to start a dialog) 的能力: 回答如下:
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
GPT-4o中的“o”代表“omni”,意思是全能。它能夠在232毫秒內做出回應,幾乎和人類一樣快。這個模型可以即時翻譯、進行視覺推理和自然對話,顯示出它在智能對話、多模態處理和擴展應用場景方面的巨大潛力。
Thumbnail
Google最新發表了針對學習進行微調的Gemini新模型系列「LearnLM」,將學習科學原理融入模型及其支援的產品中,包括Google搜尋、Gems、YouTube和Google Classroom。這些新功能將對教育工作者和學習者產生深遠的影響。
Thumbnail
ChatGPT新模型GPT-4o即將推出,速度更快,並支援處理影片以及多種語言。免費用戶也可以使用ChatBots,而付費版本則限制頻寬並提高至原本的5倍。此外,還將推出ChatGPT桌面應用程式,讓使用者在電腦上進行各項工作時,更輕鬆地使用ChatGPT。
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,