Google 發表新 AI 模型 Gemini 1.5,提供更大的「腦容量」和效率

更新於 發佈於 閱讀時間約 3 分鐘

今天 Google 發表了最新的 AI 模型 Gemini 1.5,不只提高模型訓練和服務效率,而且擁有更強大的理解力,每次能處理的 token 長度更是一口氣突破 100 萬大關,是競爭對手 GPT-4 的 7.8 倍 (GPT-4 目前只提供最長 32K 長度),可以處理更大量的資訊,也擁有更大的「腦容量」。

支援高達 100 萬 token,可以進行更複雜的任務

Gemini 1.5 和前一代同樣是屬於多模態的 AI 模型,今天發布 Gemini 1.5 Pro 在 Google 的定義是屬於中型 AI 模型,但它的能力已與 Gemini 1.0 Ultra 相當。最大的突破是一口氣將模型可以處理的資訊量提升到 1,000,000 個 token,這是目前所有 AI 語言模型中最大規模的容納量。

你可以將單次能處理的 token 數當作是 AI 的「大腦容量」,能處理的 token 越多,表示 AI 越不會忘記之前的對話。而 Gemini 1.5 高達 100 萬的單次 token 處理量,相當於可以處理 1 小時影片、11 小時聲音,或者超過 30 萬行的程式碼。

Google 發表下一代 AI 語言模型 Gemini 1.5,支援高達 100 萬 token

Google 發表下一代 AI 語言模型 Gemini 1.5,支援高達 100 萬 token

Google 也對 Gemini 1.5 進行許多實際測試,並製作成以下影片。

對大量訊息進行複雜推理

將阿波羅 11 號登月任務的 402 頁紀錄丟給 Gemini 1.5 Pro 處理,它可以推理文檔中的對話、事件和細節。另外在測試中也可以看到 Gemini 1.5 Pro 可以同時從圖片和文字間找出邏輯上的關聯,並做出回應。


更棒的跨模態推理

除了理解文字外,Gemini 1.5 Pro 也可以理解影片內的每個畫面。例如這個範例要求「找出從人的口袋取出一張紙的那一刻」,如果是透過人眼來看,至少也要花個幾十分鐘,但 Gemini 1.5 Pro 只花了不到 1 分鐘的時間就將這個畫面出現的時間點找了出來。


支援更長的程式碼區塊,解決複雜問題

寫程式時搭配一些 Lib 會讓系統更加龐大,但 Gemini 1.5 Pro 能一次吃下 100 萬個 token,因此對於解決更複雜的程式開發問題也有很大的改進。


效率

在同時搭配文字、程式碼、圖形、聲音、影片進行評估時,Gemini 1.5 Pro 在大型語言模型測試基準中有 87% 表現優於前一代的 Gemini 1.0 Pro;在星相同的測試基準中,效能甚至已經和 Gemini 1.0 Ultra 不相上下,也就意味著 Gemini 1.5 Pro 可以使用更少的資源得到同等的結果,更有機會在不同的運行環境下使用。

另外 Gemini 1.5 Pro 也展開了「情境學習」技能,在不需要微調的狀況下 AI 模型就能自行推理。這個試驗使用了 MTOB 基準測試,將英文翻譯成網路上少見的卡拉曼語 (Kalamang),它的學習程度和學習相同內容的人相當。

為了提高模型訓練效率,Google 也使用了新的專家混合 (MoE) 訓練架構,讓 Gemini 1.5 可以更快速的學習複雜的任務,同時也能保持訓練品質。

歡迎到《硬是要學》AI 專欄,瀏覽更多 AI 科技發展趨勢文章
avatar-img
1會員
4內容數
Hi 我是手哥!專研 3C 手機、家電,以及各種科技、AI、商務應用
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
手哥科科 的其他內容
Google 近來宣佈在即將推出的 Chrome M121 版本中導入 3 個 AI 功能,包括整理分頁、建立個人主題和幫你寫,將增進使用者的瀏覽體驗。本文介紹這些新功能以及自 Google 推出 Gemini AI 模型後,AI 功能擴展至不同產品的趨勢。
Google 近來宣佈在即將推出的 Chrome M121 版本中導入 3 個 AI 功能,包括整理分頁、建立個人主題和幫你寫,將增進使用者的瀏覽體驗。本文介紹這些新功能以及自 Google 推出 Gemini AI 模型後,AI 功能擴展至不同產品的趨勢。
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 現在我們來看看 Google Gemini (https://gemini.google.com/ to start a dialog) 的能力: 回答如下:
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
GPT-4o中的“o”代表“omni”,意思是全能。它能夠在232毫秒內做出回應,幾乎和人類一樣快。這個模型可以即時翻譯、進行視覺推理和自然對話,顯示出它在智能對話、多模態處理和擴展應用場景方面的巨大潛力。
Thumbnail
ChatGPT新模型GPT-4o即將推出,速度更快,並支援處理影片以及多種語言。免費用戶也可以使用ChatBots,而付費版本則限制頻寬並提高至原本的5倍。此外,還將推出ChatGPT桌面應用程式,讓使用者在電腦上進行各項工作時,更輕鬆地使用ChatGPT。
Thumbnail
這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現,並對比了它們在簡單問題、創作文本和回應短文等方面的效果。
Thumbnail
Gemini Pro 1.0 和 Gemini Pro 1.5 都是強大的工具,但它們適用於不同的需求並提供不同的功能。以下是它們的主要區別: 模態性 Gemini Pro 1.0 主要基於文字,對圖片和視頻的支持有限(1.0-pro-vision)。 Gemini Pro 1.5 真正的多模
Thumbnail
什麼是 Google Gemini? Gemini 是 Google DeepMind 開發的多模態大型語言模型的尖端家族,繼 LaMDA 和 PaLM 2 之後。它於 2023 年 12 月 6 日宣布,包括 Gemini Ultra、Pro 和 Nano,旨在超越 OpenAI 的 GPT-4
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
Thumbnail
2024 年,AI Boom 的第二年,我們總算可以撥開 AI 迷霧,逐一聊聊大型語言模型 (LLM) 的實際應用。On-Device AI 正快速進化,Google Gemini Nano 正式部署上手機,Apple 也發布最新論文彎道超車,改變了手機 AI 的未來發展。
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 現在我們來看看 Google Gemini (https://gemini.google.com/ to start a dialog) 的能力: 回答如下:
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
GPT-4o中的“o”代表“omni”,意思是全能。它能夠在232毫秒內做出回應,幾乎和人類一樣快。這個模型可以即時翻譯、進行視覺推理和自然對話,顯示出它在智能對話、多模態處理和擴展應用場景方面的巨大潛力。
Thumbnail
ChatGPT新模型GPT-4o即將推出,速度更快,並支援處理影片以及多種語言。免費用戶也可以使用ChatBots,而付費版本則限制頻寬並提高至原本的5倍。此外,還將推出ChatGPT桌面應用程式,讓使用者在電腦上進行各項工作時,更輕鬆地使用ChatGPT。
Thumbnail
這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現,並對比了它們在簡單問題、創作文本和回應短文等方面的效果。
Thumbnail
Gemini Pro 1.0 和 Gemini Pro 1.5 都是強大的工具,但它們適用於不同的需求並提供不同的功能。以下是它們的主要區別: 模態性 Gemini Pro 1.0 主要基於文字,對圖片和視頻的支持有限(1.0-pro-vision)。 Gemini Pro 1.5 真正的多模
Thumbnail
什麼是 Google Gemini? Gemini 是 Google DeepMind 開發的多模態大型語言模型的尖端家族,繼 LaMDA 和 PaLM 2 之後。它於 2023 年 12 月 6 日宣布,包括 Gemini Ultra、Pro 和 Nano,旨在超越 OpenAI 的 GPT-4
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
Thumbnail
2024 年,AI Boom 的第二年,我們總算可以撥開 AI 迷霧,逐一聊聊大型語言模型 (LLM) 的實際應用。On-Device AI 正快速進化,Google Gemini Nano 正式部署上手機,Apple 也發布最新論文彎道超車,改變了手機 AI 的未來發展。