🎬 Gemini 2.5:让视频“开口说话”的 AI 魔法

更新 發佈閱讀 4 分鐘
raw-image

TL;DR(重点摘要)

  • 视频理解新突破:Gemini 2.5 Pro 在多个视频理解基准测试中取得了最先进的表现,超越了 GPT-4.1 等近期模型。
  • 多模态融合:首次实现了原生多模态模型能够将音视频信息与代码等其他数据格式无缝结合。
  • 互动应用生成:能够将视频内容转化为互动式应用程序,如教育工具和动画演示。
  • 长视频处理能力:在低媒体分辨率设置下,Gemini 2.5 Pro 可处理长达 6 小时的视频内容,具备 200 万 token 的上下文窗口。
  • 可用性:Gemini 2.5 的视频理解功能已在 Google AI Studio、Gemini API 和 Vertex AI 中上线。

🧠 Gemini 2.5 的视频理解能力

Gemini 2.5 Pro 在多个视频理解基准测试中取得了最先进的表现,超越了 GPT-4.1 等近期模型。此外,它在多个挑战性基准测试中表现出色,甚至与专门微调的模型相媲美。

该模型能够无缝地将音频、视觉和代码等多种数据格式结合,首次实现了原生多模态模型的融合能力。

raw-image



🧩 视频转化为互动应用

Gemini 2.5 Pro 解锁了将视频转化为互动应用的新可能性。例如,Google AI Studio 的 Video To Learning App 使用 Gemini 2.5 分析视频内容,并生成强化视频关键概念的学习应用程序。

该模型首先接收一个 YouTube 视频链接和一个文本提示,分析视频并创建详细的应用程序规格说明。然后,将规格说明发送回 Gemini 2.5 Pro,生成应用程序的代码。



🎨 使用 p5.js 从视频创建动画

Gemini 2.5 Pro 还支持从视频生成动态动画,开启了自动内容生成和视频摘要的新途径。例如,输入一个关于 Project Astra 的视频和提示“使用 p5.js 创建一个涵盖视频中不同地标的动画”,Gemini 2.5 Pro 会分析视频并生成相应的 p5.js 动画,按视频中的时间顺序可视化地标。


🔍 视频片段检索与描述

Gemini 2.5 Pro 擅长使用音视频线索识别视频中的特定片段,其准确率显著高于以往的视频处理系统。例如,在一段 10 分钟的 Google Cloud Next '25 开幕主题演讲视频中,它准确识别出 16 个与产品演示相关的独特片段。


🕒 时间推理能力

借助先进的片段检索能力,Gemini 2.5 Pro 还能够解决复杂的时间推理问题,如计数。例如,在 Project Astra 视频中,Gemini 成功地计算出主角使用手机的 17 次独立事件。


🛠️ 构建基于 Gemini 2.5 的视频应用

Gemini 2.5 Flash 和 Pro 的视频理解功能已在 Google AI Studio、Gemini API 和 Vertex AI 中上线。通过 Gemini API 和 Google AI Studio,支持处理 YouTube 视频,使开发者能够构建访问数十亿视频的应用程序。

Gemini API 现在提供了一个“低”媒体分辨率参数,使 Gemini 2.5 Pro 能够在 200 万 token 的上下文窗口下处理约 6 小时的视频内容。这为许多长视频理解用例提供了更具成本效益的设置,同时保持了竞争力的视频理解性能(例如,在 VideoMME 上的准确率为 84.7%,而标准设置为 85.2%)。


原文链接:Advancing the frontier of video understanding with Gemini 2.5

留言
avatar-img
Lai Chee Hong的沙龍
0會員
7內容數
Lai Chee Hong的沙龍的其他內容
2025/05/08
探討AI藝術的起源、藝術家角色與技術融合,以及AI圖像是否構成藝術的定義,並展望AI技術在藝術創作中的未來發展。
Thumbnail
2025/05/08
探討AI藝術的起源、藝術家角色與技術融合,以及AI圖像是否構成藝術的定義,並展望AI技術在藝術創作中的未來發展。
Thumbnail
2025/05/07
TikTok因違反歐盟數據隱私法規,被愛爾蘭數據保護委員會(DPC)處以5.3億歐元(約合6億美元)的罰款。主要違規行為包括未能確保將歐洲用戶數據傳輸至中國時的安全性,以及中國員工可遠程訪問歐洲用戶數據等。TikTok已表示將對此決定提出上訴,並強調已採取措施加強數據安全。
Thumbnail
2025/05/07
TikTok因違反歐盟數據隱私法規,被愛爾蘭數據保護委員會(DPC)處以5.3億歐元(約合6億美元)的罰款。主要違規行為包括未能確保將歐洲用戶數據傳輸至中國時的安全性,以及中國員工可遠程訪問歐洲用戶數據等。TikTok已表示將對此決定提出上訴,並強調已採取措施加強數據安全。
Thumbnail
2025/05/06
阿里巴巴推出Qwen 3系列AI模型,具有混合推理能力,支持119種語言,並以開源方式發布,將加劇中美AI競爭。
Thumbnail
2025/05/06
阿里巴巴推出Qwen 3系列AI模型,具有混合推理能力,支持119種語言,並以開源方式發布,將加劇中美AI競爭。
Thumbnail
看更多
你可能也想看
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
基於大型語言模型的 AI 聊天服務可以協助完成多項工作,為了提升 AI 聊天的互動便利性,許多開發者打造了不同性質的擴充功能,Ask Screenshot for Gemini 就是一款能快速將網頁文字與截圖傳送至 Gemini 對話框的實用工具。
Thumbnail
基於大型語言模型的 AI 聊天服務可以協助完成多項工作,為了提升 AI 聊天的互動便利性,許多開發者打造了不同性質的擴充功能,Ask Screenshot for Gemini 就是一款能快速將網頁文字與截圖傳送至 Gemini 對話框的實用工具。
Thumbnail
使用 Gemini AI 聊天服務時,點擊「設定>擴充功能」啟用「YouTube」功能,即可在對話中利用 @YouTube 指令尋找 YouTube 影片和詢問內容。
Thumbnail
使用 Gemini AI 聊天服務時,點擊「設定>擴充功能」啟用「YouTube」功能,即可在對話中利用 @YouTube 指令尋找 YouTube 影片和詢問內容。
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現,並對比了它們在簡單問題、創作文本和回應短文等方面的效果。
Thumbnail
這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現,並對比了它們在簡單問題、創作文本和回應短文等方面的效果。
Thumbnail
Haiper AI 是一款免費的影片生成工具,是由 Google DeepMind 研究人員開發,只只需要輸入文字提示詞,就能生成各種場景的高質量的影片。
Thumbnail
Haiper AI 是一款免費的影片生成工具,是由 Google DeepMind 研究人員開發,只只需要輸入文字提示詞,就能生成各種場景的高質量的影片。
Thumbnail
在數位化的世界中,用戶介面和信息圖表等視覺元素扮演著越來越重要的角色,而ScreenAI的開發為自然語言處理和計算機視覺的融合開啟了新的可能性。
Thumbnail
在數位化的世界中,用戶介面和信息圖表等視覺元素扮演著越來越重要的角色,而ScreenAI的開發為自然語言處理和計算機視覺的融合開啟了新的可能性。
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News