🎬 Gemini 2.5:让视频“开口说话”的 AI 魔法

更新於 發佈於 閱讀時間約 4 分鐘
raw-image

TL;DR(重点摘要)

  • 视频理解新突破:Gemini 2.5 Pro 在多个视频理解基准测试中取得了最先进的表现,超越了 GPT-4.1 等近期模型。
  • 多模态融合:首次实现了原生多模态模型能够将音视频信息与代码等其他数据格式无缝结合。
  • 互动应用生成:能够将视频内容转化为互动式应用程序,如教育工具和动画演示。
  • 长视频处理能力:在低媒体分辨率设置下,Gemini 2.5 Pro 可处理长达 6 小时的视频内容,具备 200 万 token 的上下文窗口。
  • 可用性:Gemini 2.5 的视频理解功能已在 Google AI Studio、Gemini API 和 Vertex AI 中上线。

🧠 Gemini 2.5 的视频理解能力

Gemini 2.5 Pro 在多个视频理解基准测试中取得了最先进的表现,超越了 GPT-4.1 等近期模型。此外,它在多个挑战性基准测试中表现出色,甚至与专门微调的模型相媲美。

该模型能够无缝地将音频、视觉和代码等多种数据格式结合,首次实现了原生多模态模型的融合能力。

raw-image



🧩 视频转化为互动应用

Gemini 2.5 Pro 解锁了将视频转化为互动应用的新可能性。例如,Google AI Studio 的 Video To Learning App 使用 Gemini 2.5 分析视频内容,并生成强化视频关键概念的学习应用程序。

该模型首先接收一个 YouTube 视频链接和一个文本提示,分析视频并创建详细的应用程序规格说明。然后,将规格说明发送回 Gemini 2.5 Pro,生成应用程序的代码。



🎨 使用 p5.js 从视频创建动画

Gemini 2.5 Pro 还支持从视频生成动态动画,开启了自动内容生成和视频摘要的新途径。例如,输入一个关于 Project Astra 的视频和提示“使用 p5.js 创建一个涵盖视频中不同地标的动画”,Gemini 2.5 Pro 会分析视频并生成相应的 p5.js 动画,按视频中的时间顺序可视化地标。


🔍 视频片段检索与描述

Gemini 2.5 Pro 擅长使用音视频线索识别视频中的特定片段,其准确率显著高于以往的视频处理系统。例如,在一段 10 分钟的 Google Cloud Next '25 开幕主题演讲视频中,它准确识别出 16 个与产品演示相关的独特片段。


🕒 时间推理能力

借助先进的片段检索能力,Gemini 2.5 Pro 还能够解决复杂的时间推理问题,如计数。例如,在 Project Astra 视频中,Gemini 成功地计算出主角使用手机的 17 次独立事件。


🛠️ 构建基于 Gemini 2.5 的视频应用

Gemini 2.5 Flash 和 Pro 的视频理解功能已在 Google AI Studio、Gemini API 和 Vertex AI 中上线。通过 Gemini API 和 Google AI Studio,支持处理 YouTube 视频,使开发者能够构建访问数十亿视频的应用程序。

Gemini API 现在提供了一个“低”媒体分辨率参数,使 Gemini 2.5 Pro 能够在 200 万 token 的上下文窗口下处理约 6 小时的视频内容。这为许多长视频理解用例提供了更具成本效益的设置,同时保持了竞争力的视频理解性能(例如,在 VideoMME 上的准确率为 84.7%,而标准设置为 85.2%)。


原文链接:Advancing the frontier of video understanding with Gemini 2.5

留言
avatar-img
留言分享你的想法!
tae-avatar-img
4 天前
//bit.ly/3Fg0lw5 //bit.ly/43td7R9 //bit.ly/4j7m0EP //bit.ly/3ERBZJb
werwer-avatar-img
4 天前
//bit.ly/43fqhzY //bit.ly/3RYquCy
loveerr-avatar-img
4 天前
//otx.alienvault.com/pulse/6823497f825227dc32861fdb
kitte-avatar-img
4 天前
//otx.alienvault.com/pulse/6823497f825227dc32861fdb
gottt-avatar-img
4 天前
//otx.alienvault.com/pulse/6823497f825227dc32861fdb
avatar-img
Lai Chee Hong的沙龍
0會員
6內容數
Lai Chee Hong的沙龍的其他內容
2025/05/08
探討AI藝術的起源、藝術家角色與技術融合,以及AI圖像是否構成藝術的定義,並展望AI技術在藝術創作中的未來發展。
Thumbnail
2025/05/08
探討AI藝術的起源、藝術家角色與技術融合,以及AI圖像是否構成藝術的定義,並展望AI技術在藝術創作中的未來發展。
Thumbnail
2025/05/07
TikTok因違反歐盟數據隱私法規,被愛爾蘭數據保護委員會(DPC)處以5.3億歐元(約合6億美元)的罰款。主要違規行為包括未能確保將歐洲用戶數據傳輸至中國時的安全性,以及中國員工可遠程訪問歐洲用戶數據等。TikTok已表示將對此決定提出上訴,並強調已採取措施加強數據安全。
Thumbnail
2025/05/07
TikTok因違反歐盟數據隱私法規,被愛爾蘭數據保護委員會(DPC)處以5.3億歐元(約合6億美元)的罰款。主要違規行為包括未能確保將歐洲用戶數據傳輸至中國時的安全性,以及中國員工可遠程訪問歐洲用戶數據等。TikTok已表示將對此決定提出上訴,並強調已採取措施加強數據安全。
Thumbnail
2025/05/06
阿里巴巴推出Qwen 3系列AI模型,具有混合推理能力,支持119種語言,並以開源方式發布,將加劇中美AI競爭。
Thumbnail
2025/05/06
阿里巴巴推出Qwen 3系列AI模型,具有混合推理能力,支持119種語言,並以開源方式發布,將加劇中美AI競爭。
Thumbnail
看更多
你可能也想看
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
基於大型語言模型的 AI 聊天服務可以協助完成多項工作,為了提升 AI 聊天的互動便利性,許多開發者打造了不同性質的擴充功能,Ask Screenshot for Gemini 就是一款能快速將網頁文字與截圖傳送至 Gemini 對話框的實用工具。
Thumbnail
基於大型語言模型的 AI 聊天服務可以協助完成多項工作,為了提升 AI 聊天的互動便利性,許多開發者打造了不同性質的擴充功能,Ask Screenshot for Gemini 就是一款能快速將網頁文字與截圖傳送至 Gemini 對話框的實用工具。
Thumbnail
使用 Gemini AI 聊天服務時,點擊「設定>擴充功能」啟用「YouTube」功能,即可在對話中利用 @YouTube 指令尋找 YouTube 影片和詢問內容。
Thumbnail
使用 Gemini AI 聊天服務時,點擊「設定>擴充功能」啟用「YouTube」功能,即可在對話中利用 @YouTube 指令尋找 YouTube 影片和詢問內容。
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現,並對比了它們在簡單問題、創作文本和回應短文等方面的效果。
Thumbnail
這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現,並對比了它們在簡單問題、創作文本和回應短文等方面的效果。
Thumbnail
Haiper AI 是一款免費的影片生成工具,是由 Google DeepMind 研究人員開發,只只需要輸入文字提示詞,就能生成各種場景的高質量的影片。
Thumbnail
Haiper AI 是一款免費的影片生成工具,是由 Google DeepMind 研究人員開發,只只需要輸入文字提示詞,就能生成各種場景的高質量的影片。
Thumbnail
在數位化的世界中,用戶介面和信息圖表等視覺元素扮演著越來越重要的角色,而ScreenAI的開發為自然語言處理和計算機視覺的融合開啟了新的可能性。
Thumbnail
在數位化的世界中,用戶介面和信息圖表等視覺元素扮演著越來越重要的角色,而ScreenAI的開發為自然語言處理和計算機視覺的融合開啟了新的可能性。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News