🎬 Gemini 2.5：让视频“开口说话”的 AI 魔法

睁眼AI世界

更新於 2025/05/13發佈於 2025/05/13閱讀時間約 4 分鐘

TL;DR（重点摘要）

视频理解新突破：Gemini 2.5 Pro 在多个视频理解基准测试中取得了最先进的表现，超越了 GPT-4.1 等近期模型。
多模态融合：首次实现了原生多模态模型能够将音视频信息与代码等其他数据格式无缝结合。
互动应用生成：能够将视频内容转化为互动式应用程序，如教育工具和动画演示。
长视频处理能力：在低媒体分辨率设置下，Gemini 2.5 Pro 可处理长达 6 小时的视频内容，具备 200 万 token 的上下文窗口。
可用性：Gemini 2.5 的视频理解功能已在 Google AI Studio、Gemini API 和 Vertex AI 中上线。

🧠 Gemini 2.5 的视频理解能力

Gemini 2.5 Pro 在多个视频理解基准测试中取得了最先进的表现，超越了 GPT-4.1 等近期模型。此外，它在多个挑战性基准测试中表现出色，甚至与专门微调的模型相媲美。

该模型能够无缝地将音频、视觉和代码等多种数据格式结合，首次实现了原生多模态模型的融合能力。

🧩 视频转化为互动应用

Gemini 2.5 Pro 解锁了将视频转化为互动应用的新可能性。例如，Google AI Studio 的 Video To Learning App 使用 Gemini 2.5 分析视频内容，并生成强化视频关键概念的学习应用程序。

该模型首先接收一个 YouTube 视频链接和一个文本提示，分析视频并创建详细的应用程序规格说明。然后，将规格说明发送回 Gemini 2.5 Pro，生成应用程序的代码。

🎨 使用 p5.js 从视频创建动画

Gemini 2.5 Pro 还支持从视频生成动态动画，开启了自动内容生成和视频摘要的新途径。例如，输入一个关于 Project Astra 的视频和提示“使用 p5.js 创建一个涵盖视频中不同地标的动画”，Gemini 2.5 Pro 会分析视频并生成相应的 p5.js 动画，按视频中的时间顺序可视化地标。

🔍 视频片段检索与描述

Gemini 2.5 Pro 擅长使用音视频线索识别视频中的特定片段，其准确率显著高于以往的视频处理系统。例如，在一段 10 分钟的 Google Cloud Next '25 开幕主题演讲视频中，它准确识别出 16 个与产品演示相关的独特片段。

🕒 时间推理能力

借助先进的片段检索能力，Gemini 2.5 Pro 还能够解决复杂的时间推理问题，如计数。例如，在 Project Astra 视频中，Gemini 成功地计算出主角使用手机的 17 次独立事件。

🛠️ 构建基于 Gemini 2.5 的视频应用

Gemini 2.5 Flash 和 Pro 的视频理解功能已在 Google AI Studio、Gemini API 和 Vertex AI 中上线。通过 Gemini API 和 Google AI Studio，支持处理 YouTube 视频，使开发者能够构建访问数十亿视频的应用程序。

Gemini API 现在提供了一个“低”媒体分辨率参数，使 Gemini 2.5 Pro 能够在 200 万 token 的上下文窗口下处理约 6 小时的视频内容。这为许多长视频理解用例提供了更具成本效益的设置，同时保持了竞争力的视频理解性能（例如，在 VideoMME 上的准确率为 84.7%，而标准设置为 85.2%）。

原文链接：Advancing the frontier of video understanding with Gemini 2.5

留言

留言分享你的想法！

tae

4 天前