简述2024谷歌I/O开发者大会的五大亮点

这两天，谷歌和微软在人工智能赛道上演了一出神仙打架。

前一天，OpenAI刚刚发布了重大更新GPT-4o，颠覆了以往的语音搜索模式，全网刷屏，将压力交给了谷歌。后一天，5月15日，谷歌不负众望，在2024年I/O开发者大会一口气发布了十几款产品更新，捍卫了人工智能界“一哥”的地位。

前后两天，这场人工智能界的盛宴颠覆了以往科技盛会的传统，互联网巨头两强围绕着AI赛道打得难解难分。在时长不到两小时的I/O开幕式期间，谷歌CEO桑达尔·皮查伊携一众谷歌高管总共提到121次“AI”。谷歌DeepMind的联合创始人兼CEO戴密斯·哈萨比斯首次在I/O大会上发表演讲，顺序仅次于皮查伊。种种信号告诉我们，AI大模型已经成为谷歌的头等大事。

下面来看看本次2024年I/O开发者大会浓缩的五大亮点。

第一大亮点，谷歌发布了语音对话人工智能助手Gemini Live，用户可以在移动应用上与 Gemini 进行对话。

目前，该应用已在iOS 和 Android 平台上更新，Gemini会提供带有炫酷音频波形效果的全屏体验。用户可以按照自己的节奏说话，谷歌会根据你的节奏进行调整，并在Gemini回复时随时打断它，添加新信息或要求它进行解释，功能相当强大。

本次，谷歌为Gemini用户提供了10种不同的声音选择。作为“Project Astra”的一部分，该功能很快将升级为对话视频功能。谷歌还播放了一段视频演示，其人工智能代理 "Project Astra "能够识别摄像机画面上显示的物体，并理解计算机屏幕上显示的代码，以及其他任务。

第二大亮点，谷歌还发布了针对图像、视频和音乐的人工智能生成工具，分别叫做Imagen 3、Veo和Music AI Sandbox。

其中最阴引人注目的，无疑还是Veo。

作为一个全新的视频生成模型，只需一个文本、图像或视频提示，Veo就能帮助用户制作和编辑70秒以上不同视觉风格的高质量1080p视频。不仅如此，和Sora不同的是，用户可以自定义各种风格模式，还能通过点击增长时间，使Veo生成的视频时长超过1分钟。谷歌表示，Veo的部分功能将在Labs.Google上向部分创作者开放。

Imagen 3的功能同样不容小觑。谷歌表示，在一众可以仅凭文本生成图像的大模型中，Imagen 3更受市场青睐。皮查伊更是将Imagen 3称为“迄今为止渲染文字的最佳模型”。用户可以在Labs.Google 上注册试用 Imagen 3，随后开发者和企业客户也可以使用它。

Music AI Sandbox则是由谷歌和油管的一众艺人合作打造，兼具科技水平和专业效果。音乐家说，AI就像一个朋友，让你试试这个、试试那个，这可以解放他们的创造力，让他们更高效地创作音乐。

第三大亮点，谷歌即将在浏览器搜索中引入Gemini支持的AI Overview功能。

新功能可以使浏览器支持多轮推理，将复杂问题分解处理，将原本需要几分钟甚至几个小时的研究压缩到在几秒钟内完成，还将支持在搜索中对视频提问。

AI Overview将给谷歌搜索带来完全不同的体验，该工具可以使浏览器在顶部页面汇总搜索内容，并使用谷歌的其他原生应用（如谷歌地图）来回答用户输入的问题，并对视频输入做出响应。皮查伊宣布，谷歌即日起开始向每位美国用户推出基于Gemini改进的搜索体验，本周将向更多国家开放。谷歌搜索负责人Liz Reid则强调，谷歌的AI搜索概述有三大独特优势：实时信息、排名和质量体系、Gemini模型能力。

第四大亮点，谷歌将逐步将人工智能整合到安卓设备中。

在本次大会上，谷歌宣布，其人工智能技术将通过 Gemini Nano（最小的 Gemini 型号）集成到安卓设备中，以便在本地运行人工智能。

该公司表示，今年晚些时候，Pixel 手机将通过 Gemini Nano 实现多模态人工智能功能。一位谷歌员工在会上解释说：“这意味着你的手机可以用你理解的方式来理解世界，” 他补充说，“有了谷歌纳米，设备可以对文字、视觉和音频输入做出反应。”

该模型使用从用户手机收集的上下文，并在设备上本地运行工作负载，这可以最大限度地减少一些隐私问题。本地运行的人工智能技术最大限度地减少了在远程服务器上运行人工智能时可能出现的延迟，而且由于所有工作都是在设备上进行的，因此无需互联网连接即可工作。

第五大亮点，在大会上，谷歌宣布将改进其人工智能模型 Gemini 1.5 Pro，推出新的Gemini 1.5 Flash模型，新增两个Gemma模型，并发布新版张量处理单元（TPU）。

首先，Gemini 1.5 Pro 的变化包括对翻译、编码、推理和其他用途的改进，以提高质量。新的Gemini 1.5 Flash是一个较小的模型，针对速度优先的更明确任务进行了优化。Gemini 1.5 Pro和Gemini 1.5 Flash从本周二开始提供预览版，并将于 6 月全面上市。

其次，谷歌还为其 “轻量级开放模型”系列Gemma推出了两款新模型PaliGemma和 Gemma 2。PaliGemma 是一种视觉语言开放模型，该公司称这是首款此类模型，将于周二推出Gemma 2是下一代Gemma，将于6月推出。

最后，谷歌发布了第六代TPU——Trillium，该公司表示，与上一代产品相比，该产品的单位芯片计算性能提高了4.7倍。该公司还重申，它将在2025年初成为首批提供英伟达（Nvidia）Blackwell GPU的云提供商之一。

皮查伊表示，目前谷歌仍处于AI平台转型的初期，“我们看到了为创作者、开发者、初创公司以及每一个人所带来的巨大机遇。帮助推动这些机遇正是我们Gemini时代的意义所在。“

#谷歌##微软##Gemini##OpenAI#