Google Gemini 2.0/ 或许会成为接下来构建 Agent 的首选基础模型

注:全文长 2800 字,阅读 8 分钟。

New AI Model for the Agentic Era

Text "Gemini 2.0" in front of a futuristic blue and black abstract background

这篇文章确实来的有点晚了,不过我之所以想重新提,是因为经过了十几天的媒体报道之后,我发现似乎大部分媒体并没有跟着 Google 定下的主题:New AI model for the agentic era(代理时代的模型) 做更多的解读,但事实上,我认为 Google 这次发布会,Agent 才是最重要的点,并且这次发布会也没有专门称之为 Gemini 2.0 发布会。Google CEO 桑达尔·皮查伊(Sundar Pichai)亲自在博客里做了开场,重述这一点的重要性。

虽然晚了点,但这篇文章就是专门从这个角度来想重新带大家看看。Google 凭借这一次的发布,我认为 Google 的 Gemini 2.0 会很快成为各种架构的 Agent 的首选模型之一。

发布

Google 在 2024 年 12 月 11 日就发布了 Gemini 2.0 这个最先进的 all in one 模型系列。在发布会结束后,我也只是通过 Google AI Studio 体验了一下,觉得实时的多模态的体验确实非常好。作为对比,在 12 月 11 日以及之前,OpenAI 也只是对外发布了 all in one 的 GPT-4o,但是大家都无法体验到,12 月 12 日 OpenAI 发布了高级语音+高级视频功能的 all in one GPT-4o 后,免费用户仍然体验不到。但是 Google 在提前一天发布,并且可以直接体验,延迟非常低,支持文字输入、语音输入、视频输入、音频流、视频流输入等,最直观地就是可以开视频或者共享屏幕跟 Gemini 2.0 Flash 聊天。

于是第一时间体验之后,我就把可以展示实时多模态交互的 Gemini 2.0 Flash API 接入到了我的个人博客,大家可以点击免费体验。

简单梳理发布了什么

Gemini 2.0 发布,但仅供可信任的开发者使用,2025 年年初更大范围公布

Gemini 2.0 发布,但是没有展示更多的内容,现在还在他们的测试和可信任的开发者测试阶段,但是后面展示的所有的 Agent 相关的内容大部分是基于 Gemini 2.0 的。性能不必多说,因为现在 Gemini 2.0 Flash 已经证明了。

Gemini 2.0 Flash 实验版本可以供所有开发者和 Gemini Pro 用户使用

  • Gemini 2.0 Flash 速度比 Gemini 1.5 Pro 速度快两倍
  • 大部分性能参数已经超过 Gemini 1.5 Pro
  • All in one 模型,支持文字、图片、音频、视频输入;支持文字、图片、音频混合输出(但目前仅支持文字输出)

A chart comparing Gemini models and their capabilities

这三个重点就足以显示出 Gemini 2.0 Flash 有多强大了,同等级别的 all in one 应该就此一家了。所有用户都可以在 Google AI Studio 免费体验。

重点梳理 Agent

已经成型的产品层面的 Agent

  • Project Astra - 手机端的助手
  • Project Mariner - 浏览器端的助手

Project Astra

Project Astra 有几项主要的提升:

  • 更好的对话:Astra 项目现在能够以多种语言和混合语言进行对话,更好地理解口音和不常见的单词。
  • 新工具使用:通过 Gemini 2.0,Project Astra 可以使用 Google 搜索、Lens 和地图,使其在日常生活中作为助手更加实用。
  • 更好的记忆:我们提高了 Project Astra 记忆事物的能力,同时让您保持控制。它现在拥有最长 10 分钟的会话记忆,并且可以记住您过去与它的更多对话,因此它更能个性化地服务于您。
  • 改进的延迟:通过新的流媒体功能和本地音频理解,代理可以以接近人类对话的延迟理解语言。

非常推荐你点击查看 Google 在 Youtube 上的 Astra 的宣传视频,非常直观。

Project Mariner

Project Mariner 是一个 Chrome 上的插件,可以通过自然语言来进行任务下定,然后自动进行任务规划、任务拆解、任务执行、反思,最终完成任务。

Google 在 Youtube 上的 Mariner 的宣传视频,同样是比较推荐查看。比起 Astra,Mariner 的完成度更低一点,未来可能会因为更好的形态或者交互而被更新掉,这个更像是阶段性的尝试,Google 也承认在这个阶段略有不足。

开发者层面

其实最好看的部分是展示给开发者们的产品。由于篇幅有限,非常推荐查看原文

核心能力和演示的内容主要集中在这几个方面:

1.更强的性能

在关键基准测试中显示出 Gemini 2.0 Flash 在多模态、文本、代码、视频、空间理解和推理性能都有改善,并且改进了空间理解,使得在杂乱图像中对小物体生成更准确的边界框成为可能,并且提高了物体识别和标注的准确性。

为了演示这一点,Google 展示了通过模型对画面的理解来进行视觉标注,这也充分展示了 Gemini 2.0 对现实物理世界的空间理解能力。

通过自然语言标注主体

2.新的输出模式

主要增加了原生的多语言输出能力(目前普通开发者还无法使用),以及原生的图像输出能力(同样的普通开发者暂时还无法使用)。

Google 展示了 Gemini 2.0 Flash 如何通过原生的图像生成能力,用自然语言描述的方式把一台小轿车改为敞篷车。Google 真的实现了通过 Gemini 2.0 模型通吃的能力。

通过自然语言输出重新绘制的图片

3.原生的工具使用

原生的工具使用让 Gemini 2.0 可以使用搜索以及执行代码,而且可以在实时 API 的情况下使用,速度非常快,这完全具备了跟现实世界交互的基础。

Google 演示了如何通过实时语音对话的方式使用代码执行功能,通过 Python 代码来渲染表格。同样的,未来我们也可以通过实时语音通过代码实现更多的功能。

通过实时语音调用代码

4.多模态实时 API

最后就是多模态的实时 API,正如我们前文提到的,你可以直接在 Google AI Studio 体验或者在 我的个人博客 免费体验。

最后

本次 Gemini 2.0 的发布,更多的像是在应用层在做 Agent 的构建展示,展示 Gemini 2.0 的能力以及自己对构建 Agent 的思路和决心,当然,还有一部分的真实产品的发布,比如 Project Astra。

比起 OpenAI 的发布会,Google 的发布会展示出来的 Agent 的能力让人更加惊叹。Gemini 在战略上一直在支持超长上下文,1M 上下文可以让 Gemini 有更长的记忆力,这会拥有天然的优势。正如桑达尔·皮查伊所说,正是因为上下文的能力,才让 Google 的 NotebookLM 变得这么受欢迎。

Google 同样有用更大的应用场景,以及更好的开发者资源和合作伙伴,并且在最新的发布上,Google 公布了跟知名创业公司 tldraw 的尝试,tldraw 在 Gemini 2.0 的基础上实现了一项非常炫酷的功能 tldraw Computer,用户可以在 tldraw 的白板上随意画图,标注模块功能,从而实现一个自然语言编程和运行的计算机。

比起 OpenAI 和 Anthropic 的产品,Google 的 Gemini 2.0 将更可能成为接下来的 Agentic 时代的首选基础模型。


如果你也喜欢这篇内容,欢迎转发给你的朋友。

作者:Erlich Liu

微信号:geekthings