OpenAI 2024 发布会第 9 天:迄今为止内容最丰富的一天(对于开发者来说)

注:本文长 2000 字,阅读 6 分钟,推荐观看下方视频。

TL,DR:

今天是 OpenAI 2024 年末 12 场发布会的第 9 场,也是迄今为止内容最丰富的一场。简而言之更新了四件事:

  1. OpenAI O1 正式版模型发布,并且支持 Function Calling开发者消息(System Message 的升级版)结构化输出以及视觉识别功能。
  2. Realtime API 升级,从 Socket 改为 WebRTC,链接配置更简单更稳定,GPT-4o 音频模型降价 60%,推出价格仅为之前 1/10 的 GPT-4o mini 音频模型
  3. 发布偏好微调功能(Perference Fine-Tuning),帮助开发者在特定的场景下获得更好的输出。
  4. 更新 SDK,发布 GO 和 Java SDK

不得不承认,OpenAI 最近发布的内容真的是已经被 Google 压着走,有空我也会跟着更新一些关于 Google 发布的信息。包括大家现在仍然可以免费在 erlich.fun 上体验免费的(我认为比 GPT-4o 更好的全模态)Gemini 2 Flash 模型。

我们一个一个还是简单过一下细节以及意义。

OpenAI O1 模型正式版发布

  1. 目前的版本响应速度更快;
  2. O1 模型支持新的“思考时间”参数—— Reasoning Effort ,可以根据处理任务的难度调整输出速度和算里的消耗,从而最优化成本;
  3. 支持一个新的 Developer Messages,过去的 Messages 只分为 System Messages、Assistant Messages、User Messages,现在把 System Messages 替换为 Developer Messages,可以实现更好的模型控制;
  4. 支持视觉识别能力、Function Calling 能力、结构化输出能力。

目前只针对最高一级的开发者提供,也就是 Tier 5 级别的开发者账户开放,未来几周会对全部的开发者开放。

Realtime API

  1. 支持 WebRTC,开发者接入更简单,需要优化和处理的部分更简单,也可以更好的跟物联网设备集成(比如最近比较火热的 AI 眼镜这个赛道)。

  2. 降低成本:GPT0-4o 的音频模型成本降低 60%,推出了价格仅为之前 1/10 的 GPT-4o mini 音频模型。并且触发缓存的价格也降低了,目前价格:

    模型降价幅度新的输入价格新的输出价格新的触发缓存输入价格
    GPT-4o 语音模型60%$40/ M tokens$80 / M tokens$2.5 / M tokens
    GPT-4o mini 语音模型90%$10/ M tokens$20 / M tokens$0.3 / M tokens
  3. 会话时间延长:从过去的一个会话时长 15 分钟延长至 30 分钟。

这次降价和推出新的模型确实意义很大。我在没有降价之前尝试过几次,但无奈价格太贵,根本不敢拿来做开发使用,我当时测算的平均成本大概是 1 小时 300 元人民币左右的成本。Realtime API 是个非常好的工具,也可能最能贴近用户并大量使用的 AI 形态,但是过去由于成本太高,导致能做到 300/小时成本的场景就很有限。目前价格虽然降低了 60% ,但是对于国内用户来说仍然价格太高;不过目前还有价格仅为 1/10 的 GPT-4o mini 语音模型可选,成本开始变得更加可以接受。比如英文或其他语言学习场景会开始首先爆发,30元/小时的成本也变得可以接受。

我预计最近因该就会有厂商可以推出最低 150 元/月的口语学习产品,效果还会远好于过去的任何产品。

偏好微调(Perference Fine-tuning)

这个功能更偏向于处理一些带有“主观”性的任务,比如直播当中提到目前已经跟金融分析公司合作来优化输出结果。怎么理解这种主观性呢?比如我们现在上传一份财报给 ChatGPT,让它来评价这家公司在这份财报当中的表现,大概率 ChatGPT 会更加的左右逢源,不会给出太多的个人偏好和判断结果。但是在这种场景下,其实我们要的就是一些观点(或者说偏好),那么我们就可以对这样的内容进行 Fine-tuning,比如在这些场景下给出更有偏好性的结果,这样 ChatGPT 就会产生更大的价值。

SDK 更新

  1. 支持 GO SDK 和 Java SDK,过去大家完全是依赖自己封装的版本,现在为了让大家更快的进行开发,OpenAI 官方开始提供对应的 SDK。对于新的开发者和开发项目而言,可能是更快的,但是对于老的项目,尤其是有一定用户量和基础的,可能大家也不会去更新,毕竟完全自己可控更靠谱一些。

非常利好新项目和小型开发者,未来可能会有更复杂 API 的情况下,可能会价值更高。

期待

这一轮基于 WebRTC 的 Realtime API 的更新,最期待的可能就是更多的基础设施层级的开源项目会更快提供支持,国内应该短期还有不少的新机会和新的产品生长空间,就看谁的场景找的又快又准了。

并且这一轮的更新跟我最近一直在学习和要做的产品也十分相关,我也会积极的做一些最新发布的 Realtime API 的尝试,未来可能还会跟大家分享更多。

本次的内容就到此结束啦,如果你喜欢本篇内容,欢迎转发给你的朋友。

作者:Erlich Liu

微信号:geekthings