OpenAI 2024 发布会直播 1-2 天,O1 强化学习将大幅提高科研等场景的效率
注:本文长度 2700 字,阅读 6 分钟。
人们想要的是会飞的汽车,得到的却是 140 个字符。 -- Peter Thiel
很多朋友可能感觉这一次的 OpenAI 的发布会,远不如过去一年里的任何一次的发布会好看。这种“不好看”或者说“不性感”是因为这一次的发布跟绝大部分的人都没有直接的关系。但我想说,这种没有符合大家的期待,可能是一件好事。否则 OpenAI 可能更会更像互联网一样,研发出更好的 Character AI 而不是服务人类前沿机构以及关乎人类福祉的科技。
第一天直播(2024-12-05)
第一天直播没什么好讲的。首先是发布了支持图片版本的 O1 系列模型,变得更快了,各方面的效果变得更好了。确实是常规的更新,并且提供了一个 200 美金/月的套餐。这反倒成了超级不专业博眼球的自媒体的炒作点。
评判 200 美金/月到底贵不贵,需要看这个产品的定位。**O1 这个系列从发布之初就不是为了普通对话准备的,这个系列的目的是为了给有更强推理需求的单位准备的。**这次 O1 也非常明确的表示这些是给科研机构的人士的,并且在 Blog 里明确颁发了 10 个 ChatGPT Pro 的奖学金给一些科研机构的用户。对于科研机构来说,200 美金/月的价格属实不贵,因为这些单位的用户,单位时间的价格更高,跟实验设备和花费的时间相比,200 美金在大部分时候可能都是一个相当便宜的价格。
在过去相当长的一段时间里,大家可能也很难体验到 O1 系列的表现到底比 GPT-4o 等模型强多少。因为这核心就是场景不对,这个工具本身的设计可以说到今天做了第二场直播之后才真的被展现出来。请继续看~
第二天直播(2024-12-06)
今天的直播还是顺着 O1 系列的能力发布继续讲,并给了一个真实的使用场景。
支持强化学习微调
O1 系列自称是推理能力更强,并且目标用户大部分时候是在科研领域等特定专业场景下的用户。那么这就会涉及到虽然 O1 推理能力强,但是可能没有足够多的对应的数据来进行预训练,因为数据都散落在各个机构里。那么 O1 能做的最好的方案就是提供更简单的微调过程,以及更好的输出结果。在过去一年里,OpenAI 也有公开表示过跟一些科研机构有合作,可能是最终发现了最大公约数的产品方案。
强化学习微调超级简单
第二个是这次 OpenAI 把强化学习微调的过程做的非常非常的简单。这里可能有个背景,虽然很多科研人员在自己所在的领域里有很强的实力,但是今天的很多实验结果、验证和假设等过程的相关性,并不是通过简单的观察和简单的统计学就能得到的。这天然可能要求该领域里的科研人员还得是全能的数据分析专家,如果想要发现更深的关联,该领域里的科研人员还得是专业的机器学习专家。这显然不现实,那么如何补齐这些短板呢?
Apple 在这几年一直在不断给出很好的思路 —— 提供简单的模型训练过程,让模型训练和使用模型的门槛降低。更简单的说法是让工具更简单。
比如 Apple 在最近三五年一直在非常激进地提高硬件里机器学习部分的性能,其目的是在顺应开发者越来越多的机器学习的场景。但是并不是每个开发者都是机器学习领域的研究者,所以苹果一再简化它的 Core ML 的应用,推出超级简单的 ML Creator。如果你用过的话,你会发现 O1系列的微调过程跟 ML Creator 几乎是一样的。只需要提供一份 JSON 数据、一份验证数据集即可。
但 OpenAI 的本次的 O1 系列的强化学习微调的意义还不止如此。O1 针对的是非格式化的数据,仅此一项,就让这件事的意义提高一个数量级。因为现实世界里有太多的非格式化的数据,如何在非格式化的数据里发现人类发现不了的模式,并且可以做到相当高的准确率,这是一件非常难的事。
O1 强化学习微调案例——罕见病基因诊断
直播里,OpenAI 请来 Berkeley Lab 的计算生物学家,并使用该单位于一些列合作单位整理的一千多条罕见病症状和诊断数据。
这些数据的每一行只是描述患者的症状,然后提供一份指令,最后提供一份正确的答案。然后经过几个小时或者几天的训练,就可以得到一份正确率大幅提高的结果。
这项工作如果在过去,可能需要科研人员或者团队去研究如何构造自己的模型(可能大部分的团队和个人都无法做到),然后经过漫长的测试和验证(会花费相当长的时间和金钱,还不一定效果好)才能做到。
更多领域的合作
直播中 OpenAI 明确表示已经很法律领域里的汤森路透(Thompson Reuters)达成了合作,采用 O1 mini 微调模型作为法律助手,应用在他们的 Co-Counsel AI 产品,帮助法律专业人士完成分析性工作。
过去我们认为难度比较高,专业性要求比较高的领域,目前相当大一部分的工作都可以通过利用 O1 系列模型进行微调,成为该领域的专家模型来胜任这些工作。
比如金融领域、工程领域、保险领域、生物医学领域等。
O1 系列的使命是把 GPT-4o 这样的民用级别的模型的能力边界推向专业领域。
什么时候可以使用?
这项能力目前属于 OpenAI 的 Alpha 项目,预计明年推出。目前 OpenAI 鼓励研究机构、大学和企业申请,特别是那些希望利用 AI 在特定专业领域的复杂任务上提高效率的机构。
申请的领域也是更推荐下述领域:法律、保险、医疗保健、金融、工程领域。
如果你喜欢本文,欢迎推荐给你的朋友。
作者:Erlich Liu
联系:geekthings