OpenAI发布首款具有推理能力的模型o1可“思考”后自我核实答案正确性

来源自:媒体公告    点击数:1   发布时间:2024-09-14 10:32:07

  ,o1 模型的推理能力大幅度的提高,在物理、化学和生物等学科的 Challenging 基准测试中表现与博士生(即专家型人才)相当。而且其数学和编程能力爆表,在一项国际奥数竞赛(IMO)的资格考试中正确率高达 83%,GPT-4o 的正确率只有 13%,在 Codeforces 在线编程竞赛中的成绩也高达 89 百分位,即前头只有 11% 的人类选手比 o1 模型出色。

  同时,o1模型的安全性得以提升,比之前模型更能遵守安全准则,并且更能抵抗产生有害内容。在用户试图绕过安全规则的 越狱测试 中,在最严格的标准下 GPT-4o 在百分之中仅得 22 分,o1 预览版的分数却高达 84。公司称其 没有促进超过现有资源已经可能实现的评估风险。

  公司称,适用人群包括 正在解决科学、编程、数学和类似领域复杂问题的人士 ,这些增强的推理能力可能特别有用。o1 模型擅长准确生成和调试复杂代码,迷你版是款速度更快、比预览版便宜 80% 的推理模型,在编程方面尤其高效,适用于需要推理但不需要广泛世界知识的应用程序:

  例如,医疗研究人能使用 o1 来注释细胞测序数据,物理学家可以使用 o1 来生成量子光学所需的复杂数学公式,各领域的研发人员可以使用 o1 来构建和执行多步骤工作流程。

  测试过该模型的汤森路透副总裁 Pablo Arredondo 还发现,在分析法律摘要和解决 LSAT(法学院入学考试)的逻辑题等方面,o1 模型比 OpenAI 之前的模型更好: 我们得知它能处理更实质性、更多方面的分析,我们的自动化测试还表明,它在处理一系列简单任务时都有所进步。

  此外,如果点击 展示思路链 便可发现,o1 模型在 思考 时似乎格外 拟人化 ,加入了 嗯…… 、 我很好奇 、 我正在思考 、 好的,让我看看 等口语化的表达来推进思考步骤。

  公司高管称,OpenAI 并不认为人工智能模型思维等同于人类思维,这种更具人性化的表达旨在展示模型如何花费了更多时间处理问题并全面、深入地解决问题。

  可看到思路链中充斥着一些人类口语化的表达缺点:无法浏览实时网页、无法上传文件和图片、缺乏广泛世界知识、或更易产生幻觉

  但作为 o1模型的最初始版本,今日发布的 o1-预览版也有明显缺点。例如,只是一款 纯文字版 ,暂时无法浏览网页信息以及上传文件和图片,也就是说不具备 ChatGPT 的许多使用功能,在许多常见用例中不如 GPT-4o 那么强大,并且还有用量限制,o1 预览版每周上限为 30 条消息,迷你版每周上限为 50 条。

  其他被提及的局限性包括:o1 模型在很多领域的能力不如 GPT-4o,在关于世界的事实知识方面表现不佳;有的用例下推理能力较慢,在大多数情况下要更长的时间来回答问题;目前 o1 只是一个纯文本模型,缺乏针对特定文档进行推理,或者从网络收集实时信息的能力。

  此外,让 AI 模型玩井字棋(Tic-Tac-Toe)一直被认为是个业界难题,拥有推理能力的 o1 新模型也还是会在这样的游戏中出错,即无法完全攻克技术难关。

  OpenAI 还在一篇技术论文中承认,其收到了一些 轶事反馈 ,称 o1 预览版和迷你版比 GPT-4o 及其迷你版更容易产生 幻觉 ,也就是 AI 仍在很自信地编造答案,而且 o1 很少会承认它不知道问题的答案。

  知名科技媒体 Techcrunch 指出,OpenAI 在 o1 模型相关的博文中点明,其决定不向用户展示这一新模型的原始 思维链 ,而是选择在答案中给出思维链的总结摘要,目的是为维持 竞争优势 ,为了弥补可能的缺点, 我们努力教导模型在答案中重现思路链中的任何有用想法。

  OpenAI 可能率先推出了 o1。但假设竞争对手很快也会效仿并推出类似的模型,那么公司线 得到普遍应用。

  OpenAI 未来将不断推出 o1 模型的更新版本,目标是对推理时间长达数小时、数天甚至数周的 o1 模型进行实验,以进一步提升其推理能力。

  除了模型更新之外,我们还希望给 o1 模型添加浏览网页、文件和图片上传等功能,让它对每个人都更有用。在 o1 系列之外,我们还计划继续开发和发布 GPT 系列中的模型。

  在 o1 正式对外发布前,曾有媒体称其最早可能在本周向有限数量的用户开放。而且 OpenAI 并不是唯一致力于开发具有推理能力 AI 模型的公司,Anthropic 和谷歌也都宣称其先进的人工智能模型具有 推理 能力:

  o1 模型的发布,正值 OpenAI 寻求(以 1500 亿美元的超高估值)筹集数十亿美元资金,并且在开发越来越复杂的AI系统方面遭遇更激烈的竞争之际。