OpenAI手撕Grok：当大模型评测变成“考试做弊”_媒体公告_火狐官网下载-火狐体育竞彩网首页-火狐彩票官网登录入口

About us媒体公告

来源自：媒体公告点击数：1 发布时间：2025-02-23 07:11:10

咱们总算具有了“地表最聪明AI”——至少埃隆·马斯克是这么点评Grok 3的。马斯克的人工智能草创公司 xAI 于周二宣告了其人工智能谈天机器人Grok3的更新，并宣称在要害核算范畴的测验标明，Grok3测验版在多个重要范畴已超过了竞争对手。

在发布Grok3的视频中，马斯克说到，Grok这一个姓名来源于科幻作家罗伯特·海因莱因（Robert Heinlein）所发明的一个术语，背面的动力是寻求常识。

“xAI和Grok的任务是了解世界，”马斯克表明，“咱们对世界实质的好奇心推进着咱们前行，也使咱们成为一个竭力寻求真理的 AI，哪怕有时候这种真理与政治正确相悖。”

首个Grok谈天机器人于2023年11月发布，之后xAI定时推出更新，继续优化它的大言语模型。大言语模型是一种经过海量数据集练习，可以仿照人类反响的人工智能。

在视频中，马斯克和三位xAI工程师评论了Grok3的体现，并展现了他们称之为新AI引擎逾越竞争对手的图表和数据图。竞争对手包含OpenAI的ChatGPT4、Google的Gemini、Anthropic的Claude，以及新晋参加前沿 AI 渠道，由中国公司推出的DeepSeek。

OpenAI的高管Boris Power最近针对xAI的Grok模型发起了强烈的责备，宣称xAI在模型评测中涉嫌“数据灌水”，引发业界的广泛评论。这场争辩的中心在于两家公司怎么评价自家模型的功能，OpenAI责备Grok团队经过不公正的比照办法，夸张了自家模型的优势。

事情的导火线是Boris Power在公共场所的指控，他表明Grok模型在功能评测上玩起了“障眼法”。具体来说，OpenAI质疑Grok团队选用了一种不合理的办法：他们经过屡次测验选择最高分来展现成果，给人一种模型体现优异的假象。

简略来说，OpenAI的做法是经过一次性测验展现模型的实在水平，而Grok团队则经过64次测验选择最好的成果，然后用这个成果作为“亮点”展现。这种办法看似赢得了高分，却疏忽了功率和本钱的巨大差异。

面临责备，xAI的工程师们匆促回应，辩驳做弊的说法，并宣称Grok团队与OpenAI “用的办法都是相同的”。但是，OpenAI对此并不配合，以为这种比较办法并不公正。

这场争议的焦点在于Grok和OpenAI的评测办法差异。Grok运用的是64次测验（cons@64），而OpenAI则选择了单次测验（cons@1）。简略来说，Grok是经过屡次测验选择最高分来展现模型的最好体现，而OpenAI则是以“单回合对决”的办法，应战自家旧模型，着重新模型的实在实力。

这种差异看似微乎其微，但却暴露了两种天壤之别的评测理念。Grok的办法当然可以提高终究成果，但在功率和本钱上却付出了很高的价值。相反，OpenAI经过“以弱胜强”的办法展现了新模型的优越性，不只体现出色，并且大幅节省了核算资源和本钱。

OpenAI在这场比照中采取了更为严厉的规范，选用新模型与自家旧模型作比照。在这种情况下，新模型需求一次性“打败”旧模型的64次测验成果。这种办法的优点在于可以实在地反映新模型的才能，避免了经过屡次测验寻觅“最优成果”来误导用户。

更重要的是，这种评测办法体现了新模型在核算功率上的优势。经过削减核算资源的耗费，新模型不只在作用上逾越了旧模型，更在实践使用中带来了巨大的本钱节省。这种做法展现了AI在技术革新中的巨大潜力——经过高效、低本钱的办法带来杰出体现。

别的，仅仅是“外表”上的本钱比照，并不能反映AI模型在实践使用中的真实优势。OpenAI经过比照，证明了新模型在提高功率、削减相关本钱方面的巨大潜力。关于任何一个寻求高效的AI使用来说，本钱和功率的优化无疑是最要害的要素。

OpenAI对Grok的质疑，提醒了当时AI评测规范和办法中的一个深层问题——怎么在确保模型功能的一起，完本钱钱和功率的最大化。从OpenAI的视点来看，Grok团队的做法虽然在数据上看似有优势，但在实践使用中却可能会引起巨大的资源糟蹋。