OpenAI手撕Grok:当大模型评测变成“考试做弊”
咱们总算具有了“地表最聪明AI”——至少埃隆·马斯克是这么点评Grok 3的。马斯克的人工智能草创公司 xAI 于周二宣告了其人工智能谈天机器人Grok3的更新,并宣称在要害核算范畴的测验标明,Grok3测验版在多个重要范畴已超过了竞争对手。
在发布Grok3的视频中,马斯克说到,Grok这一个姓名来源于科幻作家罗伯特·海因莱因(Robert Heinlein)所发明的一个术语,背面的动力是寻求常识。
“xAI和Grok的任务是了解世界,”马斯克表明,“咱们对世界实质的好奇心推进着咱们前行,也使咱们成为一个竭力寻求真理的 AI,哪怕有时候这种真理与政治正确相悖。”
首个Grok谈天机器人于2023年11月发布,之后xAI定时推出更新,继续优化它的大言语模型。大言语模型是一种经过海量数据集练习,可以仿照人类反响的人工智能。
在视频中,马斯克和三位xAI工程师评论了Grok3的体现,并展现了他们称之为新AI引擎逾越竞争对手的图表和数据图。竞争对手包含OpenAI的ChatGPT4、Google的Gemini、Anthropic的Claude,以及新晋参加前沿 AI 渠道,由中国公司推出的DeepSeek。
OpenAI的高管Boris Power最近针对xAI的Grok模型发起了强烈的责备,宣称xAI在模型评测中涉嫌“数据灌水”,引发业界的广泛评论。这场争辩的中心在于两家公司怎么评价自家模型的功能,OpenAI责备Grok团队经过不公正的比照办法,夸张了自家模型的优势。
事情的导火线是Boris Power在公共场所的指控,他表明Grok模型在功能评测上玩起了“障眼法”。具体来说,OpenAI质疑Grok团队选用了一种不合理的办法:他们经过屡次测验选择最高分来展现成果,给人一种模型体现优异的假象。
简略来说,OpenAI的做法是经过一次性测验展现模型的实在水平,而Grok团队则经过64次测验选择最好的成果,然后用这个成果作为“亮点”展现。这种办法看似赢得了高分,却疏忽了功率和本钱的巨大差异。
面临责备,xAI的工程师们匆促回应,辩驳做弊的说法,并宣称Grok团队与OpenAI “用的办法都是相同的”。但是,OpenAI对此并不配合,以为这种比较办法并不公正。
这场争议的焦点在于Grok和OpenAI的评测办法差异。Grok运用的是64次测验(cons@64),而OpenAI则选择了单次测验(cons@1)。简略来说,Grok是经过屡次测验选择最高分来展现模型的最好体现,而OpenAI则是以“单回合对决”的办法,应战自家旧模型,着重新模型的实在实力。
这种差异看似微乎其微,但却暴露了两种天壤之别的评测理念。Grok的办法当然可以提高终究成果,但在功率和本钱上却付出了很高的价值。相反,OpenAI经过“以弱胜强”的办法展现了新模型的优越性,不只体现出色,并且大幅节省了核算资源和本钱。
OpenAI在这场比照中采取了更为严厉的规范,选用新模型与自家旧模型作比照。在这种情况下,新模型需求一次性“打败”旧模型的64次测验成果。这种办法的优点在于可以实在地反映新模型的才能,避免了经过屡次测验寻觅“最优成果”来误导用户。
更重要的是,这种评测办法体现了新模型在核算功率上的优势。经过削减核算资源的耗费,新模型不只在作用上逾越了旧模型,更在实践使用中带来了巨大的本钱节省。这种做法展现了AI在技术革新中的巨大潜力——经过高效、低本钱的办法带来杰出体现。
别的,仅仅是“外表”上的本钱比照,并不能反映AI模型在实践使用中的真实优势。OpenAI经过比照,证明了新模型在提高功率、削减相关本钱方面的巨大潜力。关于任何一个寻求高效的AI使用来说,本钱和功率的优化无疑是最要害的要素。
OpenAI对Grok的质疑,提醒了当时AI评测规范和办法中的一个深层问题——怎么在确保模型功能的一起,完本钱钱和功率的最大化。从OpenAI的视点来看,Grok团队的做法虽然在数据上看似有优势,但在实践使用中却可能会引起巨大的资源糟蹋。