取消
搜索历史
热搜词
原创
活动
产业创新
转型理念
ENI专访
当前位置:首页 >文章发布 > 正文
OpenAIo1AI模型PlanBench规划能力实测:准确率97.8%
来源:IT之家  作者: 佚名 2024-09-25 16:23:18
9月25日消息,来自亚利桑那州立大学的科研团队利用PlanBench基准,测试了OpenAIo1模型的规划能力。研究结果表明o1模型取得了长足的进步,但仍然存在很大的局限性。

9月25日消息,来自亚利桑那州立大学的科研团队利用PlanBench基准,测试了OpenAIo1模型的规划能力。研究结果表明o1模型取得了长足的进步,但仍然存在很大的局限性。

PlanBench开发于2022年,用于评估人工智能系统的规划能力,包括600个来自Blocksworld领域的任务,其中积木必须按照特定顺序堆叠。

在Blocksworld任务中,OpenAI的o1模型准确率达到97.8%,大大超过了之前的最佳语言模型LLaMA3.1405B(准确率为62.6%)。

在更具挑战性的“MysteryBlocksworld”加密版本中,传统模型几乎全部失败,而OpenAI的o1模型准确率达到52.8%。

研究人员还测试了一种新的随机变体,以排除o1的性能可能源于其训练集中的基准数据。在这次测试中,O1的准确率降至37.3%,但仍远远超过了得分接近零的其它模型。

随着任务越来越复杂,o1的表现也急剧下降。在需要20到40个规划步骤的问题上,o1在较简单测试中的准确率从97.8%下降到只有23.63%。

该模型在识别无法解决的任务方面也很吃力,只有27%的时间能够正确识别。在54%的情况下,它错误地生成了完整但不可能完成的计划。

虽然o1在基准性能上实现了“量子改进”(Quantumimprovement),但它并不能保证解决方案的正确性。如快速向下算法等经典的规划算法,可以在更短的计算时间内实现完美的准确性。

研究还强调了o1的高资源消耗,运行这些测试需要花费近1900美元,而经典算法在标准计算机上运行几乎不需要任何成本。

研究人员强调,对人工智能系统进行公平比较必须考虑准确性、效率、成本和可靠性。他们的研究结果表明,虽然像o1这样的人工智能模型在复杂推理任务方面取得了进步,但这些能力还不够强大。

免责声明:本文系网络转载,版权归原作者所有。本文所用图片、文字如涉及作品版权问题,请联系删除!本文内容为原作者观点,并不代表本网站观点。
编辑:乔帅臣
关键词:   大模型  OpenAI  人工智能 
活动 直播间  | CIO智行社

分享到微信 ×

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。