OpenAI 开源 SimpleQA 新基准，专治大模型“胡言乱语” - ENI文章 - ENI经济和信息化网

当前位置：首页 >文章发布 > 正文

OpenAI 开源 SimpleQA 新基准，专治大模型“胡言乱语”

来源：IT之家作者：佚名 2024-10-31 11:26:46

10月31日消息，当地时间30日，OpenAI宣布，为了衡量语言模型的准确性，将开源一个名为SimpleQA的新基准，可衡量语言模型回答简短的事实寻求(fact-seeking)问题的能力。

AI领域中的一个开放性难题是如何训练模型生成事实正确的回答。当前的语言模型有时会产生错误输出或未经证实的答案，这一问题被称为“幻觉”。能够生成更准确、更少幻觉的回答的语言模型更为可靠，可以用于更广泛的应用领域。

OpenAI表示，目标是使用SimpleQA创建一个具备以下特点的数据集：

高正确性：问题的参考答案由两名独立的AI训练师验证，以确保评分的公正性。

多样性：SimpleQA涵盖广泛主题，从科学技术到电视节目与电子游戏应有尽有。

前沿挑战性：与TriviaQA(2017年)或NQ(2019年)等早期基准相比，SimpleQA更具挑战性，尤其针对如GPT-4o等前沿模型(例如，GPT-4o的得分不足40%)。

高效用户体验：SimpleQA问题与答案简洁明了，使操作快速高效，并可通过OpenAIAPI等进行快速评分。此外，包含4326道问题的SimpleQA在评估中应具有较低的方差。

SimpleQA将是一个简单但具有挑战性的基准，用于评估前沿模型的事实准确性。SimpleQA的主要限制在于其范围——尽管SimpleQA准确，但它只在短查询的受限设置中测量事实准确性，这些查询是事实导向的，并且有一个可验证的答案。

OpenAI表示，模型在短回答中表现出的事实性是否与其在长篇、多事实内容中的表现相关，这仍是个悬而未决的研究课题。其希望SimpleQA的开源能够进一步推动AI研究的发展，使模型更加可信并富有可靠性。

免责声明：本文系网络转载，版权归原作者所有。本文所用图片、文字如涉及作品版权问题，请联系删除！本文内容为原作者观点，并不代表本网站观点。

编辑：乔帅臣

关键词： OpenAI 大模型 SimpleQA

[已收藏] [关闭] [返回顶部]

e-show 一手

活动直播间 | CIO智行社

E-PRO

施怀鹏安佑集团信息中心副总监

安佑集团信息中心副总监，曾任职于三一集团，拥有超过17年的信息技术领域经验，擅长IT战略规划与应用创新。曾成功领导多个大型IT项目，有效...

赖江龙传化集团CIO

传化集团CIO，负责变革与数字化转型工作，荣获国家智能制造示范、国家工业与互联网融合示范、国家双创平台，国家两化融合示范等多项国家级...