取消
搜索历史
热搜词
原创
活动
产业创新
转型理念
ENI专访
当前位置:首页 >文章发布 > 正文
OpenAI 开源 SimpleQA 新基准,专治大模型“胡言乱语”
来源:IT之家  作者: 佚名 2024-10-31 11:26:46
10月31日消息,当地时间30日,OpenAI宣布,为了衡量语言模型的准确性,将开源一个名为SimpleQA的新基准,可衡量语言模型回答简短的事实寻求(fact-seeking)问题的能力。

10月31日消息,当地时间30日,OpenAI宣布,为了衡量语言模型的准确性,将开源一个名为SimpleQA的新基准,可衡量语言模型回答简短的事实寻求(fact-seeking)问题的能力。

AI领域中的一个开放性难题是如何训练模型生成事实正确的回答。当前的语言模型有时会产生错误输出或未经证实的答案,这一问题被称为“幻觉”。能够生成更准确、更少幻觉的回答的语言模型更为可靠,可以用于更广泛的应用领域。

OpenAI表示,目标是使用SimpleQA创建一个具备以下特点的数据集:

高正确性:问题的参考答案由两名独立的AI训练师验证,以确保评分的公正性。

多样性:SimpleQA涵盖广泛主题,从科学技术到电视节目与电子游戏应有尽有。

前沿挑战性:与TriviaQA(2017年)或NQ(2019年)等早期基准相比,SimpleQA更具挑战性,尤其针对如GPT-4o等前沿模型(例如,GPT-4o的得分不足40%)。

高效用户体验:SimpleQA问题与答案简洁明了,使操作快速高效,并可通过OpenAIAPI等进行快速评分。此外,包含4326道问题的SimpleQA在评估中应具有较低的方差。

SimpleQA将是一个简单但具有挑战性的基准,用于评估前沿模型的事实准确性。SimpleQA的主要限制在于其范围——尽管SimpleQA准确,但它只在短查询的受限设置中测量事实准确性,这些查询是事实导向的,并且有一个可验证的答案。

OpenAI表示,模型在短回答中表现出的事实性是否与其在长篇、多事实内容中的表现相关,这仍是个悬而未决的研究课题。其希望SimpleQA的开源能够进一步推动AI研究的发展,使模型更加可信并富有可靠性。

免责声明:本文系网络转载,版权归原作者所有。本文所用图片、文字如涉及作品版权问题,请联系删除!本文内容为原作者观点,并不代表本网站观点。
编辑:乔帅臣
关键词:   OpenAI  大模型  SimpleQA 
活动 直播间  | CIO智行社

分享到微信 ×

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。