OpenAI宣布开源SimpleQA新基准,专治大模型“胡言乱语”

发布日期：2024-10-31

283 次

当地时间 30 日，OpenAI 宣布，为了衡量语言模型的准确性，将开源一个名为 SimpleQA 的新基准，可衡量语言模型回答简短的事实寻求（fact-seeking）问题的能力。

AI 领域中的一个开放性难题是如何训练模型生成事实正确的回答。当前的语言模型有时会产生错误输出或未经证实的答案，这一问题被称为“幻觉”。能够生成更准确、更少幻觉的回答的语言模型更为可靠，可以用于更广泛的应用领域。

OpenAI 表示，目标是使用 SimpleQA 创建一个具备以下特点的数据集：

高正确性：问题的参考答案由两名独立的 AI 训练师验证，以确保评分的公正性。

多样性：SimpleQA 涵盖广泛主题，从科学技术到电视节目与电子游戏应有尽有。

前沿挑战性：与 TriviaQA（2017 年）或 NQ（2019 年）等早期基准相比，SimpleQA 更具挑战性，尤其针对如 GPT-4o 等前沿模型（例如，GPT-4o 的得分不足 40%）。

高效用户体验：SimpleQA 问题与答案简洁明了，使操作快速高效，并可通过 OpenAI API 等进行快速评分。此外，包含 4326 道问题的 SimpleQA 在评估中应具有较低的方差。

SimpleQA 将是一个简单但具有挑战性的基准，用于评估前沿模型的事实准确性。SimpleQA 的主要限制在于其范围 —— 尽管 SimpleQA 准确，但它只在短查询的受限设置中测量事实准确性，这些查询是事实导向的，并且有一个可验证的答案。

OpenAI 表示，模型在短回答中表现出的事实性是否与其在长篇、多事实内容中的表现相关，这仍是个悬而未决的研究课题。其希望 SimpleQA 的开源能够进一步推动 AI 研究的发展，使模型更加可信并富有可靠性。

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：020-2204 2442,邮箱：Sales@greentest.com.cn。

上一篇: 传OpenAI携手博通及台积电打造自研AI芯片
下一篇: 世芯电子宣布成功流片2nm测试芯片

为您精选

北电数智政务大模型助力打造更加安全高效政务服务体系

当前，人工智能技术正以破竹之势推动政务服务体系数智化升级。IDC数据显示，中国人工智能在政府领域的应用渗透度已达52%，位···

更新日期：2025-03-06 375 次
OpenAI推出首个智能体Operator

当地时间 1 月 23 日，OpenAI正式推出了其首款 AI 智能体Operator。它可以通过自带的浏览器独立浏览网页，并通过键入、单击和···

更新日期：2025-01-24 466 次
OpenAI发布美国AI经济蓝图 AI发展要一切以美国为中心，基础设施建设是决定···

1月13日，OpenAI发布了一份名为“OpenAI 经济蓝图”的重要文件，我第一时间研究了一下这份蓝图，给大家划个重点，一起来看看···

更新日期：2025-01-14 867 次
OpenAI自研AI芯片最快2026年推出,可能交由台积电来生产

7月22日消息，为了将低对外购AI芯片的依赖，传闻微软投资支持的生成式AI应用大厂OpenAI已经开始自行设计与生产相关芯片的计划···

更新日期：2024-07-22 810 次
我国首个开源桌面系统开放麒麟发布AIPC版本支持端侧大模型

7月9日消息，据openKylin（开放麒麟）官方消息，日前openKylin forAIPC版本重磅发布。官方介绍，在人工智能与异构计算技术迅···

更新日期：2024-07-10 581 次

最新文章

中国版ASML新凯来估值已达110亿美元

发布日期: 2025-05-19
人形机器人数量最终或达到数百亿,行业2025年进入量产元年

发布日期: 2025-05-19
AI时代软件工程岗位成微软裁员风暴重灾区

发布日期: 2025-05-19
5个必备的FPGA设计小贴士

发布日期: 2025-05-19
法国最新研究将固态电池技术集成到晶圆级的3D封装中

发布日期: 2025-05-19

关于绿测

广州绿测电子科技有限公司（简称：绿测科技）成立于2015年11月，是一家专注于耕耘测试与测量行业的技术开发公司。绿测科技以“工程师的测试管家”的理念向广大客户提供专业的管家服务。绿测科技的研发部及工厂设立于广州番禺区，随着公司业务的发展，先后在广西南宁、深圳、广州南沙、香港等地设立了机构。绿测科技经过深耕测试与测量领域多年，组建了一支经验丰富的团队，可为广大客户提供品质过硬的产品及测试技术服务等支持。

查看详情

应用解决方案

产品与服务

新闻资讯

绿测工场服务号

绿测科技订阅号

020-2204 2442

新闻资讯

行业资讯

OpenAI宣布开源SimpleQA新基准,专治大模型“胡言乱语”

为您精选

热门文章

罗德与施瓦茨收购苏黎世仪器(Zuric···

国防科大在光学计算成像领域取得重···

中国充电联盟：充电基础设施持续增···

T-BOX市场战火升级，系统级Tier1或···

屏蔽室和静音室的区别(图解)

联发科全球首发3nm旗舰汽车座舱芯片···

高密度电源模块如何实现冗余和快速···

带您详细了解什么是Wi-Fi HaLow

最新文章

中国版ASML新凯来估值已达110亿美元

人形机器人数量最终或达到数百亿,行业2025年进入量产元年

AI时代软件工程岗位成微软裁员风暴重灾区

5个必备的FPGA设计小贴士

法国最新研究将固态电池技术集成到晶圆级的3D封装中

热门标签

在线客服

微信在线咨询

联系电话

咨询热线

公众号

微信扫一扫

回到顶部