中国信通院启动AI大模型幻觉评测,总体涉及五种测试维度

发布日期：2025-03-21

134 次

3 月 19 日消息，IT之家从中国信通院官方微信公众号获悉，为摸清大模型的幻觉现状，推动大模型应用走深走实，中国信息通信研究院人工智能所基于前期的 AI Safety Benchmark 测评工作，发起大模型幻觉测试。

大模型幻觉（AI Hallucination）是指模型在生成内容或回答问题时，产生了看似合理，实则与用户输入不一致（忠实性幻觉）或者不符合事实（事实性幻觉）的内容。随着大模型在医疗、金融等关键领域广泛应用，大模型幻觉带来的潜在应用风险日益加剧，正得到业界的广泛关注。

本轮幻觉测试工作将以大语言模型为测试对象，涵盖了事实性幻觉和忠实性幻觉两种幻觉类型，具体测评体系如下：

测试数据包含 7000 余条中文测试样本，测试形式包括对应于忠实性幻觉检测的信息抽取与知识推理两类题型，以及对应事实性幻觉检测的事实判别题型。总体涉及人文科学、社会科学、自然科学、应用科学和形式科学五种测试维度。

中国信通院邀请各相关企业参与模型测评，共同推动大模型安全应用。

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：020-2204 2442,邮箱：Sales@greentest.com.cn。

上一篇: 我国科学家攻克超低温量子接口技术
下一篇: 深度剖析栅极驱动器IC在半桥拓扑电源转换中的选型指南与隔离设计

为您精选

神经解码革命：脑机接口技术开启人机共融新时代

2025年4月10日，全球电子元器件供应链领军者贸泽电子（Mouser Electronics）正式发布《创新同行》（Empowering Innovation T···

更新日期：2025-04-10 182 次
AI芯片独木难支！DISCO季度出货额近一年首降，股价单日重挫14%跌穿两年防···

全球半导体设备市场迎来分化信号。4月8日，日本晶圆切割龙头DISCO披露2024财年第四财季（2025年1-3月）关键数据：非合并出货···

更新日期：2025-04-10 154 次
北电数智政务大模型助力打造更加安全高效政务服务体系

当前，人工智能技术正以破竹之势推动政务服务体系数智化升级。IDC数据显示，中国人工智能在政府领域的应用渗透度已达52%，位···

更新日期：2025-03-06 355 次
华为发布新一代全闪分布式存储业界最高密、最低功耗

3月4日消息，在昨日的巴塞罗那MWC25上，华为发布AI-Ready的数据存储，助力运营商全面拥抱AI时代。据官方介绍，AI-Ready的数据···

更新日期：2025-03-04 291 次
Marvell宣布推出首款2nm芯片,基于台积电N2，支持AI XPU、交换机开发

3 月 4 日消息，Marvell美满电子当地时间昨日公布了其首款2nmIP 验证芯片。该芯片采用台积电N2 制程，是 Mavell 基于该节点开···

更新日期：2025-03-04 262 次

最新文章

中国版ASML新凯来估值已达110亿美元

发布日期: 2025-05-19
人形机器人数量最终或达到数百亿,行业2025年进入量产元年

发布日期: 2025-05-19
AI时代软件工程岗位成微软裁员风暴重灾区

发布日期: 2025-05-19
5个必备的FPGA设计小贴士

发布日期: 2025-05-19
法国最新研究将固态电池技术集成到晶圆级的3D封装中

发布日期: 2025-05-19

关于绿测

广州绿测电子科技有限公司（简称：绿测科技）成立于2015年11月，是一家专注于耕耘测试与测量行业的技术开发公司。绿测科技以“工程师的测试管家”的理念向广大客户提供专业的管家服务。绿测科技的研发部及工厂设立于广州番禺区，随着公司业务的发展，先后在广西南宁、深圳、广州南沙、香港等地设立了机构。绿测科技经过深耕测试与测量领域多年，组建了一支经验丰富的团队，可为广大客户提供品质过硬的产品及测试技术服务等支持。

查看详情

应用解决方案

产品与服务

新闻资讯

绿测工场服务号

绿测科技订阅号

020-2204 2442

新闻资讯

行业资讯

中国信通院启动AI大模型幻觉评测,总体涉及五种测试维度

为您精选

热门文章

半导体技术创新：推动电信的可靠性···

学习华为、智米“求变”新能源，奇···

中国联通在3GPP牵头立项毫米波方向···

电磁辐射知识科普：为什么信号越弱···

Gartner发布2025年及未来中国CIO数···

复旦大学发现新型高温超导体,成果登···

什么是声级计？它的工作原理是什么···

EV Connect和bp pulse宣布软件集成···

最新文章

中国版ASML新凯来估值已达110亿美元

人形机器人数量最终或达到数百亿,行业2025年进入量产元年

AI时代软件工程岗位成微软裁员风暴重灾区

5个必备的FPGA设计小贴士

法国最新研究将固态电池技术集成到晶圆级的3D封装中

热门标签

在线客服

微信在线咨询

联系电话

咨询热线

公众号

微信扫一扫

回到顶部