首页 行业报告下载文章正文

中文大模型基准测评2023年度报告(49页)

行业报告下载 2024年02月13日 07:48 管理员

过去半年,国内领军大模型企业实现了大模型 代际追赶的奇迹,从7月份与GPT3.5的20分差 距,每个月都有稳定且巨大的提升,到1 1月份 测评时已经完成总分上对GPT3.5的超越。 我们可以看到GPT3.5和GPT4在中文上的表现 情况基本一致,在11月份测评结果中显示,在中 文能力都有一定的下滑,而国内头部模型则展现 了继续稳健提升的能力。在12月份的测评结果中 可以看到,国内第一梯队模型与GPT4的差距在 缩小。但仍有较大的距离需要追赶。 说明: 趋势展示,选取了7月-12月SuperCLUE-OPEN 测评分数。国内代表性模型,选取了文心一言、 通义千问、ChatGLM。原因是综合考虑了过去 半年SuperCLUE测评结果、长期稳定迭代及对 国内大模型生态的贡献;GPT4成绩,由GPT4- API(7-9月)与GPT4-Turbo(10-12月)组成,用 以表现国外最好模型发展。中 文 语 言 理 解 测 评 基 准 C L U E ( T h e C h i n e s e L a n g u a g e Understanding Evaluation)是致力于科学、客观、中立的语言模型 评测基准,发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、 DataCLUE等广为引用的测评基准。 SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的 综合性测评。传统语言模型测评往往局限于学术范围的单轮选择题, SuperCLUE根据多年的测评经验,基于通用大模型在学术、产业与用户 侧的广泛应用,构建了多层次、多维度的综合性测评基准。

中文大模型基准测评2023年度报告(49页)

文件下载
资源名称:中文大模型基准测评2023年度报告(49页)


标签: 人工智能AI行业报告

并购家 关于我们   意见反馈   免责声明 网站地图 京ICP备12009579号-9

分享

复制链接

ipoipocn@163.com

发送邮件
电子邮件为本站唯一联系方式