中文大模型基准测评2023年度报告（49页）

行业报告下载 2024年02月13日 07:48 管理员

过去半年，国内领军大模型企业实现了大模型代际追赶的奇迹，从7月份与GPT3.5的20分差距，每个月都有稳定且巨大的提升，到1 1月份测评时已经完成总分上对GPT3.5的超越。我们可以看到GPT3.5和GPT4在中文上的表现情况基本一致，在11月份测评结果中显示，在中文能力都有一定的下滑，而国内头部模型则展现了继续稳健提升的能力。在12月份的测评结果中可以看到，国内第一梯队模型与GPT4的差距在缩小。但仍有较大的距离需要追赶。说明：趋势展示，选取了7月-12月SuperCLUE-OPEN 测评分数。国内代表性模型，选取了文心一言、通义千问、ChatGLM。原因是综合考虑了过去半年SuperCLUE测评结果、长期稳定迭代及对国内大模型生态的贡献；GPT4成绩，由GPT4- API(7-9月)与GPT4-Turbo(10-12月)组成，用以表现国外最好模型发展。中文语言理解测评基准 C L U E （ T h e C h i n e s e L a n g u a g e Understanding Evaluation）是致力于科学、客观、中立的语言模型评测基准，发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、 DataCLUE等广为引用的测评基准。 SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评。传统语言模型测评往往局限于学术范围的单轮选择题， SuperCLUE根据多年的测评经验，基于通用大模型在学术、产业与用户侧的广泛应用，构建了多层次、多维度的综合性测评基准。