SuperCLUE中文大模型基准测评报告：ChatGPT发布一周年报告（39页）

行业报告下载 2024年01月09日 08:02 管理员

国内外差距依然明显。GP T 4 - T u r b o总分 89.79分遥遥领先。高于国内所有大模型及国外代表性大模型。其中国内最好模型文心一言4.0总分74.02分，距离GPT4-Turbo 有15.77分。必须看到的是，过去1年国内大模型已经有了长足的进步。综合能力超过GPT3.5的模型有8个，分别为百度的文心一言4 . 0、零一万物的 Y i - 3 4 B - C h a t 、月之暗面的 Moonshot、vivo的BlueLM、腾讯的混元、阿里云的通义千问 2 . 0 、清华 & 智谱 A I 的 ChatGLM3、字节跳动的云雀。另外国内开源模型在中文上表现要好于国外开源模型，如百川智能的 B a i c h u a n 2 - 1 3 B - C h a t、元象科技的XVERS E - 1 3 B - Chat-2、阿里云的Qwen-14、ChatGLM3- 6B的成绩均大幅优于Llama2-13B-Chat。通过SuperCLUE测评结果发现，国内大模型的第一梯队有了更多新的模型加入。如零一万物的Yi-34B-Chat、腾讯的混元、阿里云的通义千问2.0。你方唱罢我登场，已有模型的新版本或出现的新模型，可能会进一步加剧第一梯队大模型的竞争。在新的大模型竞争中，创业公司和大厂都有一定的优势。大厂有多年积累和大量用户的优势，可以大量获得用户数据和反馈。但一线创业公司同样存在快速技术迭代的优势。多轮开放式问题基准SuperCLUE-OPEN，是使用超级模型作为评判官，用一个待评估模型与一个基准模型（GPT3.5）进行对比，从而得出胜平负的得分。从胜率来看，全球领跑者GPT4-Turbo胜率为49.34%，和率为48.19%，大幅领先于其他模型，而败率仅为2 . 4%，足以说明GPT 4 - T u rbo对 GPT3.5在各项能力上的全面压倒性优势。而国内模型中，零一万物的Yi-34B-Chat和百度的文心一言4.0不相上下，胜率的趋势基本相同，并且表现均好于GPT4。胜率超过20%的还有Moonshot、BlueLM、ChatGLM3-Turbo、腾讯混元、通义千问2.0 和云雀大模型。在200亿参数量级的开源模型中Baichuan2-13B-Chat的胜率排在首位，展现出不俗的对战能力。排在 2 至 3 位的是 Q w e n - 1 4 B - C h a t 和 XVERSE-13B-Chat-2，同样表现可圈可点。