中国通用大模型内容生成及安全性能力评测报告（25页）

行业报告下载 2023年08月23日 07:23 管理员

经过多方多轮次专家的建议与修订，拟采用如下评测标准，包括6大维度27个细化的指标项，作为对通用大模型进行评测的基础标准。尽管中国本土通用大模型在初始化阶段落后于国外产品，但随着技术的不断进步和创新，以及数据规模的不断扩大，中国本土通用大模型的能力正在逐步提升，综合能力的行业平均水平已经与ChatGPT3.5不相上下。具体到6大关键能力（基础服务能力、交互响应能力、理解创作能力、深度推理能力、专业领域能力、安全体系能力），中国本土通用大模型所表现出来的实力不俗，尤其是在“安全体系能力”方面，以文心一言、 ChatGLM为代表，已经逐步拉开了与GPT3.5的差距。从评测的结果来看，本次评测的所有通用大模型，都在有意识的发展专业领域的能力，例如文心一言、ChatGLM在6大领域的专业能力发展较为均衡，而GPT3.5在“行业与场景”、“经济与社会”领域较为突出； ——需要注意的是，在专业领域能力方面，提出的问题（执行的任务）主要集中在对“专业领域问题进行有效的识别、匹配并检索”，所以结果较好，一旦涉及较为复杂的问题，大模型现在所能反馈的内容具有一定的局限性。