中国AI基础数据服务研究报告（29页）

行业报告下载 2024年08月14日 06:48 管理员

纵观业界开源及闭源大模型的能力特性，结合艾瑞对大模型研发企业的调研，虽然当下主流大模型应用仍相对侧重文本输入、文本输出的能力，但对图像、视频、语音等多模态数据的使用已越来越普遍，艾瑞预计大模型训练数据中多模态数据的占比将在未来数年持续提升。根据艾瑞对部分通用大模型及综合型AI厂商的调研，目前大模型的训练数据主要来源于公开数据、网络爬虫数据等可公开获取的数据，其次是采购数据。相比大模型初创企业，综合型AI厂商凭借现有的互联网应用和AI业务积累，具备独特的数据优势。在模型的通用能力建设方面，公开数据和爬虫数据已被广泛利用，未来这两类数据在整体上的提升空间相对有限，Epoch AI等机构的研究人员于2024年6月更新的论文中表示，大语言模型将在大约2026至2032年之间耗尽所有公开的文本数据。艾瑞预计，大模型研发厂商将通过更多的采购数据来提升模型的通用能力；而在垂直场景优化及行业客户的拓展中，公开数据和爬虫数据仍有较大的获取提升空间，大模型研发厂商也将更多地利用客户侧的合作数据，增强模型解决行业特定领域或企业特定问题的能力。随着大模型技术的快速迭代及其在众多领域的广泛应用，相关评测需求同步增长。对于模型研发企业，评测是发现模型在功能、性能、安全性和可靠性等方面优劣势的关键步骤，并可与其他企业的模型横向对比，进而针对性地优化模型，提高其表现和稳定性；对模型应用企业而言，评测是选型和项目验收的重要工具，通过专业评测服务，企业能够评估模型的实际应用适用性，确保所选模型满足需求，并保障定制类模型项目的交付质量。相较传统AI，大模型的应用空间更广，评测本身也更加复杂和多样化，市场对专业评测服务的需求潜力巨大。公开评测基准和商业化评测服务的发展，将为大模型评测提供重要支撑，促进技术与产业的健康发展。

中国AI基础数据服务研究报告（29页）