大语言模型提示注入攻击安全风险分析报告（55页）

行业报告下载 2023年08月16日 07:57 管理员

目前大语言模型面临的风险类型包括提示注入攻击、对抗攻击、后门攻击、数据污染、软件漏洞、隐私滥用等[23][24]，这些风险可能导致生成不良有害内容、泄露隐私数据、任意代码执行等危害。在这些安全威胁中，恶意用户利用有害提示覆盖大语言模型的原始指令实现的提示注入攻击，具有极高的危害性，最近也被 OWASP 列为大语言模型十大安全威胁之首[25]。本报告对面向大语言模型的提示注入攻击和防御技术展开研究，并通过构建数据集对大语言模型的提示注入攻击安全风险进行了测评。首先，系统分析了面向大语言模型的提示注入攻击和防御技术，并验证了相关技术的有效性。在提示注入攻击方面，对直接注入攻击和间接注入攻击两种方式进行了分类，涉及目标劫持攻击、提示泄露攻击、越狱攻击等。在提示注入攻击防御方面，从大语言模型输入侧、输出侧两端对相关技术进行分析，涉及提示过滤、提示增强等。

其次，构建了包含 36000 条的提示注入攻击验证数据的数据集，覆盖了 3 类典型攻击方法和6类安全场景，用于对大语言模型的提示注入攻击风险测评。然后，对OpenAI GPT-3.5-turbo、谷歌 PaLM2 以及 UC Berkeley 等高校团队开源的 Vicuna-13B 共 3 个典型的大语言模型进行了测评，测评结果显示，本文构造的数据集能分别以 79.54%、75.41%、67.24%的成功率实现 3 类模型的攻击。这 3 类大语言模型一定程度上代表了目前商业和开源大语言模型的最先进水平，因此测评结果具有代表性。最后，对本报告工作进行总结，并对未来工作进行了展望，在大语言模型安全测评、安全防御、安全监测预警方面给出相关建议。本报告可以为大语言模型厂商、相关开发者以及研究人员提供参考，以构建更加安全可信的大语言模型。另外，基于本报告形成测评能力，大数据协同安全技术国家工程研究中心 AI 安全实验室将通过“安全大脑国家新一代人工智能开放创新平台”对外提供大语言模型提示注入攻击风险安全测评服务。