首页 行业报告下载文章正文

大语言模型提示注入攻击安全风险分析报告(55页)

行业报告下载 2023年08月16日 07:57 管理员

目前大语言模型面临的风险类型包括提示注入攻击、对抗攻击、 后门攻击、数据污染、软件漏洞、隐私滥用等[23][24],这些风险可能导致生成不良 有害内容、泄露隐私数据、任意代码执行等危害。在这些安全威胁中,恶意用户 利用有害提示覆盖大语言模型的原始指令实现的提示注入攻击,具有极高的危害 性,最近也被 OWASP 列为大语言模型十大安全威胁之首[25]。 本报告对面向大语言模型的提示注入攻击和防御技术展开研究,并通过构建 数据集对大语言模型的提示注入攻击安全风险进行了测评。首先,系统分析了面 向大语言模型的提示注入攻击和防御技术,并验证了相关技术的有效性。在提示 注入攻击方面,对直接注入攻击和间接注入攻击两种方式进行了分类,涉及目标 劫持攻击、提示泄露攻击、越狱攻击等。在提示注入攻击防御方面,从大语言模 型输入侧、输出侧两端对相关技术进行分析,涉及提示过滤、提示增强等。

其次, 构建了包含 36000 条的提示注入攻击验证数据的数据集,覆盖了 3 类典型攻击方 法和6类安全场景,用于对大语言模型的提示注入攻击风险测评。然后,对OpenAI  GPT-3.5-turbo、谷歌 PaLM2 以及 UC Berkeley 等高校团队开源的 Vicuna-13B 共 3 个典型的大语言模型进行了测评,测评结果显示,本文构造的数据集能分别以 79.54%、75.41%、67.24%的成功率实现 3 类模型的攻击。这 3 类大语言模型一 定程度上代表了目前商业和开源大语言模型的最先进水平,因此测评结果具有代 表性。最后,对本报告工作进行总结,并对未来工作进行了展望,在大语言模型 安全测评、安全防御、安全监测预警方面给出相关建议。 本报告可以为大语言模型厂商、相关开发者以及研究人员提供参考,以构建 更加安全可信的大语言模型。另外,基于本报告形成测评能力,大数据协同安全 技术国家工程研究中心 AI 安全实验室将通过“安全大脑国家新一代人工智能开 放创新平台”对外提供大语言模型提示注入攻击风险安全测评服务。

大语言模型提示注入攻击安全风险分析报告(55页)

文件下载
资源名称:大语言模型提示注入攻击安全风险分析报告(55页)


标签: 安全监控行业报告

并购家 关于我们   意见反馈   免责声明 网站地图 京ICP备12009579号-9

分享

复制链接

ipoipocn@163.com

发送邮件
电子邮件为本站唯一联系方式