ChatGPT调研报告（94页）

行业报告下载 2023年04月12日 07:23 管理员

研究人员主要是围绕已经开源参数的模型，例如 GPT-J[4]、OPT[43]以及 BLOOM[51]等进行模型参数的剪枝。模型剪枝大体上可以针对具体关注的参数单元和子网络情况，可以分为结构化剪枝和非结构化剪枝两种。结构化剪枝方法在较高稀疏度的情况下可以达到可观的提速但是会带来一定程度上的性能下降，而非结构化剪枝的方法虽然可以在较高稀疏度的情况下保持性能，但是又难以在通用的硬件上带来实质性的加速[52]。同时，在之前研究中常用的迭代式剪枝策略并不是完全合适，因为仍然需要多次训练大模型，也会给下游用户带来较大的训练开销，因而如何 One-shot 地得到一个合适的子网络供下游用户使用值得探索。同时，研究人员还在探索如何将剪枝与其他模型压缩技术，如量化和蒸馏，相结合以进一步提高大型语言模型性能和效率。这些技术的发展有望为推动人工智能技术的发展和应用提供有力支持。目前，针对像 GPT-3[4]这样的超大规模模型进行有效的模型压缩仍然存在一些挑战。

这些挑战主要包括以下几个方面：模型复杂度：超大模型通常拥有数十亿甚至数百亿的参数，导致整个压缩过程的训练的计算量和内存消耗巨大，这对硬件要求非常高。超大模型的结构往往非常复杂，由多个层和子网络组成。因此，压缩模型的过程需要考虑如何剪枝模型、量化模型、知识蒸馏等多种技术手段的结合使用。模型压缩技术的局限性：当前已有的模型压缩技术可能无法直接适用于超大模型。例如，传统的知识蒸馏方法可能无法有效地提取超大模型中的知识，而结构化剪枝等方法在较高稀疏度的情况下可能会带来性能下降。并且有研究表明，大型语言模型存在涌现能力，即当模型参数达到一定规模时才会具有足够强的能力。同时，由于超大模型的结构复杂，可能需要一些特殊的压缩技术来处理。因此，需要有一种通用的压缩方法，适用于各种类型的超大模型。模型的黑盒特性：目前的超大模型如 GPT-3 等均为闭源模型，用户无法获取其具体的参数信息和结构信息。这使得在对模型进行压缩时需要使用一些基于模型输出或中间层特征的方法进行知识迁移和蒸馏，增加了压缩的难度。

ChatGPT调研报告（94页）