端侧大模型近存计算行业报告：定制化存储研究框架（68页）

行业报告下载 2025年03月27日 08:36 管理员

在人工智能的浪潮中，端侧大型语言模型（On-Device LLMs）迅猛发展且具备广泛的应用前景。自2023年起，随着参数量低于10B的模型系列如Meta的LLaMA、 Microsoft的Phi系列等的涌现，LLMs在边缘设备上运行的可行性和重要性逐渐被验证。这些模型不仅在性能上取得了长足的进步，更通过混合专家、量化和压缩等技术，保持了参数量的优化，为边缘设备的多样化应用场景提供了强大支持。进入 2024年，新模型的推出愈发密集，如左图所示， Nexa AI的Octopus系列、 Google的Gemma系列等，不仅在文本处理上有所增强，更在多模态能力上展现了新的可能性，如结合文本与图像等多模态输入，以适应更复杂的用户交互需求。传统文本大型语言模型: 从Transformer架构发展而来，最初由编码器和解码器组成。如今，流行的模型如 GPT和LLaMA主要使用仅解码器架构。GPT模型在自注意力机制后应用层归一化，而LLaMA在每个子层前应用归一化以提高训练稳定性。在注意力机制方面，GPT模型使用标准自注意力机制，允许模型在生成序列时考虑输入序列中所有位置的信息，而LLaMA使用分组查询注意力(GQA)，优化计算和内存效率。混合专家（MoE）概念最早于1991年提出，在现代语言模型预训练中关键。MoE使用稀疏层减少计算资源，包含多个独立的“专家”网络和一个门控网络，以确定token的路由。