存储行业报告：AI推理带来需求爆发、驱动范式升级（44页）

行业报告下载 2026年06月28日 08:05 管理员

LLM 推理的解码阶段本质是memory-bound，核心存储负载包括：模型权重、KV Cache、激活值、RAG 向量库等。相较于模型权重等静态张量数据，KV Cache是随上下文长度和并发数动态膨胀的张量数据，推理性能（TTFT / TPS）高度依赖对KV Cache的保存和对KV Cache的管理效率。在传统冯·诺依曼架构下，大模型推理时的大量高维张量数据、Transfomer的自注意力机制均加剧了内存墙问题，数据量巨大、搬运成本高，严重拖慢推理效率，存储使访存带宽与延迟逐步成为制约系统吞吐与响应性能的核心瓶颈，因此黄仁勋一直在说：“GPU 大部分时间都在等数据，而不是在计算”，“计算能力增长远快于内存带宽，GPU 经常处于饥饿状态（starving for data）。”而提升存储带宽和容量可以显著增强推理性能、降低推理成本，“以存代算”是必然趋势。

存储行业报告：AI推理带来需求爆发、驱动范式升级（44页）-第1张图片