AI算力研究框架报告（80页）

行业报告下载 2023年07月20日 07:35 管理员

模型能力不仅与模型大小有关，还与数据大小和总计算量有关。同时，预训练数据的质量对取得良好的性能起着关键作用，因此在扩展预训练语料库时，数据收集和清洗策略是非常重要的考虑。预训练语料库的来源大致可以分为两类: 通用数据：如网页、书籍和对话文本，由于其庞大、多样化和可访问性，被大多数LLM使用，可以增强LLM的语言建模和泛化能力。专业数据：如多语言数据、科学数据和代码，使LLM具有特定的任务解决能力。并行训练。由于模型规模巨大，成功训练一个强大的LLM是非常具有挑战性的。 LLM的网络参数学习通常需要联合使用多种并行策略，一些优化框架已经发布，以促进并行算法的实现和部署，如Transformer、DeepSpeed和Megatron-LM。

此外，优化技巧对训练稳定性和模型性能也很重要。最近，GPT-4提出开发特殊的基础设施和优化方法，用小得多的模型的达到大型模型的性能。目前，常用的训练LLM的库包括Transformers，DeepSpeed、Megatron-LM、JAX、Colossal-AI、BMTrain、FastMoe等。此外，现有的深度学习框架(如PyTorch、TensorFlow、MXNet、PaddlePaddle、MindSpore和OneFlow)也提供了对并行算法的支持。Transformer由Google 在2017年的论文 Attention is All you need 中提出，GPT与BERT均采用了Transformer模型。 Transformer基于显著性的注意力机制为输入序列中的任何位置提供上下文信息，使得Transformer具有全局表征能力强，高度并行性，位置关联操作不受限，通用性强，可扩展性强等优势，从而使得GPT模型具有优异的表现。

AI算力研究框架报告（80页）