大模型行业报告：大模型研究框架（59页）

行业报告下载 2025年06月09日 07:53 管理员

语言模型是一种人工智能系统，旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构，使得能够产生连贯且上下文相关的文本，应用于翻译、摘要、聊天机器人和内容生成等领域。大语言模型（LLMs）是语言模型系统的子集。大语言模型规模显著更大，通常包含数十亿个参数（例如，GPT-3 拥有 1750 亿个参数），使得大语言模型在广泛的任务中表现出卓越的性能。大语言模型这一术语在 2018 至 2019 年间随着基于 Transformer 架构的模型出现开始受到关注，在 2020 年 GPT-3 发布后，LLMs开始被广泛使用。大多数LLMs以自回归方式操作，根据前面的文本预测下一个字（或token／sub-word）的概率分布。这种自回归特性使模型能够学习复杂的语言模式和依赖关系，从而善于文本生成。在文本生成任时，LLM通过解码算法确定下一个输出的字，这一过程可以采用的策略包括：1）选择概率最高的下个字；2）从预测的概率分布中随机采样一个字。