Kimi专业报告：长文本的实现（19页）

行业报告下载 2024年04月09日 09:18 管理员

全球视角看，长上下文能力已经成为大模型重要的迭代趋势。我们认为，海外大模型发展相对超前，龙头公司在长上下文上布局略早于国内公司。Anthropic 旗下 Claude 一直以长文本能力著称。2023 年 11 月，Anthropic 发布 Claude 2.1 版本，将上下文支持能力从 100K 扩展到 200K tokens。24 年 3 月，Claude 3 发布，延续标配了 200K 上下文，并且可以向特定用户提供长达 1M token 的版本。Google Gemini 模型同样开始发力上下文，在 24 年 2 月发布 Gemini 1.5 Pro 时，将支持的上下文长度从 1.0 版本的 32K 大幅提升到 1M token，并宣称内部已经实现了 10M 的上下文，一举超越 Anthropic 成为闭源模型厂商中上下文长度最长的产品。国内模型厂商迅速追赶，逐步补齐模型长文本能力。国内模型厂商中，较早实现优秀长文本效果的是杨植麟的初创公司月之暗面（Moonshot AI），其 Kimi 智能助手（原名 Kimi Chat）在 23 年 10 月发布时即支持 20 万汉字的长文本，长文本能力为当时国内模型 Top 1。24 年 3 月，Kimi 智能助手发布更新，将 20 万上下文扩展到 200 万上下文，并发布邀测。同月，阿里通义千问宣布推出文档解析功能，能够处理超万页的极长资料，换算成中文篇幅约 1000 万字。随后，百度文心一言也宣布将在 4 月的更新中支持 200 万字以上的长文本能力；360 官方也宣布 360 智脑开始内测 500 万字长文本处理功能，即将入驻 360AI 浏览器。此外，大模型初创公司阶跃星辰也发布 Step-1 和 1V 模型，支持 200K 上下文，且万亿参数 MoE 模型 Step 2 也已加入预览版申请。我们认为，之所以长上下文会在当下成为趋势，主要原因包括，1）阶段性需求：ChatGPT 和 GPT-4 问世已经超过 1 年，在基于 Transformer 解码器架构没有重大革新的情况下，模型的推理能力（GPT-4 能力）、成本控制（GPT-4 Turbo 的降价）、多模态能力（GPT-4V 等）、智能体能力（GPTs 等）已经取得阶段性成果，而上下文支持能力尚未被显著开发。2）场景需求：尤其是对于虚拟陪伴类 AI 产品（如 Character.ai），用户希望在交互过程中，模型能够记忆长期的用户信息，需要依赖模型的长下文能力。以及对于逐渐丰富的大模型垂类场景，如金融分析、法律辅助、个性化教育等，需要模型分析较长的文档。3）AGI 的需求：更远期的看，长下文能够很好的解决模型在执行下游任务时需要做 fine-tune（微调）的问题。只需要将知识通过上下文输入，即可实现上下文学习，这是更加通用的方法，更符合 AGI 的定义。