首页 行业报告下载文章正文

Kimi专业报告:长文本的实现(19页)

行业报告下载 2024年04月09日 09:18 管理员

全球视角看,长上下文能力已经成为大模型重要的迭代趋势。我们认为,海外大模型发展 相对超前,龙头公司在长上下文上布局略早于国内公司。Anthropic 旗下 Claude 一直以长 文本能力著称。2023 年 11 月,Anthropic 发布 Claude 2.1 版本,将上下文支持能力从 100K 扩展到 200K tokens。24 年 3 月,Claude 3 发布,延续标配了 200K 上下文,并且可以向 特定用户提供长达 1M token 的版本。Google Gemini 模型同样开始发力上下文,在 24 年 2 月发布 Gemini 1.5 Pro 时,将支持的上下文长度从 1.0 版本的 32K 大幅提升到 1M token, 并宣称内部已经实现了 10M 的上下文,一举超越 Anthropic 成为闭源模型厂商中上下文长 度最长的产品。 国内模型厂商迅速追赶,逐步补齐模型长文本能力。国内模型厂商中,较早实现优秀长文 本效果的是杨植麟的初创公司月之暗面(Moonshot AI),其 Kimi 智能助手(原名 Kimi Chat) 在 23 年 10 月发布时即支持 20 万汉字的长文本,长文本能力为当时国内模型 Top 1。24 年 3 月,Kimi 智能助手发布更新,将 20 万上下文扩展到 200 万上下文,并发布邀测。同 月,阿里通义千问宣布推出文档解析功能,能够处理超万页的极长资料,换算成中文篇幅 约 1000 万字。随后,百度文心一言也宣布将在 4 月的更新中支持 200 万字以上的长文本 能力;360 官方也宣布 360 智脑开始内测 500 万字长文本处理功能,即将入驻 360AI 浏览 器。此外,大模型初创公司阶跃星辰也发布 Step-1 和 1V 模型,支持 200K 上下文,且万 亿参数 MoE 模型 Step 2 也已加入预览版申请。 我们认为,之所以长上下文会在当下成为趋势,主要原因包括,1)阶段性需求:ChatGPT 和 GPT-4 问世已经超过 1 年,在基于 Transformer 解码器架构没有重大革新的情况下,模 型的推理能力(GPT-4 能力)、成本控制(GPT-4 Turbo 的降价)、多模态能力(GPT-4V 等)、智能体能力(GPTs 等)已经取得阶段性成果,而上下文支持能力尚未被显著开发。2) 场景需求:尤其是对于虚拟陪伴类 AI 产品(如 Character.ai),用户希望在交互过程中,模 型能够记忆长期的用户信息,需要依赖模型的长下文能力。以及对于逐渐丰富的大模型垂 类场景,如金融分析、法律辅助、个性化教育等,需要模型分析较长的文档。3)AGI 的需 求:更远期的看,长下文能够很好的解决模型在执行下游任务时需要做 fine-tune(微调) 的问题。只需要将知识通过上下文输入,即可实现上下文学习,这是更加通用的方法,更 符合 AGI 的定义。

Kimi专业报告:长文本的实现(19页)

文件下载
资源名称:Kimi专业报告:长文本的实现(19页)


标签: 人工智能AI行业报告

并购家 关于我们   意见反馈   免责声明 网站地图 京ICP备12009579号-9

分享

复制链接

ipoipocn@163.com

发送邮件
电子邮件为本站唯一联系方式