[Download]资源名称:DeepSeek专题报告:通信算力降本增效(30页)...
2025-03-31 12 人工智能AI行业报告
全球视角看,长上下文能力已经成为大模型重要的迭代趋势。我们认为,海外大模型发展 相对超前,龙头公司在长上下文上布局略早于国内公司。Anthropic 旗下 Claude 一直以长 文本能力著称。2023 年 11 月,Anthropic 发布 Claude 2.1 版本,将上下文支持能力从 100K 扩展到 200K tokens。24 年 3 月,Claude 3 发布,延续标配了 200K 上下文,并且可以向 特定用户提供长达 1M token 的版本。Google Gemini 模型同样开始发力上下文,在 24 年 2 月发布 Gemini 1.5 Pro 时,将支持的上下文长度从 1.0 版本的 32K 大幅提升到 1M token, 并宣称内部已经实现了 10M 的上下文,一举超越 Anthropic 成为闭源模型厂商中上下文长 度最长的产品。 国内模型厂商迅速追赶,逐步补齐模型长文本能力。国内模型厂商中,较早实现优秀长文 本效果的是杨植麟的初创公司月之暗面(Moonshot AI),其 Kimi 智能助手(原名 Kimi Chat) 在 23 年 10 月发布时即支持 20 万汉字的长文本,长文本能力为当时国内模型 Top 1。24 年 3 月,Kimi 智能助手发布更新,将 20 万上下文扩展到 200 万上下文,并发布邀测。同 月,阿里通义千问宣布推出文档解析功能,能够处理超万页的极长资料,换算成中文篇幅 约 1000 万字。随后,百度文心一言也宣布将在 4 月的更新中支持 200 万字以上的长文本 能力;360 官方也宣布 360 智脑开始内测 500 万字长文本处理功能,即将入驻 360AI 浏览 器。此外,大模型初创公司阶跃星辰也发布 Step-1 和 1V 模型,支持 200K 上下文,且万 亿参数 MoE 模型 Step 2 也已加入预览版申请。 我们认为,之所以长上下文会在当下成为趋势,主要原因包括,1)阶段性需求:ChatGPT 和 GPT-4 问世已经超过 1 年,在基于 Transformer 解码器架构没有重大革新的情况下,模 型的推理能力(GPT-4 能力)、成本控制(GPT-4 Turbo 的降价)、多模态能力(GPT-4V 等)、智能体能力(GPTs 等)已经取得阶段性成果,而上下文支持能力尚未被显著开发。2) 场景需求:尤其是对于虚拟陪伴类 AI 产品(如 Character.ai),用户希望在交互过程中,模 型能够记忆长期的用户信息,需要依赖模型的长下文能力。以及对于逐渐丰富的大模型垂 类场景,如金融分析、法律辅助、个性化教育等,需要模型分析较长的文档。3)AGI 的需 求:更远期的看,长下文能够很好的解决模型在执行下游任务时需要做 fine-tune(微调) 的问题。只需要将知识通过上下文输入,即可实现上下文学习,这是更加通用的方法,更 符合 AGI 的定义。
标签: 人工智能AI行业报告
相关文章
根据ARK Invest报告显示,“AI+情感陪伴”的市场规模将扩大2300-5000倍,从现在的全球年收入 3000 万美元增至 700 亿至 15...
2025-03-30 19 人工智能AI行业报告
[Download]资源名称:Deepseek报告:AI狂潮下计算机行业的颠覆与重生(28页)...
2025-03-29 22 人工智能AI行业报告
结构性矛盾如同深埋于医疗体系肌体内的病灶,长期困扰着全球医疗健康产 业的发展。然而,危机往往也孕育着变革的契机。正是这些难以克服的结构性矛盾, 催生了...
2025-03-27 42 人工智能AI行业报告
大模型商业生态推动端侧场景落地。过去 ChatGPT 引领了全球 AI 产业,国 内外公司纷纷布局 AI 赛道。国内多家厂商探索商业化路径,在激烈竞争...
2025-03-25 41 人工智能AI行业报告
根据DeepSeek团队在论文中强调,通过优化算法、框架和硬件的协同设计实现的。在预训练阶段,每万亿个token上训练 DeepSeek-V3只需要1...
2025-03-24 78 人工智能AI行业报告
最新留言