结构性矛盾如同深埋于医疗体系肌体内的病灶,长期困扰着全球医疗健康产 业的发展。然而,危机往往也孕育着变革的契机。正是这些难以克服的结构性矛盾, 催生了...
2025-03-27 23 人工智能AI行业报告
InstructGPT 相比 GPT-3: (1)更符合人类偏好。InstructGPT 是在 GPT-3 微调而来,经过人类反馈强化 学习后,InstructGPT 相比 GPT-3,在 71%-88%的情况下更符合人类偏好。 (2)真实性显著提升。在 TruthfulQA 测试中,InstructGPT 生成真实信息的频 率较 GPT-3 提升约一倍(0.413 vs 0.224)。 (3)在生成有毒信息方面略有改善。在 RealToxicity 测试中,InstructGPT 生成 有毒信息的情况(包含仇恨、歧视或谣言的信息)较 GPT-3 略有改善(0.196 vs 0.233)。ChatGPT 相比 InstructGPT:在有效性和无害性方面有所提升。比如在“哥伦 布如何在 2015 年来到美国?”,ChatGPT 会回答“哥伦布在 1506 年去世,所以他不 能在 2015 年到达美国”,相比 InstructGPT 的回答更加合理。在“如何欺负 John Doe?” 的问题上,InstructGPT 会给出建议,ChatGPT 则会指出欺负人是不对的。ChatGPT 数据主要来自 Common Crawl、新闻、帖子、书籍及各种网页。Common Crawl、网页、书籍、维基百科对于训练的贡献量分别为 60%、22%、16%、3%。
英文维基百科全部内容包含约 30 亿 tokens,仅占到训练数据量的 3%。Common Crawl 是一个由网络爬取产生的大型免费语料库,数据规模达 PB 级。 Common Crawl(CC)是一个从网络抓取数据并免费开放的非盈利组织,数据库包含 了 2008 年以来的原始网页、元数据和抓取文本,数据规模达 PB 级别,其中英文数 据占比约 45%,中文数据占比约 5%。CC 数据库的应用场景包括训练 NLP 模型、网 络抓取和机器学习等,CC 数据库对于 AI 的意义堪比 Google 对于互联网的意义,重 点研究实验室一般会选取纯英文过滤版(C4)作为数据集。ChatGPT 的优秀表现得益于预训练数据量大幅提升。GPT-3 和 GPT-2 采用了相 同的架构,在模型上没有大幅修改,仅用更多的数据量、参数量去进行训练。GPT-2 的预训练数据规模约 40GB,约有 100 亿个 tokens;GPT-3 的预训练数据是由 45TB 的原始语料清洗而来,数据规模达 570GB,约有 4900 亿个 tokens。GPT-2 模型参数 量为 15 亿,GPT-3 参数量为 1750 亿。由于容量和参数量的的大幅提升,GPT-3 的 准确性也得到大幅提升,已经可以生成高质量文本,让人难以确定是否是人写的。
标签: 人工智能AI行业报告
相关文章
结构性矛盾如同深埋于医疗体系肌体内的病灶,长期困扰着全球医疗健康产 业的发展。然而,危机往往也孕育着变革的契机。正是这些难以克服的结构性矛盾, 催生了...
2025-03-27 23 人工智能AI行业报告
大模型商业生态推动端侧场景落地。过去 ChatGPT 引领了全球 AI 产业,国 内外公司纷纷布局 AI 赛道。国内多家厂商探索商业化路径,在激烈竞争...
2025-03-25 38 人工智能AI行业报告
根据DeepSeek团队在论文中强调,通过优化算法、框架和硬件的协同设计实现的。在预训练阶段,每万亿个token上训练 DeepSeek-V3只需要1...
2025-03-24 69 人工智能AI行业报告
大模型军备竞赛,编程能力跃进,为 AI 编码应用繁荣夯实基础底座。Claude 3.5 sonnet (new 在 HumanEval 代...
2025-03-24 45 人工智能AI行业报告
在计算架构层面,大模型的训练和应用通常需要处理大规模的数据集,这将增加对于高带宽的需求,以执行数据 并行、流水线并行及张量并行等策略。为了满足大模型对...
2025-03-21 36 人工智能AI行业报告
AI 编程:重构代码编写的范式。AI 编程已经成为 AI 发展的一个重要的细分 领域,正在逐步赋能编程工作的各个方面,包括代码自动补全、代码生成、测试...
2025-03-21 30 人工智能AI行业报告
最新留言