大型语言模型是生成或嵌入式文本的基础模型 (一种大型神经网络)。它们生成的文本可以通过为其 提供起点或“提示”来进行调节,从而使其能够用自然 语言或代...
2025-01-17 59 人工智能AI行业报告
参数量和数据量是判断大模型的重要参数。2018 年以来,大语言模型训练使用的数据集规 模持续增长。2018 年的 GPT-1 数据集约 4.6GB,2020 年的 GPT-3 数据集达到了 753GB, 而到了 2021 年的 Gopher,数据集规模已经达到了 10,550GB。总结来说,从 GPT-1 到 LLaMA 的大语言模型数据集主要包含六类:维基百科、书籍、期刊、Reddit 链接、Common Crawl 和其他数据集。维基百科是一个免费的多语言协作在线百科全书。维基百科致力于打造包含全世界所有语 言的自由的百科全书,由超三十万名志愿者组成的社区编写和维护。截至 2023 年 3 月,维 基百科拥有 332 种语言版本,总计 60,814,920 条目。其中,英文版维基百科中有超过 664 万篇文章,拥有超 4,533 万个用户。维基百科中的文本很有价值,因为它被严格引用,以 说明性文字形式写成,并且跨越多种语言和领域。
一般来说,重点研究实验室会首先选取 它的纯英文过滤版作为数据集。书籍主要用于训练模型的故事讲述能力和反应能力,包括小说和非小说两大类。数据集包 括 Project Gutenberg 和 Smashwords (Toronto BookCorpus/BookCorpus)等。Project Gutenberg 是一个拥有 7 万多本免费电子书的图书馆,包括世界上最伟大的文学作品,尤 其是美国版权已经过期的老作品。BookCorpus 以作家未出版的免费书籍为基础,这些书籍 来自于世界上最大的独立电子书分销商之一的 Smashwords。期刊可以从 ArXiv 和美国国家卫生研究院等官网获取。预印本和已发表期刊中的论文为数 据集提供了坚实而严谨的基础,因为学术写作通常来说更有条理、理性和细致。ArXiv 是一 个免费的分发服务和开放获取的档案,包含物理、数学、计算机科学、定量生物学、定量 金融学、统计学、电气工程和系统科学以及经济学等领域的 2,235,447 篇学术文章。美国 国家卫生研究院是美国政府负责生物医学和公共卫生研究的主要机构,支持各种生物医学 和行为研究领域的研究,从其官网的“研究&培训”板块能够获取最新的医学研究论文。
标签: 人工智能AI行业报告
相关文章
大型语言模型是生成或嵌入式文本的基础模型 (一种大型神经网络)。它们生成的文本可以通过为其 提供起点或“提示”来进行调节,从而使其能够用自然 语言或代...
2025-01-17 59 人工智能AI行业报告
大模型快速发展,网信办数据显示,截至2024年7月30日,全国范围内通过登记备案的行业大模型有136款,占比达69%。行业大 模型深度赋能教育、金融、...
2025-01-08 76 人工智能AI行业报告
生成式AI也在加速赋能广告制作环节。今年业绩和股价爆发的AppLovin和汇量科技,主要关注的是决策式 AI在程序化广告平台的技术突破,提升广告投放精...
2025-01-06 105 人工智能AI行业报告
纵观历史50年,五次半导体市场规模迅猛成长均伴随爆款电子产品的普及。自1976年起,全球半导体市场历经了5次迅猛成长,分别由台式电脑(1983~198...
2025-01-05 89 人工智能AI行业报告
先进封装:受AI芯片大面积需求带动,2.5D先进封装于2023至2024年供不应 求情况明显,据TrendForce预估,2025年晶圆代工厂配套提供...
2025-01-05 97 人工智能AI行业报告
针对外贸 B2B 垂类场景的AI助手AI麦可:截至2024/6/30,购买AI麦可的会员共6095 位(不含试用体验包客户),较2024年一季度末增加...
2025-01-04 67 人工智能AI行业报告
最新留言