OpenAI盈亏分析报告：ChatGPT（31页）

行业报告下载 2023年08月22日 07:48 管理员

不同模型得分及精度转换：根据Tim Dettmers等人的论文，团队使用大模型GPT-4当裁判，对不同模型的回答进行打分，以 GPT-3.5的成绩作为100%，最终GPT-4自己的得分是114.5%。Michal Kosinski的研究表明，GPT-3可以解决70%的心智理论任务，而GPT-3.5解决了93%的任务，以GPT-3.5的成绩作为100，GPT-3的分数约为75（70/93*100）。如果使用分数对精度进行衡量，则GPT-4精度相当于GPT-3.5的1.145倍，GPT-3精度相当于GPT-3.5的0.75倍。此外，如果New Bing目前使用的模型为压缩约6倍后的模型，所需算力约减少到原来的六分之一。同样，模型的质量会受到一定的影响，压缩后大约从GPT-3.5下降到GPT-3的水平，具体其打分换算过来约76.2分。

在2500万DAU的假设条件下，若每个用户10次的使用次数，GPT-3.5所需GPU数量大约为27.2万A100。如果2024年Bing Chat 的DAU达2500万，每个用户提10次问题，若按照芯片75%的使用效率进行测算，GPT-3.5所需GPU数量大约为27.2万（2500*10turns/1224 turns/0.75 GPU utilization rate）。若根据精度下降10%，算力除以2的逻辑，可以推算出GPT-4 在2500万日活及10次平均使用次数下条件下所需算力大约为66.4万（27.2 GPU/(2^log0.9(114.5/100)）。在同样的假设条件下，若New Bing之后使用压缩6倍的模型（得分76.2分），所需算力约为4.5万GPU。如果微软对模型进行压缩，压缩后的模型使用4块芯片，其算力需求约为4.5万。同样地，在相同假设前提下，GPT-3所需的算力约为4.1万（27.2 GPU/(2^log0.9(75/100) 。根据机器之心，GPT-4的推理成本是Davinci模型（GPT-3.5为Davinci3）的3倍，与我们测算结果相似。