AI行业报告：GPT4，AI商业化（41页）

行业报告下载 2023年05月16日 07:10 管理员

在标准学术视觉基准测试中，GPT-4性能优于其它模型。OpenAI在一组标准学术视觉基准测试中对GPT-4的表现进行评估，根据结果，GPT-4在TextVQA、图表质量管理、AI2D等方面都显著优于其他模型。此外，OpenAI表示，这并不完全代表GPT-4的能力范围，因为该模型被发现能够不断解决新任务，公司计划近期发布更多分析和评估数据。文本能力方面，GPT-4的表现显著优于现有大型语言模型。 GPT-4能够处理超过2.5万字的文本，允许长篇内容创建、扩展对话以及文档搜索和分析等应用场景。 OpenAI在为机器学习模型设计的传统基准测试（包括MMLU、HellaSwag、ARC等）中比较GPT-4与GPT-3.5、SOTA等模型的性能。

结果表明， GPT-4在基准测试中的表现显著优于现有大型语言模型，并且在大部分的测试中优于最先进的SOTA 模型。文本能力方面，GPT-4的表现显著优于现有大型语言模型。 GPT-4能够处理超过2.5万字的文本，允许长篇内容创建、扩展对话以及文档搜索和分析等应用场景。 OpenAI在为机器学习模型设计的传统基准测试（包括MMLU、HellaSwag、ARC等）中比较GPT-4与GPT-3.5、SOTA等模型的性能。结果表明， GPT-4在基准测试中的表现显著优于现有大型语言模型，并且在大部分的测试中优于最先进的SOTA 模型。GPT-4在人类模拟考试中的表现超越GPT-3.5。在没有专门培训的情况下， GPT-4在律师考试、 LSAT 、 GRE Quantitative等测试中的得分基本全部高于GPT-3.5。  在律师资格考试（ Uniform Bar Exam）中， GPT-4的分数在应试者的前10%左右，显著优于GPT-3.5倒数10%左右的得分。