在OpenAI内部评估中说道:与GPT-3.5相比,GPT-4响应不允许内容请求的可能性低82%,产生事实响应的可能性高40%;而在与GPT3相比,GPT4具有:强大的识图能力;文字输入限制提升至2.5万字;回答准确性显著提升;能够生成歌词、创意文本,实现风格变化。
一、GPT-4实现了以下几个飞跃式提升
GPT-4相比于之前的模型,实现了多个方面的提升。其中包括强大的识图能力、2.5万字的文字输入限制、回答准确性的显著提高、以及能够生成歌词和创意文本,实现风格变化。
根据OpenAI官方的介绍,GPT-4是一个超大的多模态模型,它的输入可以是文字(上限2.5万字),还可以是图像。甚至只需要简单在纸上画一个网站的草稿图或拍一张照片上传给GPT-4,它就可以立马生成网站的HTML代码。
GPT-4可以接受文本和图像形式的prompt,新能力与纯文本设置并行,允许用户指定任何视觉或语言任务。它在人类给定由散布的文本和图像组成的输入的情况下生成相应的文本输出(自然语言、代码等)。在一系列领域——包括带有文本和照片的文档、图表或屏幕截图上——GPT-4展示了与纯文本输入类似的功能。此外,它还可以通过为纯文本语言模型开发的测试时间技术得到增强,包括少样本和思维链prompt。
二、GPT-4强大的推理和语言能力体现
GPT-4在各种专业测试和学术基准上的表现与人类水平相当。例如,它通过了模拟律师考试,且分数在应试者的前10% 左右;相比之下,GPT-3.5的得分在倒数10%左右;做美国高考SAT试题,GPT-4也在阅读写作中拿下710分高分、数学700分(满分800)。
许多现有的机器学习基准测试都是用英语编写的。为了初步了解GPT-4在其他语言上的能力,研究团队使用Azure Translate将MMLU 基准——一套涵盖57 个主题的14000 个多项选择题——翻译成多种语言。在测试的26种语言的24种中,GPT-4优于GPT-3.5 和其他大语言模型(Chinchilla、PaLM)的英语语言性能。
三、GPT-4在用户意图理解力的提升
GPT-4在用户意图理解方面比以前的模型有了大幅改进。
- 在一个由5,214个提示组成的数据集上,这些提示提交给了ChatGPT 和OpenAI API,与GPT-3.5生成的结果相比,GPT-4生成的结果在70.2%的提示上被优先选择。
- GPT-4还可以理解图表中数据的含义,并做进一步计算。
- 用户可以直接把论文截图发给它,GPT-4可以按像素处理其中的文字和图片,并给出对整篇论文的总结摘要。
- 在修改代码方面,出现问题啥也不用想,直接把1万字的程序文档一股脑扔给GPT-4就行。格式也不用管,你只需要Ctrl+A、Ctrl+C、Ctrl+V。
此外,OpenAI还在为机器学习模型设计的传统基准上评估了GPT-4。GPT-4大大优于现有的大型语言模型,以及大多数SOTA模型。