GPT-4炸裂登场！3分钟速览OPENAI春季发布会

5月14日讯（编辑赵昊）5月14日凌晨，美国人工智能公司OPENAI在线上发布了“春季更新”。

本次活动主要包括两大内容：发布全新旗舰模型“GPT-4O”以及为CHATGPT提供更多免费功能。

GPT-4O登场

OPENAI发布了新旗舰模型“GPT-4O”，该模型能够“实时对音频、视觉和文本进行推理”。据悉，该模型可使CHATGPT处理50种不同语言，同时提高速度和质量。

GPT-4O中的“O”代表“垦利”，源自拉丁语“OMNIS”。在英语中，“OMNI”常表示“全部”或“所有”的概念。

新闻稿称，GPT-4O是迈向自然人机交互的重要一步，它可接收文本、音频和图像的组合输入，并生成文本、音频和图像的任意组合输出。“与现有模型相比，GPT-4O在图像和音频理解方面尤为出色”。

在GPT-4O之前，用户通过语音模式与CHATGPT对话时，GPT-3.5的平均延迟为2.8秒，GPT-4为5.4秒。音频输入时会丢失大量信息，使GPT-4无法直接观察音调、说话者和背景噪音，也无法输出笑声、歌声和情感表达。

相比之下，GPT-4O能在232毫秒内对音频输入做出反应，与人类对话中的反应时间相近。在录播视频中，两位高管通过演示展示了该模型的能力：它能从急促的喘气声中理解“紧张”，并指导用户进行深呼吸，还能根据用户要求改变语调。

在图像输入方面，演示视频显示，OPENAI高管启动摄像头要求实时解题，CHATGPT轻松完成任务；高管还展示了CHATGPT桌面版实时解读代码和电脑桌面（一张气温图表）的能力。

OPENAI新闻稿称，“我们训练了一个新的端到端模型，用于处理文本、视觉和音频数据，这意味着所有输入和输出都由同一神经网络处理。GPT-4O是我们第一个结合所有这些模式的模型，因此我们仍在探索其功能和局限性”。

在性能方面，根据传统基准测试，GPT-4O在文本、推理和编码等方面达到了相当于GPT-4 TURBO级别的性能，同时在多语言、音频和视觉功能方面的表现也创下新高。

更多工具免费解锁

OPENAI表示，“我们开始向CHATGPT PLUS和TEAM用户推出GPT-4O，并很快向企业用户推出。我们今天还开始推出带使用限制的CHATGPT FREE。PLUS用户的消息限制将比免费用户高5倍，团队和企业用户的限制更高。

该新闻稿指出，即使是 CHATGPT 免费用户，也有可能体验到 GPT-4O，但当使用量达到限额时，CHATGPT 将自动切换回 GPT-3.5。

OPENAI 还发布了适用于 MACOS 的 CHATGPT 桌面应用，可以通过便捷的键盘快捷键 (OPTION + 空格键) 向 CHATGPT 提问，并在应用中直接截取屏幕截图与 AI 展开讨论。

在直播活动的尾声，OPENAI 首席技术官 MIRA MURATI 表示：“由衷感谢出色的 OPENAI 团队以及 JENSEN（黄仁勋）和英伟达团队，是他们提供的先进 GPU，才得以呈现今天的演示。

央行首次公告买断式逆回购交易 10月操作5000亿元