5月14日讯(编辑 赵昊)5月14日凌晨,美国人工智能公司OPENAI在线上发布了“春季更新”。
本次活动主要包括两大内容:发布全新旗舰模型“GPT-4O”以及为CHATGPT提供更多免费功能。
GPT-4O登场
OPENAI发布了新旗舰模型“GPT-4O”,该模型能够“实时对音频、视觉和文本进行推理”。据悉,该模型可使CHATGPT处理50种不同语言,同时提高速度和质量。
GPT-4O中的“O”代表“垦利”,源自拉丁语“OMNIS”。在英语中,“OMNI”常表示“全部”或“所有”的概念。
新闻稿称,GPT-4O是迈向自然人机交互的重要一步,它可接收文本、音频和图像的组合输入,并生成文本、音频和图像的任意组合输出。“与现有模型相比,GPT-4O在图像和音频理解方面尤为出色”。
在GPT-4O之前,用户通过语音模式与CHATGPT对话时,GPT-3.5的平均延迟为2.8秒,GPT-4为5.4秒。音频输入时会丢失大量信息,使GPT-4无法直接观察音调、说话者和背景噪音,也无法输出笑声、歌声和情感表达。
相比之下,GPT-4O能在232毫秒内对音频输入做出反应,与人类对话中的反应时间相近。在录播视频中,两位高管通过演示展示了该模型的能力:它能从急促的喘气声中理解“紧张”,并指导用户进行深呼吸,还能根据用户要求改变语调。
在图像输入方面,演示视频显示,OPENAI高管启动摄像头要求实时解题,CHATGPT轻松完成任务;高管还展示了CHATGPT桌面版实时解读代码和电脑桌面(一张气温图表)的能力。
OPENAI新闻稿称,“我们训练了一个新的端到端模型,用于处理文本、视觉和音频数据,这意味着所有输入和输出都由同一神经网络处理。GPT-4O是我们第一个结合所有这些模式的模型,因此我们仍在探索其功能和局限性”。
在性能方面,根据传统基准测试,GPT-4O在文本、推理和编码等方面达到了相当于GPT-4 TURBO级别的性能,同时在多语言、音频和视觉功能方面的表现也创下新高。
更多工具免费解锁
OPENAI表示,“我们开始向CHATGPT PLUS和TEAM用户推出GPT-4O,并很快向企业用户推出。我们今天还开始推出带使用限制的CHATGPT FREE。PLUS用户的消息限制将比免费用户高5倍,团队和企业用户的限制更高。
该新闻稿指出,即使是 CHATGPT 免费用户,也有可能体验到 GPT-4O,但当使用量达到限额时,CHATGPT 将自动切换回 GPT-3.5。
OPENAI 还发布了适用于 MACOS 的 CHATGPT 桌面应用,可以通过便捷的键盘快捷键 (OPTION + 空格键) 向 CHATGPT 提问,并在应用中直接截取屏幕截图与 AI 展开讨论。
在直播活动的尾声,OPENAI 首席技术官 MIRA MURATI 表示:“由衷感谢出色的 OPENAI 团队以及 JENSEN(黄仁勋)和英伟达团队,是他们提供的先进 GPU,才得以呈现今天的演示。