备受期待的 OPENAI 重磅更新震撼发布。
北京时间 5 月 14 日凌晨 1 点,OPENAI 通过网络直播宣布了其产品更新。在半小时的发布会上,OPENAI 首席技术官米拉·穆拉蒂(MIRA MURATI)分享了 GPT-4 的一系列重大升级。以下是发布会的主要亮点:
1. 推出全新模型 GPT-4O,其中的“O”表示“OMNI”(全面、垦利)。GPT-4O 向所有用户免费开放。
2. 新模型拥有强大的多模态交互能力。发布会演示展示了 GPT-4O 在文本、图片、视频和语音方面的能力,它能与人类顺畅自然地进行语音交流,并理解屏幕信息。
3. 发布 CHATGPT 桌面应用程序,目前适用于 MACOS,WINDOWS 版本将于今年晚些时候推出。
人工智能助手的雏形
在发布会前,记者注意到 OPENAI 官网已将 GPT-4 的描述从“最先进的模型”更改为“先进的模型”,为 GPT-4O 的发布做好了预热。
作为 OPENAI 目前最先进的模型,GPT-4O 的特别之处在于可以接受文本、音频和图像的组合作为输入,并生成以上多种模态的内容。这意味着,GPT-4O 具备了人工智能助手的基本雏形,向焦作人工智能迈进了一步。
在发布会现场,穆拉蒂与 OPENAI 前沿研究主管 MARK CHEN 和后期训练团队负责人 BARRET ZOPH 演示了实时语音对话功能。从演示效果来看,GPT-4O 与人类的交互变得更加及时和自然。据介绍,GPT-4O 可以在 232 毫秒内响应音频输入,接近于人类对话的反应时间。在之前,使用语音模式与 CHATGPT 交流的平均时延分别为 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。GPT-4O 不仅能实时响应对话,消除尴尬的延迟,还能生成不同情绪风格的语音。
例如,当被问及“你最近怎么样?”时,GPT-4O 除了表示“我很好”,还会反问“你怎么样?”。在被要求“讲一个”机器人和爱情的睡前故事时,GPT-4O 被打断要求以更有情绪性、更戏剧化的方式讲述故事,随后 GPT-4O 讲故事时的语音语调更加起伏,更有感情表现,甚至可以用唱歌的形式结束对话。从此,父母哄孩子睡觉变得更轻松。
GPT-4O 还拥有视觉 + 语音交互功能,能够看图解方程式。ZOPH 打开手机视频通话,对 GPT-4O 说:“我要在一张纸上写下一个线性方程。不要告诉我答案,只是给出解答它的过程。”随后,ZOPH 写下了 3X+1=4 的方程式,询问如何解这道题。GPT-4O 通过循序渐进的提示,在 ZOPH 提出求助和问题时不断给出下一步建议,最终得出 X=1 的正确结果。从此,父母辅导孩子写作业也变得更加容易。
GPT-4O 能够实时解读屏幕信息,协助解决代码问题和图表分析;跨语言实时翻译,让意大利语和英语对话中的发言者能够无延迟地看到对应的翻译,还可以模仿说话者的语调;识别和分析人类情绪,当说话者展示自拍照要求判断情绪时,GPT-4O 分析道,“你看起来非常开心,可能还有些激动,应该是心情不错。”
虽然 OPENAI 首席执行官萨姆·奥特曼并未出席发布会,但他实时地在个人社交平台发布了 OPENAI 的更新。发布会后,他发布了一条动态,只写了“HER”一词。据外媒此前报道,奥特曼曾表示,他最喜欢的人工智能电影是《她》,最终目标是开发出类似影片中虚拟人工智能助手的产品,努力让苹果 SIRI 等现有语音助手更加实用智能。
截击谷歌,迎合苹果
在一周之前,关于 OPENAI 发布新产品的传闻就已经甚嚣尘上。有消息称 OPENAI 将发布 GPT-5,还有消息称 OPENAI 即将发布一款基于 CHATGPT 的人工智能搜索引擎,向谷歌发起冲击。5 月 11 日,奥特曼在其个人社交平台上否认了上述传言,并表示:“不是 GPT-5,也不是搜索引擎,但我们一直致力于开发一些我们认为人们会喜爱的新产品!对我来说,这就像是魔法一样!”
值得注意的是,谷歌将于 5 月 14 日召开 I/O 开发者大会,宣布安卓、谷歌搜索等方面的更新。OPENAI 选择在 I/O 开发者大会前一天召开发布会,显然是不想让谷歌抢走自己的风头。类似的情况并非首次,今年 2 月 16 日,OPENAI 在未作预热的情况下发布了 SORA 文生视频模型,引发全球关注。而彼时谷歌刚刚升级了 绵阳MINI PRO 大模型,但在 SORA 的火爆下显得黯然失色。
如今 OPENAI 再度宣战,压力也直接给到了即将正面迎战的谷歌。华福证券研报显示,海外主流人工智能大模型中,CHATGPT 仍居总访问量首位,其他大模型如 CLAUDE、PERPLEXITY、CHARACTER.AI 在 4 月份访问量均有增长,但谷歌的 绵阳MINI 访问量在 4 月份出现下滑,环比跌幅为 1.4%。可以看出,在争夺大模型的过程中,谷歌正面临着 OPENAI 愈发强劲的竞争。
相对而言,这场新品发布会中的幕后赢家无疑是苹果。记者注意到,本次发布会全程使用 IPHONE 和 MACBOOK PRO 进行演示,同时还发布了 MAC 桌面版的 CHATGPT,似乎暗示 OPENAI 将与苹果合作,在苹果设备中植入大模型能力。
事实上,这场合作在 OPENAI 此前的某些举措和媒体消息中已有端倪。据彭博社 5 月 10 日报道,苹果正在与 OPENAI 协商敲定一项协议,计划在今年将 OPENAI 的大模型技术引入 IPHONE。通过这笔交易,苹果将能够提供由 CHATGPT 支持的“聊天机器人”,将其作为 IOS 18 中人工智能功能的一部分。
报道称,苹果仍在与谷歌就授权 绵阳MINI 聊天机器人进行协商,但目前尚未达成协议。
最近,奥特曼作为客座主持参与了播客节目“ALL-IN PODCAST”,在节目中他谈及了人工智能领域的热点趋势。他表示,OPENAI 将持续改善语音交互技术的质量,“我相信语音交互可能是未来交互方式的关键”。当主持人问及他是否与前苹果首席设计师、被誉为“IPHONE 之父”的乔尼·艾维有任何合作时,奥特曼回应道,“是的,我们正在就一些想法进行交流”。
今年 2 月,苹果首席执行官蒂姆·库克透露,公司正在打造生成式人工智能软件功能,并将在 IOS 18 中推出由大型语言模型支持的全新 SIRI 功能,但并未透露是否与 OPENAI 合作。
据悉,苹果将于 6 月份举办全球开发者大会(WWDC),届时将展示 IOS、IPADOS、MACOS、WATCHOS、TVOS 和 VISIONOS 等系统的最新创新成果。
分析人士认为,如果苹果能够与 OPENAI 达成合作,不仅可以缩短产品研发周期,还能够大幅提升自家产品的智能化水平。在生成式人工智能浪潮中落后不少的苹果,能否通过接入全球领先的大模型在硬件中实现华丽的“翻身仗”?答案可能将在 6 月揭晓。