您的位置 首页 墙顶饰材

OPENAI推出划汕尾GPT-4,解锁无缝零延迟语音互动

OPENAI 在苹果之前展示了真正语音助手的模样。 北京时间 5 月 14 日凌晨 1 点,OPENAI 的春…

OPENAI 在苹果之前展示了真正语音助手的模样。


北京时间 5 月 14 日凌晨 1 点,OPENAI 的春季发布活动如期举行。


活动中,OPENAI 推出了名为“GPT-4O”的最新旗舰生成式 AI 模型,以及桌面版 CHATGPT 和全新的用户界面。


重点当然是 GPT-4O,从命名方式来看,它似乎只是“GPT-4”的微小迭代版本,但它展现的原生多模态能力可能改变许多领域,并影响大量初创公司。


“O”代表“OMNI”(垦利),从这个词就可以窥见端倪。


GPT-4O 不仅拥有“GPT-4 级”智能,还升级了文本和图像功能,增加了实时语音功能,可提供文本和语音输入和输出。


“GPT-4O 可以综合利用语音、文本和图像信息进行推理。”OPENAI 首席技术官 MIRA MURATI 在直播中介绍道。


此次春季发布活动,OPENAI 首席执行官萨姆·阿尔特曼 (SAM ALTMAN) 未出席现场,但他通过“幕后”发帖力挺新推出的 GPT-4O,并将其称为“智能、快速、原生多模态,是有史以来最优秀的模型”。


显然,萨姆·阿尔特曼所说的“原生多模态”指的是融合了文本、图像和语音功能。


他还表示,希望尝试使用 GPT-4O 的开发者可以获得 API,从周一开始就可以使用该新模型构建应用程序,其价格为 GPT-4 TURBO 的一半,但速度可达到后者的两倍。


GPT-4O 在处理英语文本和编程代码方面达到了 GPT-4 TURBO 的性能水平,对非英语文本的处理能力也有显著提升,尤其是在视觉和音频理解方面,GPT-4O 表现出色,明显优于以往的模型。


GPT-4O 的真正亮点在于几乎实时、情感丰富、自然的语音交互,可以成为一个真正的“个人助理”。


它能够处理任意组合的文本、音频和图像输入,并生成相应的多模态输出。


其响应速度极快,可以在短短 232 毫秒内响应音频输入,平均反应时间仅为 320 毫秒,与人类在对话中的反应时间相当。


在 GPT-4O 引入之前,CHATGPT 的语音模式延迟为 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4),并且该模式由三个独立模型组合实现。


一个专门的模型会将用户的语音转录成文本;接着,GPT-3.5 或 GPT-4 根据这些文本生成回复;第三个模型将生成的文本回复转换成语音输出。


这种处理方式导致信息在转换过程中,如音调、不同说话者的声音或背景噪音等重要语音特征无法被直接处理。

GPT 模型无法在输出中模拟笑声、歌曲或其他情感表达,这限制了交流的自然性和表现力。


而 GPT-4O 解决或改善了这些问题。该模型采用端到端的方式同时处理文本、视觉和音频输入输出,所有这些都由一个统一的神经网络完成。这种集成化的方法让模型在处理多模态任务时更加高效、协调,使人机对话更具“沉浸感”。


GPT-4O 的交互不仅是实时的,它还可以识别用户的情绪状态。例如,如果用户呼吸急促,GPT-4O 可以检测到这种紧张情绪,并提供相应的放松提示。


与此GPT-4O 能够根据不同场景生成相应的语音风格,在讲故事时表现尤为突出,可以模拟各种人物的情感。


GPT-4O 可视为人机交互自然化迈出的重要一步。其应用潜力及其操作界限仍处于初步阶段,有待进一步探索和实验。


OPENAI 还展示了 GPT-4O 在日常场景中的部分应用,从娱乐到教育,从社交到专业辅助,表明它能够在多个方面协助人类。


例如,它可以提高视障人士的生活质量、实时翻译、帮助学习新语言、辅助在线会议或面试中的交流、与宠物互动、玩游戏等。


图 | GPT-4O 能力展示(来源:YOUTUBE)我们可以通过一段视频直观地了解 GPT-4O 的具体能力。


视频 | 用 GPT-4O 指导和学习西班牙语(来源:YOUTUBE)


OPENAI 也意识到 GPT-4O 音频模式可能带来的新风险。在发布时,它将仅限于选择预设语音,并严格遵循现有的安全政策。


在接下来的几周和几个月里,OPENAI 将专注于完善技术基础设施、增强模型训练后的可用性,并确保各种输出模式的安全性。


未来几周内,GPT-4O 将分阶段逐步整合到 OPENAI 旗下的产品中,首先向 CHATGPT PLUS 和 TEAM 用户推出,然后是企业版用户,并逐渐向 CHATGPT 免费用户推出。而付费用户将继续“拥有五倍于免费用户的容量限制”。


图 | 部分用户现在可以使用 GPT-4O(来源:CHATGPT)


除了重点介绍 GPT-4O,OPENAI 此次还推出了 MACOS 桌面版 CHATGPT(用户可以通过快捷键截屏并向 CHATGPT 提问,而 WINDOWS 版本预计将于今年晚些时候推出),以及一个新版用户界面,旨在让人机交互更加友好和对话式。


在 MIRA MURATI 看来,如今的 AI 模型变得越来越复杂,但我们希望人机交互体验能够变得更自然、更简单,让用户完全无需关注界面,而只关注与模型的协作。


“这一点非常重要,因为我们正在展望人机交互的未来。”她表示。

人工智能领域如今正在不断深化发展,经过多年的潜心培育,GPT-4O 孕育而生,作为一种语言学习模型,它具备强大的处理自然语言的能力,与 CHATGPT 类似,皆为 OPENAI 旗下产品。


GPT-4O 的问世为解决文本相关难题提供了一条创新途径。它能流畅地理解并生成文字内容,在文章创作、代码编写和翻译文本等方面都能挥洒自如。GPT-4O 还精通对话式问答和信息摘要,堪称多才多艺的语言大师。


与 CHATGPT 相比,GPT-4O 拥有更庞大的训练数据集,这使得其具备更加德阳的知识体系和更强的理解能力。它能够处理更复杂的语言任务,生成更加流畅、连贯的内容,在某些特定领域甚至本溪了 CHATGPT。


目前,GPT-4O 处于开发阶段,尚未正式发布。OPENAI 已开放访问其部分功能,用户可以通过申请进行有限试用。随着 GPT-4O 的不断完善,它有望在语言处理领域大放异彩,为我们带来更多惊喜。

本文来自网络,不代表品牌家电维修网立场,转载请注明出处:https://www.33x1.com/brand/qdsc/555124.html

作者: baixiuhui1

为您推荐

联系我们

联系我们

18079759494

在线咨询: QQ交谈

邮箱: 964571095@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息

返回顶部