备受关注的搜索产品“跳票”之后,OpenAI依然搞了个大的——推出GPT-4o,杀疯科技圈。其强大的自然对话能力以及对人类情感的实时感知,让人们怀疑,科幻电影《Her》里的萨曼莎、《钢铁侠》里的贾维斯是不是真的要来了。
北京时间5月14日凌晨,OpenAI举办线上“春季更新”活动,发布新旗舰生成式AI模型GPT-4o。据悉,GPT-4o的“o”代表“omni”,意为全能,是迈向更自然的人机交互的关键一步。
特别是在音频处理领域,过往独立模型之间的相互转化带来的延迟感,算得上是人工智能助手变科幻为现实的最大障碍之一。为应对这一情况,GPT-4o跨文本、视觉和音频端到端地训练了一个新模型,所有输入和输出都由同一个神经网络处理,成为其突破深度学习界限的最新举措,也完成了人工智能对话的“丝滑”实现。
在表现上,GPT-4o可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出。据悉,新模型使ChatGPT能够处理50种不同的语言,同时提高了速度和质量。
在反应速度上,GPT-4o可以在短短232毫秒内响应音频输入,平均响应时长也仅有320毫秒,与对话中的人类响应时间相似。相比起来,GPT-3.5语音对话的平均延迟为2.8秒、GPT-4为5.4秒。
GPT-4o更大的惊喜则在于对“情绪价值”的提供。比如机器人能够从急促的喘气声中理解“紧张”的含义,并且指导他进行深呼吸,还可以根据用户要求变换语调。在发布会上,还有演示者将手机举到自己面前正对着脸,要求ChatGPT告诉他自己长什么样子。第二次尝试后,ChatGPT对他说:“看起来你感觉非常快乐,喜笑颜开。”
更“炸裂”的是,所有用户均可免费使用该模型,而付费用户的容量限制是免费用户的5倍。据悉,GPT-4o的文本和图像功能已经开始向付费的ChatGPT Plus和Team用户推出,企业用户也即将推出。免费用户也将开始使用,但有使用限制。
在API使用方面,OpenAI首席技术官米拉·穆拉蒂表示,相比去年11月发布的GPT-4-turbo,GPT-4o价格降低一半,速度提升两倍。GPT-4o的语音和视频输入功能将在未来几周内推出。
此外,OpenAI还发布了桌面版的ChatGPT和新的用户界面。“我们认识到这些模型正变得越来越复杂。”穆拉蒂说道,“但我们希望用户与人工智能模型的交互体验能够更加自然、轻松,让用户可以将注意力完全集中在与模型的协作上,而无需在意界面本身。”
“语音对话的能力原本就有,但是这次可怕在于基本没有延迟的响应,还有对复杂环境,包括情绪、语气的识别”,阿里研究院执行院长袁媛对北京商报记者分析称,低延迟来自于推理架构的整体优化,而复杂环境识别理解又是模型能力的提升,“所以最后的winner,还是要赢在一个从头到脚的技术体系”。
此前OpenAI频传将推出AI搜索引擎,GPT-5的消息也甚嚣尘上。但当地时间5月10日,OpenAI表示,将于当地时间5月13日以直播的形式宣布产品更新,不过届时不会发布GPT-5,也不会发布搜索引擎产品。
GPT-5和搜索产品的缺席,也导致外界讨论OpenAI是否“慢下来了”。对此,袁媛认为,技术能力并不是跟着数字线性增长的,GPT-4o虽然还“姓”4,但已经能看到清晰的技术特点和可能的商业模式以及后续发展潜力,例如低延迟推理能力,还可能支持更多的模型能力,比如动作控制和交互。此外,“omni”代表的多模态信息输入输出,也有很大潜力。
受GPT-4o消息影响,A股多模态AI概念高开,其中汤姆猫涨停。公开信息显示,汤姆猫5月12日发布机构调研内容提到,公司正有序推进人工智能垂直模型与算力基础设施的建设。
国盛证券认为,GPT-4o是迈向更自然的人机交互的重大进步,新功能带来了崭新的多模态交互能力,通过新的端到端模型实现了体验上的新突破,有望在各类终端实现用户体验的最大化,利好智能终端Agent、机器人等方向。
北京商报记者 杨月涵
最新评论