太平洋时间5月13日10点,OpenAI召开春季更新发布会,直播发布GPT-4o
发布会直播展示惊艳多模态交互能力,可以进行实时视频交互。GPT-4o(“o”代表“omni全能”)接受文本、音频和图像的任意组合作为输入,直播中GPT-4O展示了实时语音交流能力,响应极快,并且可以识别用户的语音情绪,语音有情感,还能用不同语言和多人同时交互。在语音的同时可以与视频实时交互,演示了一边聊天一边解答手写数学问题,以及实时交流阅读代码,指导编程、视频聊天等能力。
GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。GPT-4o会 在免费套餐中提供,向 Plus 用户提供高达 5 倍的消息限制。在未来几周内OpenAI将在 ChatGPT Plus 中推出带有 GPT-4o 的新版本语音模式。开发人员现在可以在 API 中将 GPT-4o 作为文本和视觉模型进行访问。与 GPT-4 Turbo 相比,GPT-4o 的速度快 2 倍,价格减半,速率限制高出 5 倍。
我们认为,GPT-4o是迈向更自然的人机交互的重大进步,新功能带来了崭新的多模态交互能力,通过新的端到端模型实现了体验上的新突破,有望在各类终端实现用户体验的最大化,利好智能终端Agent、机器人等方向。
风险提示:AI技术迭代不及预期;算力紧缺的风险;宏观经济下行的风险。
最新评论