李志飞评GPT-4o：让人机交互这个渣男有望重新做人，期待下一个十年

2024-05-14 10:49:00 新浪网

新浪科技讯 5月14日上午消息，对于OpenAI发布可实时进行音频、视觉和文本推理的新一代AI模型GPT-4o一事，出门问问创始人兼CEO李志飞今日早间于“ “飞哥说AI”个人号发文表示：“人机交互这个渣男，因为GPT-4o的出现，有望真的重新做人，开启下一波的科技、应用、和商业模式的革命，期待下一个十年。”

李志飞指出，自从2011年苹果发布Siri，无数公司尝试着做一个万能的虚拟个人助理（VPA），包括Google，也包括出门问问，但基本都是demo炫酷，用户用起来却觉得很蠢。这次，OpenAI的demo无疑是把VPA推到了前所未有的高度。主要是以下几点：

第一，模型上端到端：以前的语音助手分下面多个步骤，唤醒、语音识别、自然语言理解、信息查询、对话、TTS。每一个步骤是一个单独的模型、由不同的专业团队开发。GPT-4o是端到端模型，一个模型解决所有问题。

第二，实时交互：因为是一个端到端模型，所以做到了平均300多毫秒的类似于人类的实时交互，如果用大模型串联可能需要几秒延迟。虽然以前的语音助手也可以实时交互，但大多是完成一些基本信息查询（比如说附近的川菜馆）和基本命令（比如说拨打电话号码），但这个GPT-4o是一个真正意义上通用的VPA。

第三，多模态交互：以前的语音助手只是语音交互，而现在的GPT-4o是真正的多模态，跟人类一样，模态之间自由切换。牛X的是，GPT没有因为加入别的模态而降低语言的理解和生成能力，大写地服。

第四，丝滑的交互体验：从视频来看，跟以前的语音助手不一样，没有反人类的唤醒、没有答非所问的对话、没有pipeline系统的错误传递，AI基本上可以作为一个聪明的人类参与人类的集体对话（AI参与多人视频会议那个例子很好地证明了这个）。

第五，未来的期望：这次demo从体验上很炸裂，让我对大模型真正渗透到生活的方方面面重新产生了信心。除了打磨基本体验外，未来可做的事情很多，比如说落地到各种智能硬件；跟智能家居、车载等各种场景结合实现跨场景联动，感觉未来五年很多东西值得期待。

第六，前沿科技的timing：这次的演示本身没有新的idea，无论是现在的语音助手和多模态交互，还是未来要落地的智能硬件和多场景联动，都没有啥新的概念，过去十年很多人做过demo。但是过去的体验都是半吊子，demo很酷、用起来反人类。本人做了十年，都已经绝望了，直到大模型的出现，才看到了一个全能的VPA的可能性。所以，前沿科技很多时候不在于vision，而在于实现vision的路径和节奏。

GPT-4o让人机交互这个渣男有望重新做人

猎豹移动董事长兼CEO、猎户星空董事长傅盛夜间发文点评称，“所有人工智能从业者都在熬夜等着大洋彼岸放核弹，但是没想到核弹没有放，掏出了一堆的摔炮。”

傅盛表示，这样的评论虽然是一句玩笑话，但比较让人失望的是这次OpenAI没有发布GPT 5.0，连GPT4.5也没有看到，反而是发布了GPT4o，就是把一系列的引擎给结合在一起，比如图片、文字、声音，这样你就不需要来回去切换了。

当然，傅盛也看到，OpenAI也发布了一系列的应用，通过一个桌面的App让你能够方便地把图片文档上传然后让大模型去帮你分析；此外，最重要的是OpenAI还发布了一个语音助手，由于使用了端到端大模型技术，所以这次语音助手的体验超越了Siri，也远超于我们以前用过的所有的各种AI助手，不仅能够去感知情绪实时知道对话人的每一句话，并且在该插话的时候插话。

傅盛指出，一方面，我们觉得OpenAI发布应用恰恰说明了应用在人工智能领域大有可为，每一个创业者都应该去好好的做人工智能应用，大模型的能力当然会不断地迭代，但最终能够把大模型用好的还是应用，这次OpenAI的发布会，也说明了这一点。另一方面，如果不计成本的累参数，提高所谓的大模型能力，这条路肯定是容易遇到困难的，目前看起来GPT5可能还要难产一段时间。

“OpenAI这次为了能够让更多的用户使用它，可以说是卯足了劲，一系列的应用，API降价，GPT免费，我们当然希望OpenAI能够使得这个行业更好的发展，我们也能认真地去学习，这次的发布会真正告诉我们应用大有可为，所有人都应该努力。”傅盛表示。（文猛）

（责任编辑：王治强 HF013）

看全文

写评论已有条评论跟帖用户自律公约

提交还可输入500字

李志飞评GPT-4o：让人机交互这个渣男有望重新做人，期待下一个十年

最新评论

相关推荐

热门阅读

和讯特稿

李志飞评GPT-4o：让人机交互这个渣男有望重新做人，期待下一个十年

最新评论

相关推荐

热门阅读

和讯特稿

推荐阅读