新浪科技讯 5月14日上午消息,对于OpenAI发布可实时进行音频、视觉和文本推理的新一代AI模型GPT-4o一事,出门问问创始人兼CEO李志飞今日早间于“ “飞哥说AI”个人号发文表示:“人机交互这个渣男,因为GPT-4o的出现,有望真的重新做人,开启下一波的科技、应用、和商业模式的革命,期待下一个十年。”
李志飞指出,自从2011年苹果发布Siri,无数公司尝试着做一个万能的虚拟个人助理(VPA),包括Google,也包括出门问问,但基本都是demo炫酷,用户用起来却觉得很蠢。这次,OpenAI的demo无疑是把VPA推到了前所未有的高度。主要是以下几点:
第一, 模型上端到端:以前的语音助手分下面多个步骤,唤醒、语音识别、自然语言理解、信息查询、对话、TTS。每一个步骤是一个单独的模型、由不同的专业团队开发。GPT-4o是端到端模型,一个模型解决所有问题。
第二, 实时交互:因为是一个端到端模型,所以做到了平均300多毫秒的类似于人类的实时交互,如果用大模型串联可能需要几秒延迟。虽然以前的语音助手也可以实时交互,但大多是完成一些基本信息查询(比如说附近的川菜馆)和基本命令(比如说拨打电话号码),但这个GPT-4o是一个真正意义上通用的VPA。
第三,多模态交互:以前的语音助手只是语音交互,而现在的GPT-4o是真正的多模态,跟人类一样,模态之间自由切换。牛X的是,GPT没有因为加入别的模态而降低语言的理解和生成能力,大写地服。
第四, 丝滑的交互体验:从视频来看,跟以前的语音助手不一样,没有反人类的唤醒、没有答非所问的对话、没有pipeline系统的错误传递,AI基本上可以作为一个聪明的人类参与人类的集体对话(AI参与多人视频会议那个例子很好地证明了这个)。
第五,未来的期望:这次demo从体验上很炸裂,让我对大模型真正渗透到生活的方方面面重新产生了信心。除了打磨基本体验外,未来可做的事情很多,比如说落地到各种智能硬件;跟智能家居、车载等各种场景结合实现跨场景联动,感觉未来五年很多东西值得期待。
第六,前沿科技的timing: 这次的演示本身没有新的idea,无论是现在的语音助手和多模态交互,还是未来要落地的智能硬件和多场景联动,都没有啥新的概念,过去十年很多人做过demo。但是过去的体验都是半吊子,demo很酷、用起来反人类。本人做了十年,都已经绝望了,直到大模型的出现,才看到了一个全能的VPA的可能性。所以,前沿科技很多时候不在于vision,而在于实现vision的路径和节奏。
GPT-4o让人机交互这个渣男有望重新做人
猎豹移动董事长兼CEO、猎户星空董事长傅盛夜间发文点评称,“所有人工智能从业者都在熬夜等着大洋彼岸放核弹,但是没想到核弹没有放,掏出了一堆的摔炮。”
傅盛表示,这样的评论虽然是一句玩笑话,但比较让人失望的是这次OpenAI没有发布GPT 5.0,连GPT4.5也没有看到,反而是发布了GPT4o,就是把一系列的引擎给结合在一起,比如图片、文字、声音,这样你就不需要来回去切换了。
当然,傅盛也看到,OpenAI也发布了一系列的应用,通过一个桌面的App让你能够方便地把图片文档上传然后让大模型去帮你分析;此外,最重要的是OpenAI还发布了一个语音助手,由于使用了端到端大模型技术,所以这次语音助手的体验超越了Siri,也远超于我们以前用过的所有的各种AI助手,不仅能够去感知情绪实时知道对话人的每一句话,并且在该插话的时候插话。
傅盛指出,一方面,我们觉得OpenAI发布应用恰恰说明了应用在人工智能领域大有可为,每一个创业者都应该去好好的做人工智能应用,大模型的能力当然会不断地迭代,但最终能够把大模型用好的还是应用,这次OpenAI的发布会,也说明了这一点。另一方面,如果不计成本的累参数,提高所谓的大模型能力,这条路肯定是容易遇到困难的,目前看起来GPT5可能还要难产一段时间。
“OpenAI这次为了能够让更多的用户使用它,可以说是卯足了劲,一系列的应用,API降价,GPT免费,我们当然希望OpenAI能够使得这个行业更好的发展,我们也能认真地去学习,这次的发布会真正告诉我们应用大有可为,所有人都应该努力。”傅盛表示。(文猛)
最新评论