说到当前这轮人工智能热潮背后的支持技术,Alphabet Inc.旗下的谷歌其实是发明者,但其产品的受欢迎程度却明显滞后。这家搜索引擎巨头希望通过发布备受期待的Gemini来改变这种局面,这是该公司迄今为止构建的“规模最大、功能最强的工人智能模型”。
自从OpenAI去年凭借其对话式聊天机器人ChatGPT取得巨大成功以来,越来越多的公司一直在尝试生成式人工智能,这种技术可以根据用户的要求自动执行编码、总结报告或创建营销活动等任务。在12月6日发布这款产品前的一次演示会上,谷歌强调,Gemini是其构建的最灵活的模型,因为它有不同规模的版本,包括一个可以直接在智能手机上运行的版本。这使它有别于其他竞争对手。
这款人工智能模型是一个用于支持各种生成式人工智能应用程序的系统,它有三个不同的版本:Gemini Ultra、Gemini Pro和Gemini Nano。谷歌DeepMind部门产品副总裁埃利·柯林斯(Eli Collins)表示,这种多样性意味着Gemini“能够在从移动设备到大型数据中心的所有设备上运行”。
“长期以来,我们一直希望构建新一代人工智能模型,其灵感来自于人们理解这个世界并与其互动的方式——这种人工智能感觉更像是一个助人为乐的合作者,而不是一款智能软件,”柯林斯在接受记者电话采访时说道,“Gemini让我们离这个愿景又靠近了一步。”
在这款模型发布前,该公司对Gemini进行了一系列标准的行业基准测试,并表示,在八项测试中有六项结果显示,Gemini Pro的表现优于OpenAI的GPT-3.5。谷歌称,在对通用语言理解、推理、数学和编码进行的八项基准测试中,Gemini有七项结果优于OpenAI通用模型的最新版本GPT-4。与此同时,谷歌估计,该公司最新的可解释和生成代码的生成式人工智能产品AlphaCode 2在竞争性编程领域超过了85%的竞争对手。该公司将发布一份技术报告,更深入地解释Gemini的模型架构、训练过程和评估情况。
从12月6日开始,想要为智能手机和平板电脑编写Gemini支持的应用程序的安卓(Android)开发人员将能够注册使用这款人工智能模型的“nano”版本,该版本可以直接在此类设备上运行。谷歌还表示,将立即在其旗舰手机Pixel 8 Pro上启用Gemini,它将支持新的生成式人工智能功能,例如从电话录音中总结要点。下周,谷歌将通过其Vertex AI和AI Studio平台向云客户提供Gemini Pro。
Gemini Ultra是最大版本的谷歌人工智能模型,最初将在面向开发者和企业公司的抢先体验计划中推出,有关该计划的详细信息将于下周公布。这个版本将于明年早些时候向公众广泛推出。
Gemini还能通过Bard与谷歌的大量应用程序和服务整合在一起,Bard是该公司的对话式聊天机器人,是ChatGPT的竞争对手。此前,Bard使用的是谷歌的PaLM 2模型,这是该公司在5月份的年度开发者大会上宣布的大型语言模型。
在过去一年中,谷歌一直面临压力,既要重塑其核心搜索业务,又要应对生成式人工智能程序兴起的浪潮。尽管该公司长期以来一直被视为人工智能研究领域的先驱,但一些人批评其管理层在人工智能产品营销方面反应迟缓,尤其是在ChatGPT和图像生成器Dall-E等产品大获成功之后。自OpenAI于3月份发布GPT-4以来,谷歌一直在努力重申其在该领域的领导地位,包括将这项新技术注入其成熟的搜索业务。
Gemini就是该公司面对这种市场压力给出的答案。谷歌表示,人工智能模型是“天然多模式”,这意味着它从一开始就经过预先训练,可以处理用户给出的基于文本和图像的提示。例如,在一则视频演示中,谷歌展示了家长可以通过上传某道某数学题的图像以及在草稿纸上尝试解题的步骤照片,来帮助孩子完成家庭作业。
在演示视频中,谷歌的软件工程师泰勒·阿普尔鲍姆(Taylor Applebaum)表示:“Gemini不仅能解出这些题目,还可以阅读这些答案并理解哪些是对的,哪些是错的,并对需要进一步澄清的概念做出解释。”该公司还表示,其“搜索生成体验”——谷歌利用其生成式人工智能技术构建的实验版本的搜索引擎——将在明年融入Gemini的新功能。
尽管如此,该公司的代表警告说,Gemini仍然容易“产生幻觉”,也就是生成式人工智能产生的虚假或捏造的信息。柯林斯称这种现象为“一个未解决的研究问题”。该公司向记者展示的演示视频是预先录制的。
柯林斯说,Gemini“在谷歌所有人工智能模型中拥有最全面的安全评估”。他说,为了评估Gemini的安全性,谷歌对这款人工智能模型进行了对抗性测试,也就是模仿一位试图利用该程序的坏人给出提示。此次测试包括“真实毒性提示”,这是艾伦人工智能研究所(Allen Institute for AI)开发的一项测试,其中包含从网上提取的10万多个提示,旨在帮助人工智能研究人员检查大型语言模型中是否存在仇恨言论和政治偏见。
谷歌还强调,这项工具的速度将会很快。该公司表示,Gemini使用了一种新的底层超级计算机架构和更新的处理芯片,使其比早前较小的模型运行得更快。谷歌正在使用一种新版本的云芯片——Cloud Tensor Processing Units (简称TPUs),这是一种内部设计的芯片,和前代产品相比,它训练现有模型的速度要快2.8倍。谷歌机器学习的副总裁阿明·瓦赫达特(Amin Vahdat)说,这种方法让谷歌“对未来标准人工智能基础设施有了新的认识”。他补充说,该公司仍然会使用第三方人工智能芯片来运行其Gemini模型。
Gemini将被整合到3月份推出的谷歌生成式人工智能聊天机器人Bard当中,使其能够利用该公司最受欢迎的服务,包括Gmail、地图(Maps)、文档(Docs)和YouTube。此次推出将分为两个不同的阶段进行:从12月6日开始,Bard将由Gemini Pro提供支持,它将实现高级推理、规划、理解和其他功能。它将能够在170个国家和地区以英语运行,但值得注意的是,不包括欧洲或英国,该公司表示它正在和当地监管机构协商。
明年初,该公司打算发布Bard Advanced,这款产品将由功能更强大的Gemini Ultra模型提供支持。谷歌表示,它很快将推出一个值得信赖的测试程序,以便在向公众广泛推出之前改进Bard Advanced。
谷歌负责Bard产品的副总裁茜茜·萧(Sissie Hsiao)表示,“有了Gemini的加持,Bard正在进行迄今为止最大、最好的升级,它将为人们开启创作、互动和协作的新方式。”
最新评论