谷歌推出PaLM 2和Gemini模型,开放Bard,加速AI语言技术发展,与ChatGPT竞争激烈

投稿 05-12 10:31

前几日,在 Google 官方发布的文章中提到,「自 2008 年 Google 首次举办 I/O 大会,已经过去了整整十五年。」

在过去的十五年中,Google 作为全球一直领先的科技公司,深刻影响了全世界互联网产业的格局与发展方向。每年一度 I/O 大会(除 2020 年因疫情取消),更是成为 Google 大秀肌肉、推陈出新的舞台。

直到近期 OpenAI 连续发布多个划时代意义的产品与技术,提前推进了 AIGC 时代的进度条。随后微软快速采取了各种行动,将 GPT 能力集成进浏览器、搜索引擎,甚至办公套件,让微软在人工智能赛道上探出身位。人们开始好奇移动开发时代的绝对霸主—— Google,将如何通过本次 I/O 的技术发布,重回技术领导地位。

今天凌晨 2023 Google I/O 大会的主题演讲环节,Google and Alphabet CEO Sundar Pichai 及数位技术、产品负责人,从 AI、移动开发、云服务和消费者产品几个方面,快速介绍了多项重要的更新:

正式发布 5400 亿参数大模型 PaLM 2,已为 Google 旗下产品 25 项产品赋能。同时宣告了多模态基础模型

Gemini,Google 所有产品都将基于它们,包括 Google Bard、搜索、云。

Google 对标 ChatGPT 的智能聊天机器人 Bard 也迎来了新进展,正式面向 180

个国家/地区开放使用,目前支持英语、日语、韩语交互,近期将扩展其他 40 种语言。

Android 14 新增 Magic Compose 功能,可帮助用户智能回复文本信息。

Google 官方的折叠机来了!推出首款折叠屏手机 Pixel Fold 售价 1799 美金,及配有智能支架的平板电脑 Pixel

Tablet,售价 499 美金、以及中端系列手机 Pixel 7A,售价 499 美金。不知苹果在今年是否会紧随发布折叠机。

Google 办公套件 Workspace 推出 AIGC 工具包—Duet AI,现开放试用。

Google 搜索推出 Perspectives 功能,利用 AI 能力,优化搜索体验。

Wear OS 4 即将发布,将延长电池寿命,完善与智能家居的交互使用。

谷歌推出PaLM 2和Gemini模型,开放Bard,加速AI语言技术发展,与ChatGPT竞争激烈

PaLM 2 发布,能力渗透 Google 全线产品

在正式发布 PaLM 2 前, Pichai 先通过发布 Gmail、Google Map、Google Photo 三个产品中的新功能,展现其实际应用能力。现场介绍了 Gmail 产品中基于 PaLM 2 实现的三项新能力:Help me write 帮我写、Smart Compose 智能补全、Smart Reply 智能回复。并且据统计过去一年中,智能写作的相关功能已经稳定为用户了 1800 亿次服务。同样的 AI 能力还应用在了 Google Map 中,提供了沉浸式的导航路线视图,这项功能将在不久后开放,在今年年底前支持第一批城市。同样,在 Google Photo 中引入 AI 能力后,也为用户提供了强大的图片编辑能力。

Pichai 严肃强调了 Google 的使命是:整合全球信息以供大众使用,并让人人受益(Organize the world’s information and make it universally accessible and useful.)。这句强调不禁联想到,本届 I/O 大会前一周,图灵奖得主、人工智能学界泰斗、Google 前人工智能专家 Geoffrey Hinton 辞去谷歌工作,并表示了对人工智能技术快速发展的担忧。

PaLM 2(Pathway Language Model)也是本次大会 AI 板块最重大的发布之一,这是 Google 开发的 5400 亿参数的大型语言模型(LLM),在本次发布的 PaLM 2 预览版中,重点改进了模型的多语言翻译、数学、程序语言、推理和自然语言生成能力。

其中多语言翻译能力的提升,来源于 PaLM 2 基于 100 多种语言中文本的训练。这使得模型在理解、生成和翻译细微差别的文本(如成语、诗歌和谜语)的能力都有了显著提高。

在推理方面,PaLM 2 的数据集包括科学论文、大量涵盖数学公式的各类网页,提高了模型的逻辑、常识推理和数学能力。

在程序语言方面,PaLM 2 在海量开源代码的基础上进行了预训练。除了 Python 和 JavaScript 这类流行语言,这还包括 Prolog、Fortran 和 Verilog 这类语言。另外,Google 在 PaLM 2 的基础上训练了用于编程和调试的专业模型 Codey,安全知识模型 Sec-PaLM 以及医学知识模型 Med-PaLM 2 。

目前 PaLM 2 提供四个大小版本,适用于不同的使用场景,每种规格并以动物名,从最小到最大:Gecko 壁虎、Otter 水獭、Bison 野牛和 Unicorn 独角兽。其中 Gecko 非常轻巧,可以在移动设备上工作,并且速度足够快,即使在离线时也能在设备上稳定运行。

值得一提的还有,Google 公布了其下一代多模态基础模型 Gemini,由 DeepMind 仍然还在训练过程中,支持多种输入方式,包含高效的工具,能够让开发者实现 API 集成。

而 Google 做模型和微软等不一样的地方可能就是对于社会责任的体现。如何判别 AIGC 生成的内容?Google 带来了两项工具——嵌入水印和嵌入元数据(meta data)。

Bard 取消试用制,用来写代码更顺畅了!

作为直接对标 ChatGPT 的产品,Bard (https://bard.google.com/)一直被寄予厚望。在这次大会上,Bard 正式取消了排队试用机制,180 多个国家和地区目前可以直接使用 Bard,但中国地区访问仍然受限。目前版本的 Bard 仅支持英语、日语、韩语内容,并承诺在未来尽快支持其他 40+种语言。

在本次的演示中,升级后的 Bard 更适合生成代码,包括 20 多种语言的代码生成、调试、编写注释。在 Bard 演示的环节强调了其可扩展性,例如使用 Bard 写代码可以一键拖拽至 Colab 直接运行。除此之外,如果使用 Bard 生成了比如邮件内容、表格之类的,也可以直接拖拽进 Gmail、以及 Google 云端硬盘的文件中。

谷歌推出PaLM 2和Gemini模型,开放Bard,加速AI语言技术发展,与ChatGPT竞争激烈

除了 Colab,Bard 还将与包括 Adobe Firefly 在内的更多合作伙伴进一步合作,未来可以使用 Bard 直接生成代码,在各个软件工具平台上使用。

在现场的展示中,Bard 可以在其回答中显示图像,比如用户正在寻找有关旅游目的地的信息,Bard 可以在回复框中输出图片,展示热门景点的图片。就目前展示和线上试用的效果而言,这些能力对比当前 ChatGPT ,Bard 仅仅做到了追赶,少部分功能的实用性让人眼前一亮。

Google 推出首个折叠屏手机 Pixel Fold

在消费者产品方面,本次 I/O 的亮点是 Google 正式推出了首款折叠屏手机 Pixel Fold。Pixel Fold 外观小巧,是一款横向内折屏幕手机,搭载谷歌自研 Tensor G2 处理器,附带 Titan M2 协处理器,配有 12GB LPDDR5 内存 + 256/512GB UFS 3.1 存储,拥有 4821mAh 的电池容量。

Pixel Fold 使用了 5.8 英寸的 OLED 外屏,宽高比为 17.4 比 9,分辨率为 2092x1080,内屏为 7.6 英寸 OLED 可折叠显示屏,宽高比为 6 比 5,分辨率为 2208x1840,支持无级悬停折叠。折叠后尺寸为 139.7x79.5x12.1 毫米,展开后尺寸为 139.7x158.8x5.8 毫米,重量为 283g,目前预定 Pixel Fold,还免费送一个 Pixel Watch 手表。

Duet AI:Google 要和微软 Copilot 正面刚

Duet AI 是基于 Google 办公套件 WorkSpace 中几项 AIGC 工具重新组合提炼的品牌,涵盖了一系列 Google 办公套件中的 AIGC 能力。包括 Google Docs 和 Gmail 中的智能写作工具,Google Slides 中的图像生成、演讲备注,Google Meet 的自动会议摘要等等。

接入 Duet AI 的用户将会在 Gmail、Google Docs 等应用中加入一个名为 Sidekick 的侧边板,帮助用户使用不同的 AIGC 工具组件完成工作任务。

让移动更智能,Android 14 的点睛之笔

无论从时长,还是从发布内容来说,Android 都不算是今年 I/O 的重点。移动开发的重大创新时代仿佛逐渐落幕,现在更加注重的是极致的交互设计和使用体验。

今年 I/O 宣布推出的 Magic Compose,这是 Android 默认消息应用程序中的一项新功能,可为用户提供针对消息内容的文本回复,可以模仿用户本身的语言风格,也可以定制商务回复风格,或是某位文学家的写作风格。

除此以外,在主题演讲中,还展示了用户编辑手机动态壁纸的功能,能够使用设备上的机器学习能力将你最喜欢的照片转换成 3D 图像,当用户解锁或摇晃你的设备时,这些照片就会栩栩如生。流畅的操作体验和简洁的交互,在现场引发不少观众的积极回应。

Google 搜索的 Perspectives,将影响用户搜索习惯?

随着 Reddit、Instagram、TikTok 等平台上内容爆炸式的增长和蓬勃的发展,年轻用户的互联网使用习惯发生了重大改变,他们的日常搜索入口也发生了调整。不再依赖 Google 作为唯一一个搜索工具,让 Google 在内容搜索方面也遭遇了增长瓶颈。

让如何将其他平台的优质内容加入搜索结果,也成为了 Google 寻求搜索增长的方向。本次大会上发布了 Google 搜索的 Perspectives,希望能够将更多不同平台上的文本、图片、视频、商品等信息,都能够有针对性的展现在用户的搜索结果里。

结语

从去年底到今年,AI 的这场飓风迅猛又热烈地刮过了全球,人工智能技术革新之快、影响之巨前所未有,让人真正理解到了何为「日新月异」。

微软珠玉在前,Google 盛名之下,让这场 I/O 大会万众期待。本次大会上的每一项发布如果是 2022 年底前拿出来,都是新奇又令人振奋的技术创新。但经历了过去几个月 AI 大跨步式的发展,这些发布仿佛很难在当下,带动起一个新的 Aha moment。

一场发布会无法给出当前 AI 发展之路在何方的答案,但在这条路上,前赴后继的技术人、专家和学者,他们对技术本身的极致追求、技术与社会之间关系的探索、科技对人类命运影响的反思,将带领我们无限接近关于未来的真相。

谷歌推出PaLM 2和Gemini模型,开放Bard,加速AI语言技术发展,与ChatGPT竞争激烈

而最后,笔者分别给 ChatGPT、Bard 和 Bing AI 抛出了「你如何看待 Google I/O 2023?」的问题,综合来看,ChatGPT 的训练数据里还没有包含这场刚刚发生的事件,Bing AI 的介绍也是非常地平实、官方,还是 Bard 表现得最漂亮,然而依旧不支持中文。

但 Bing Image Creator 为 Google I/O 2023 AIGC 了一张全场图,在此分享给大家:

最后,附上 I/O 官方回放地址:https://io.google/2023/intl/zh/

同时,Google 还开放了 I/O 官方线上交流(I/O Adventure Chat )地址:https://adventure.withgoogle.com/io/

可以通过 I/O Adventure Chat 与开发者社区成员在虚拟聊天环境中交流互动。您也可以与 Google 员工交流互动,向他们提出问题并讨论最新产品发布内容。


相关标签:

免责声明:本文中的文字及图片均来自于网络,如果涉及到您的版权问题,或是您不想让本站使用您的这些信息,请您来信告知【Email:380355757@qq.com】,我们会及时更改(删除),维护您的权力。本站不承担由此引起的任何法律责任!


相关文章: