杠上Google I/O?OpenAI抢先一天直播,ChatGPT或将具备通话功能

代码极光
• 阅读 307

本周的 AI 圈注定热闹非凡。

当地时间 5 月 13 日,OpenAI 将直播发布 ChatGPT 与 GPT-4 的更新。次日,Google I/O 如约而至。不同于 I/O 大会是谷歌的年度盛会,OpenAI 此次的临时发布颇有点抢热度的意思。这对纠缠已久的「老对头」此次又会如何出招呢?我们不妨来一起回顾一下双方的渊源,并进行大胆猜想!

多轮对垒,激战正酣

自从 OpenAI 一鸣惊人后,谷歌便被贴上了「恨铁不成钢」、「起步慢」、「追赶」等标签。其中最值得探究的便是「AI 黄埔军校」这一称谓, 看似褒奖,实则是谷歌的「一把辛酸泪」。

众所周知,奠定 OpenAI 王座的 ChatGPT 是基于 Transformer 架构的,而 Transformer 正是由谷歌在「Attention Is All You Need」这篇论文中提出的里程碑式架构。 此外,ChatGPT 发布界面的致谢中也出现了多位前谷歌大佬的身影,随后更是有多位谷歌骨干员工跳槽至 OpenAI……更有意思的是,每当谷歌试图「绝地反击」时,总会伴随一些小插曲。

2023 年 2 月,为应对 ChatGPT 谷歌提出了 Bard, 但在发布后不就便被爆出,在演示时出现事实性错误——

在回答「关于詹姆斯·韦布空间望远镜 (JWST),我可以告诉我 9 岁孩子它有何新发现?」这一问题时,Bard 给出的一个答案是:第一张太阳系外行星的照片由 JWST 拍摄。但哈佛—史密森天体物理中心的研究人员格兰特·特朗布莱指出,是欧洲南方天文台的甚大望远镜 (VLT) 于 2004 年拍摄了第一张系外行星照片。

2023 年 5 月的 I/O 大会上,谷歌展示了 Bard 的产品升级, 例如支持更多语言、识别图像信息、接通谷歌应用程序以及部分外部应用等等。同时,谷歌还发布了 PaLM2,作为对标 GPT-4 的产品,其在数学、编码、推理、自然语言生成方面都有所提升。

谷歌健康研究团队还基于此创建了 Med-PaLM 2,具备检索医学知识、解码医学术语等功能。不出意外,模型上对标 GPT,应用上也要对标微软,谷歌将其 AI 能力整合到了文案写作、制作表格等办公场景中,推出了 Google Workspace。

随后,不少网友以各种形式将 PaLM 2 与 GPT-4 进行了对比,OpenAI 仍然领先的呼声更高。

2023 年 12 月,谷歌发布了其「规模最大、能力最强」的 AI 模型 Gemini, 演示效果的确惊艳,高配版本在性能上也能够与 GPT-4 一搏,但是却被爆出演示视频经后期处理,效果被部分夸大。

2024 年 2 月 8 日,谷歌宣布将 Bard 正式更名为 Gemini, 其最强模型 Gemini Ultra 加持的聊天机器人 Gemini Advanced 也正式开放,设定与 ChatGPT 相同的 20 美元为「月租」,颇有些打擂台的意思。这次发布更重要的意义是,将谷歌 AI 统一整合为 Gemini——既是模型名、也是产品名。

2024 年 2 月 16 日,自家最强的 Gemini 1.0 Ultra 发布没几天,谷歌便一鼓作气地推出了 Gemini 1.5。 其中,Gemini 1.5 Pro 最高可支持 100 万 token 超长上下文,在 token 数碾压 GPT-4,从而在音频、视频处理等任务上取得了优异的表现。如果没有 Sora,Gemini 1.5 恐怕会在很长一段时间内都是 AI 圈的热议话题。

就在 Gemini 1.5 发布后几个小时,OpenAI 便祭出了文生视频模型 Sora, 用前所未有的视频生成能力瞬间站到了舞台的最中央,长达 1 分钟的演示视频直接抢走了 Gemini 的话题度。

这一轮,从技术上无从对比,话题度上显然是胜负已分,OpenAI 也借助 Sora 进一步巩固了自己的地位。

OpenAI 又要截胡热度?

值得注意的是,5 月 1 日,X 网友 Jimmy Apples 爆料,OpenAI 的搜索引擎可能会在 5 月 9 日发布, 这位网友曾经准确预测了 GPT-4 的发布日期。随后,他又称发布日期推迟到了 5 月 13 日。

5 月 8 日,彭博社报道也称,OpenAI 内部正在开发全新的搜索引擎,通过生成式 AI 的问答方式带来全新搜索体验。彭博社表示该搜索引擎的特点之一,是可以用书面文字和图像来回答问题。彭博社报道称,OpenAI 的搜索产品是其旗舰产品 ChatGPT 的延伸,使 ChatGPT 能够从网络上直接获取信息,包括引文。在此前的报道中,The Verge 曾爆料,OpenAI 正在挖角谷歌搜索部门的工程师,推进其 AI 搜索产品的快速上线。

OpenAI 此番向本来已经格局稳定的搜索业务下手,有点「直捣黄龙」的意味?

不过,就在 5 月 11 日,OpenAI 官方发布推文称,13 日的发布会只会带来 ChatGPT 和 GPT-4 的更新,只字未提「搜索引擎」。但 5 月 13 日这个日期颇有意思,因为谷歌早已宣布将在 5 月 14 日召开 Google I/O 大会。

杠上Google I/O?OpenAI抢先一天直播,ChatGPT或将具备通话功能

随后,Sam Altman 直接明牌了——不是 GPT-5,不是搜索引擎, 但是我们一直在努力开发一些我们认为人们会喜欢的新东西!对我来说就像魔法一样。

杠上Google I/O?OpenAI抢先一天直播,ChatGPT或将具备通话功能

在 Sam Altman 去除了两个错误答案之后,网友们围绕「OpenAI 到底会发布什么」的大猜想仍然热情高涨,同时也有更多的蛛丝马迹被曝光,其中便包括了语音交互。

据 The Information 报道,OpenAI 已经向其用户展示了一个既能够交谈也能够识别物体的新模型,该模型能够提供更快、更准确的图像与音频理解。据 The Verge 报道,开发人员 Ananay Arora 称,ChatGPT 或将具备通话功能。Arora 还发现证据表明,OpenAI 提供了用于实时音频和视频通信的服务器。

杠上Google I/O?OpenAI抢先一天直播,ChatGPT或将具备通话功能

此外,Hallid 联合创始人 indigo 在其推特 (X) 账号上发布了更加详细的预测,不仅提到了 GPT-4.5,同样也预测了 OpenAI 的新 AI Assistant 助手将支持全语音交互。

杠上Google I/O?OpenAI抢先一天直播,ChatGPT或将具备通话功能

不过,从某种角度来看,Sam Altman 虽然否认了「搜索引擎」,但其并未表示不会给 ChatGPT 加点「搜索 buff」。 其实,最近一段时间里,网友已经扒出了大量证据——OpenAI 已经进军搜索领域了。

首先是前 Mila 研究员、麻省理工讲师 Lior S 爆料,OpenAI 最新的SSL证书日志显示,search.chatgpt.com 子域名已经创建。

杠上Google I/O?OpenAI抢先一天直播,ChatGPT或将具备通话功能
目前访问该域名显示 Not found,而非 404 或域名错误

国内有网友接到了灰度测试,「赛博禅心」在其公众号上发布了试用效果:

杠上Google I/O?OpenAI抢先一天直播,ChatGPT或将具备通话功能

杠上Google I/O?OpenAI抢先一天直播,ChatGPT或将具备通话功能
图源:赛博禅心

可以看到,ChatGPT 回答的还是很精准的,「赛博禅心」表示回答速度也还可以。然而,在实时信息的获取上,ChatGPT 则显现出了不足, 赛博禅心搜索比特币价格,并与谷歌搜索出的价格进行了比对:

杠上Google I/O?OpenAI抢先一天直播,ChatGPT或将具备通话功能
杠上Google I/O?OpenAI抢先一天直播,ChatGPT或将具备通话功能
图源:赛博禅心

此外,有网友直接在推特上发布了一段号称是 OpenAI 官方 AI 搜索页面的演示 demo,但与灰度测试的界面有很大不同:

杠上Google I/O?OpenAI抢先一天直播,ChatGPT或将具备通话功能

目前,OpenAI 的搜索产品最终是否会以灰度测试的形式与大家见面仍是未知数,整体来看,其所要面对的竞争者也不光是谷歌一家,还有 Perplexity AI。其实,从某种意义上讲,Perplexity AI 才是 OpenAI 在搜索业务上应该直接对标的产品。

如今,这个自诩为「世界上首个对话式搜索引擎」的 AI 工具风头正盛,获得了黄仁勋的力挺、贝佐斯等大佬的投资,其独特之处在于将 ChatGPT 式的问答和传统搜索引擎的链接列表相结合。

杠上Google I/O?OpenAI抢先一天直播,ChatGPT或将具备通话功能

OpenAI 将以何种形式参与到 AI 时代的搜索引擎市场竞争中呢?先期待一下 5 月13 日的发布会上是否会揭秘 ChatGPT 的搜索功能。

Google I/O 只能靠 Gemini 挑大梁了?

OpenAI 有心还是无意的发布会是否会爆出重大更新仍未可知,但是相信谷歌势必会准时观看这场直播,如果真的有惊喜,不知道劈柴哥是否能够快速应对,并在一天后的 Google I/O 大会上及时反击?

相较而言,一年一度的 Google I/O 大会则是缺乏了一些神秘感,在其官方页面上预告的会议重点是——移动、Web、ML/AI、云。

杠上Google I/O?OpenAI抢先一天直播,ChatGPT或将具备通话功能

按照惯例,公司 CEO Sundar Pichai 将在主题演讲中分享 Android 的更新、新一代硬件产品、谷歌在 AI 领域的最新进展与成果,以及其 AI 能力与谷歌全生态的融合。

Gemini 赋能谷歌全生态

毫无疑问,Gemini 肯定是今年 Google I/O 大会的重头戏。今年 2 月才更新的 Gemini 1.5 已经将上下文长度拉到了百万级,在性能上已经可以与 GPT-4 一战。所以,谷歌下一步则是需要考虑落地应用的问题了——如何将 Gemini 与其搜索、照片和视频工具、谷歌地图、以及 Gmail 和 Google Docs 等工作空间的工具整合到一起。

此外,谷歌也已经逐渐将其 AI 能力注入到了 Google Assistant 中,Gemini 的强大能力是否能够打造一个更加先进的、更像一个人类的自然语言语音助手呢?

值得注意的是,作为同时拥有先进大模型与硬件业务的企业,Gemini 与 谷歌自家的 Pixel 能碰撞出什么样的火花?去年便有消息称,名为 Pixie 的 AI 助手可能会在 Pixel 9 上亮相。

去年 Google I/O 大会上亮相的 Pixel 8 便已经搭载了谷歌的 AI 能力。其配备了 Google 自研芯片 Tensor G3 处理器,具备音频魔术橡皮擦、 Best Take、翻译并朗读网页等功能。例如,Best Take 功能可以将多张集体照片组合在一起,从不同的图片中选择不同人物的表情来创建完美合影。

按照惯例,今年的大会上将发布 Pixel 9,但目前的爆料中并未见其身影,反而是 Pixel 8a 呼声较高,至于 AI 助手 Pixie 是否亮相只得拭目以待。

此外,今年 4 月,外媒爆出苹果和谷歌正联手将 Gemini 整合到 iOS 系统中,两家公司都没有正式证实这一消息,如果消息属实,也算得上是两家在多业务上处于竞争关系的巨头,进行了一次「世纪大合作」。不知道劈柴哥会不会在 Google I/O 大会上宣布相关消息。

Android 和 AR/XR

作为谷歌的基石,Android 永远是 Google I/O 大会上不可或缺的内容。今年,Android 15 已经解开了神秘面纱,开发者预览版和最初的测试版已经发布,Pichai 势必会在演讲中进一步介绍系统的重磅更新。根据此前披露的信息来看,其还将介绍基于 Android Auto 实现的智能车载以及智能手表软件 Wear OS。

此外,有媒体爆出,Pichai 将会分享谷歌 AR 软件的消息,并介绍其为三星及其他头显厂商开发的 Android XR 平台。根据今年早些时间的报道,谷歌的这一轮裁员的重灾区是 AR 硬件团队,所以有媒体猜测,其已经放弃开发自己的 AR 硬件,而是完全致力于 OEM 合作模式,换言之,谷歌将专注于软件层面。

除了 劈柴哥的主题演讲外,今年的 Google I/O 大会还有多个主题论坛,例如 Google AI 的新动态、Android 的新动态、面向生成式 AI 时代的 ML 框架等等,但并未提供直播,将在演讲结束后放出相关视频素材,HyperAI超神经也将持续关注,并围绕 AI 带来深度报道,敬请期待~

写在最后

过去,工业是衡量国家实力的重要度量,如今,科技实力也跻身谈判桌,甚至成为了大国博弈的筹码。尤其是在大模型热度高居不下之际,硅谷巨头们的一举一动都备受关注。犹记得 2022 年末,OpenAI、微软、谷歌等总是突袭发布重磅更新,网友们直呼——一觉醒来,AI 圈又变天了?

进入 2024 年,战况仍在持续升温,从技术层面的竞速、到应用场景的开发,从老牌劲旅、到新晋独角兽,能够在风口持续霸榜的一定是有护城河的企业。至于在金字塔顶端的大佬们将如何斗法,让我们一起搬好小板凳,静观神仙打架!

参考资料:
1.https://36kr.com/p/2660898993824512
2.https://techcrunch.com/2024/05/09/google-i-o-2024-what-to-exp...
3.https://www.spiceworks.com/tech/tech-general/articles/google-...

4.https://www.theverge.com/2024/5/11/24154307/openai-multimodal...

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Wesley13 Wesley13
3年前
PPDB:今晚老齐直播
【今晚老齐直播】今晚(本周三晚)20:0021:00小白开始“用”飞桨(https://www.oschina.net/action/visit/ad?id1185)由PPDE(飞桨(https://www.oschina.net/action/visit/ad?id1185)开发者专家计划)成员老齐,为深度学习小白指点迷津。
Stella981 Stella981
3年前
KVM调整cpu和内存
一.修改kvm虚拟机的配置1、virsheditcentos7找到“memory”和“vcpu”标签,将<namecentos7</name<uuid2220a6d1a36a4fbb8523e078b3dfe795</uuid
Easter79 Easter79
3年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
1年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这
美凌格栋栋酱 美凌格栋栋酱
5个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
代码极光
代码极光
Lv1
待到重阳日,还来就菊花。
文章
3
粉丝
0
获赞
0