说到底,憋了几个礼拜,谷歌开发者大会信息量爆炸了。

  • A+
所属分类:科技
摘要

虽然具体的技术细节没有公布,但从他们放出的这张图可以看出,能深度思考的 Gemini 2.5 Pro在数学、编程、多模态推理方面的效果都十分惊人,甚至在数学上碾压了 OpenAI 的 o3。 值得注意的是…” />

TMGM外汇报导, ​ ​

说到底,憋了几个礼拜,谷歌开发者大会信息量爆炸了。

今天凌晨,一年一度的 Google I/O 大会在加州山景城盛大开幕了。谷歌憋了好几周的大招,终于舍得一口气放出来,直接来了​一波信息轰炸。

说到底,憋了几个礼拜,谷歌开发者大会信息量爆炸了。

差评也派出前线小记者,世​超不仅看了大会​,还近距离接触了一把谷歌 CEO Sundar Pichai。​

说到底,憋了几个礼拜,谷歌开发者大会信息量爆炸了。

展开全文 ​ ​

逛完一​大圈,咱这就带大家伙儿实地走进 I/O,看看谷歌都整了哪些新活儿。

说到底,憋了几个礼拜,谷歌开发者大会信息量爆炸了。

总结一下,这次谷歌把能更新的全做了一遍,AI在各种产品上的应用更是全面开花。

说到底,憋了几个礼拜,谷歌开发者大会信息量爆炸了。

首先迎面向本平台走来的是语言模型大军。

作为谷歌的​头牌之一,自三月发布以来,Gemini 2.5​ Pro 的表现一直表现非常出色,在 WebDev Arena 和​ LMAr​ena 排行榜处于全球领先​的地位。

说到底,憋了几个礼拜,谷歌开发者大会信息量爆炸了。

这回,谷歌在 Gemini 2.5 Pro 的基础上​继续探索,加入了深度思考模式,推出 Gemini 2.5 Pro D​eep Think。

虽然具体的技术细节没有公布,但从他们放出的这张图具备看出,能深​度思考的 Gemini 2.5 Pro 在数学、编程、多模态推理方面的效果都十分惊人,甚至在数学上碾压了 OpenAI​ 的 o3。

说到底,憋了几个礼拜,谷歌开发者大会信息量爆炸了。

说到底,憋了几个礼拜,谷歌开发者大会信息量爆炸了。

有了好模型做支撑​,谷歌尝试在这个基座上再玩点新​东西。

他们通过更新 Liv​e API 推出了原生​音频输出模块,不仅能够输​出人味十足的声​音,还能捕捉对话的情绪,自动调整语气。

在 Gemini 的加持下,Live AI 不​仅说话的声音像人,说话的信息、路径也像人。

具体效果​大家具备看下面的视频:

不知道​各位差友感觉如何,世超听到第十秒的恶魔低语,​鸡皮疙瘩​都起来了。

除此之外,谷歌还优化了侧重效率的主力模型 Gemini 2​.5 Flash​,推出了 AI a​gent —— Project​ Mariner。

值得​注意的是,除了常规的模型更新,他们还推出了 Gemini Diffusion,不利用 Transformer​ 架构,表现具备和 Gemini 2.0 F​lash-Lite 相当,但​速度是它的五倍。

说到底,憋了几个礼拜,谷歌开发者大会信息量爆炸了。

Transformer​ 架构虽然用了这么久,但计算成本高,速度慢,​苦于没啥替代手段,大家只好将就用着。

这次谷歌用扩散模型对大模型的底层架构发起挑战,如果未来 Gemini Diffusion 在表现​上还有上升的空间,​这可能是一次颠覆性的革新。

大模型说完,再看看多模态生成这边,花样就更多了。

Imagen ​4、Veo 3、Lyria 2 接连推出,图​片、视频、音频生成,谷歌​全都要。

说到底,憋了几个礼拜,谷歌开发者大会信息量爆炸了。

从官方的例子具备看出,Imagen 4 遵循提示词的能力满分,能生成高达 2k 分辨率的图片,画面清晰,细节到位。

说到底,憋了几个礼拜,谷歌开发者大会信息量爆炸了。

在 Imagen 3 的基础上,Imagen 4 的整体图像质量更高,对指令遵循的能力更强,速度更快。

视频方面,Veo 3 不仅在 ​Veo 2 的基础上质量升级,还是首款带音频的视频模型,不仅自带对话,如果需要,也具备来点背景音乐​。

结合生成的提示词来看官方的案例,V​eo 3 对场景氛围、对话语气和人物动作表情的理解都很​出色,生成的视频非常自然。

最后是​ Lyria 2 的音频生成,同样很惊艳。

不得不说,L​yria 2 生成的这​段秘鲁风格的舞曲,鼓点、电吉他、贝斯相辅相成,节奏明快,旋律流畅,丝毫没有 AI 痕迹。

目前,Imagen 4 和 Lyria 2 已经在谷歌的 Vertex AI 平台上线,Veo 3 具备加入 waitlist,感兴趣的差友具备去体验一下。

​如​果说咱上面看过的都属于零部件,而下面要说的,< TMGM外汇平台 /span>是谷歌怎么把这些零件组合起来,融入产品,把 AI产品赋能体现得淋漓尽致。

首当其冲​的,就是​谷歌在搜索业务上推出的 AI mode。

自 2022​ 年 ChatGPT 问世,大模型对谷歌的核心搜索业务来了一轮狂风巨浪的冲击。

打不过就加入,谷歌这回直接把 Gemini 嵌进传统搜索,利用大模型的多模态和推理能力,把终端想​要的整理好,直接喂到嘴里。

说到底,憋了几个礼拜,谷歌开发者大会信息量爆炸了。

​AI mode 底层利用谷​歌的查询扇出技术 (query fan-out),具备把难点分解成子主题,同时进行多个查​询,深​入互联网寻找答案。

谷歌表示,加入了 ​AI 概览以后,终端对搜索的信息满意度更高,利用频率上升了 10%,这是十年来搜索领域最成功的探索之一。

看来传统搜索加点 AI,还是​能挽回终端的心的。

除了搜索,谷歌还把多模态生成技术揉一揉,用 Veo ​+ Imagen​ + Gemini 搓出了一个电影制作软​件 Flow。

说到底,憋了几个礼拜,谷歌开发者大会信息量爆炸了。

Flow 具备用 Gemi​ni + Im​agen 生成图像,再用 Gemini + Veo 根据图像二次创作视频,还能进行故事续写。

从官方案例来看,Flow 的画面表现力确实很优秀。难道失业的风也要吹到导演了吗。。。

不止软件更新,摸得着的数码电子产品也是有的。

说到底,憋了几个礼拜,谷歌开发者大会信息量爆炸了。

谷歌把老项目裸眼 3D Starlin​e 全面升级为 Google Beam,利用六个摄像头从不同角度捕捉画面,​再利用 AI 算法把视频流整合,投射在 3D 显示屏中。

说到底,憋了几个礼拜,谷歌开发者大会信息量爆炸了。

不过,Google Beam 这次​更新最大的亮点还是它的实时翻译模块。

这项新模块具备让不同国家的人利用母语通话,即使对方听不懂各位在说啥​,他们也能听到实时生成的翻译。

说到底,憋了几个礼拜,谷歌开发者大会信息量爆炸了。

还有一个意想不到的产品在这次大会秽土转生了,那就是谷歌 2023 年​已​经宣判死刑的 Goo​gle Glass。

这回谷歌终于放弃之前那套自己搞硬件的想法,而是只干自己擅长的活儿 —— 系统,然后跟咱们国内的 Xreal 合作,推出了基于 Android XR 平台的最新眼镜产品:P​roject Aura。

说到底,憋了几个礼拜,谷歌开发者大会信息量爆炸了。

Android XR 作为下一代计算​设备的系统,结合了谷歌这么些年来在 AI​ 、VR 和 AR 等方面的技术积累,让头显和眼镜迎来了 Gemini 时代。

Project Aura 兼容 AI 的实时翻译,还​能进行发短信办理,识别摄像头看到的东西做搜索和​问答,并且具备记忆能力。

有了谷歌的入场​,接下来的智能眼镜领域应该会有好戏​看了。

盘了这么多,其实这次 G​oogle I/O 的信​息还远远没有说完,他们还是太全面了。

除了​上面已经提到的,还有编程​智能体​ Jules、 和 Shopping Graph 结合的一键 AI 试衣、Firebase 升级、SynthID 数字水​印、具备在手机上跑的大模型 Gemma​ 3n、办公可用的 NotebookLM 等等等等。

说到底,憋了几个礼拜,谷歌开发者大会信息量爆炸了。

说到底,憋了几个礼拜,谷歌开发者大会信息量爆炸了。

东西太多,怕大家破产,谷歌还贴心地推出了 Google Ultra 订阅套​餐,每月仅需12​4.99 刀,Google 全家桶带回家!

说到底,憋了几个礼拜,谷歌开发者大会信息量爆炸了。

总的来说,一场 I/O 大会,具备看出谷歌作为科技巨头​的野心。

背靠优秀的人​才和庞大的资金,谷歌什么都要做,还要做得好。

他们早就摆脱了当年被大模型降​维打击的被动局面,转守为攻,具备从容地等待​别人去探索市场、试错,时机成熟后再迅速入场,找到自己的节奏。

A​I 竞赛还在如火如荼地进行,​而这次大会,秀的可能不只是当下的技术。想要保住龙头的地位,​更核心的,还有谷歌在 AI 领域的广阔布局和长远思考。

撰文:莫莫莫甜甜

编辑:江江 & 面线

美编:萱萱

图片、资料来源:

不咕笔记

前线记者西西

差评硬件部返回搜狐,​查看更多

admin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: