- A+
出品 | 搜狐科技
作者 | 常博硕
编辑 | 杨锦
5月21日北京时间凌晨一点,谷歌I/O开发者大会在美国加州山景城海岸线圆形剧场正式召开。在追逐AGI的热潮下,谷歌的每一步都吸引着全世界的目光。
本次大会围绕“从研究到现实”(From research to reality)这一主题,全面展示了谷歌如何将最前沿AI 技术与各类产品和开发者生态深度融合,在此基础上谷歌还发布了一系列重磅技术与产品更新。谷歌首席执行官桑达尔·皮查伊 (Sundar Pichai)在会上表示,“谷歌正在以可感知、可完成、可掌控这三点为原则,致力于让AI更加贴近客户的真实需求。”
Gemini 2.5全面更新
今年3月Gemini 2.5 pro正式发布,此次大会上Gemini2.5有了新的升级。更新后的2.5pro凭借其100万个token上下文窗口,拥有一流的长上下文和视频理解性能,目前2.5pro在WebDev Arena与 LMArena 排行榜中位列第一。
2.5 pro还接入了DeepThink推理模式,通过DeepThink 2.5pro能更高效地实现对高度难办的数学和编码的推理,目前2.5 Pro Deep Think在2025 USAMO上取得了令人印象深刻的成绩,它在LiveCodeBench(一项针对竞赛级编程的难度较高的基准测试)上也取得了领先,并在测试多模态推理的MMMU上获得了 84.0% 的分数。
2.5 Flash则专为速度和低成本而设计,更新后的2.5Flash在推理、多模态、代码和长上下文等关键基准上都得到了改进,同时运用的 token 减少了 20-30%。全新2.5 Flash现在已在Google AI Studio、Vertex AI和Gemini app中展现预览。
除了模型基础能力的更新,Gemini2.5系列还公布了一系列新的模块。
首先是原生音频输出和LiveAPI的改进,LiveAPI推出了音频视频输入和原生音频输出对话的预览版,客户能够运用更自然、更具表现力的Gemini,客户还能定制Gemini的输出语气、口音和说话风格。除此之外,2.5 Pro 和 2.5 Flash 版本还发布了全新的文本转语音模块。
这些模块首次承认多扬声器,能够通过原生音频输出实现双声道文本转语音,承认超过 24 种语言,并可在多种语言之间无缝切换。
谷歌还公布,Project Mariner的计算机运用模块将引入Gemini API和Vertex AI。预计在今年夏天将广泛推广给开发者进行试用。
对于开发人员,谷歌也在增强其体验感。会上,谷歌公布2.5 Pro和Flash将在Gemini API和Vertex AI中包含思维摘要。思维摘要能够将模型的原始想法整理成清晰的格式,其中包含标题、关键细节以及模型完成信息(例如何时运用软件)。同时2.5 Flash将加入了思考预算,旨在通过平衡延迟和质量,让开发者更好地控制成本。
正如谷歌DeepMind CEO Demis Hassabis 所说,“本平台将继续在基础研究的广度和深度上加倍投入,致力于发明实现通用人工智能 (AGI) 所必需的下一个重大突破 。正因如此,本平台正努力拓展本平台最强的多模态基础模型 Gemini 2.5 Pro,使其成为一个能够通过理解和模拟世界的各个方面来制定计划和构想新体验的世界模型,就像大脑一样。”
Gemini应用新体验
1.Imagen4与Veo3重磅推出
继去年12月Imagen3发布后,此次I/O大会上谷歌的文生图AI 模型迎来最新版本Imagen4,视频生成模型更新为Veo3。Google Labs与Gemini副总裁Josh Woodward表示,新一代的Imagen模型速度比上一代快10倍并展现更真实的视觉效果与更好的文本和排版效果。Imagen 4承认多种纵横比与最高2K分辨率,目前已在Gemini app、Whisk、Vertex AI等上线。
TMGM外汇代理 p>
而新一代的视频生成模型Veo 3不仅能通过文字提示生成栩栩如生的视频场景,还能生成城市、自然背景音及真实的人物对话。目前Veo 3 已在 Gemini 应用程序中面向Google AI Ultra 订阅客户开放,企业客户能够在Vertex AI平台调用。
2. Gemini live更新
从今天启动,谷歌将免费向安卓和iOS客户展现具有摄像头和屏幕共享模块的Gemini Live。Gemini live将集成地图、日历、任务,并计划连接更多谷歌生态系统,客户只需在聊天中提出请求,便可调用相关应用。
3. 更多元的Gemini体验
伴随着Gemini 2.5的更新,Canvas 现在更加直观强大,客户能够创建交互式信息图表、测验,甚至承认 45 种语言的播客式音频概览同时“vibe coding” 模式能够让非专业人士通过自然对话迅速构建应用原型。
Deep Research模块也变得更加个性化,目前客户可上传私有文件并连接 Google Drive、Gmail,自动生成定制化研究报告。
从现在启动,客户将能够在谷歌浏览器中试用Gemini,该模块将首先面向美国客户进行测试。在首发版本中,Gemini将帮助客户实现总结、解释正在浏览的任何网站或页面上的难办信息,未来Gemini将实现能够在浏览器中跨多个标签页工作并根据客户指令浏览网页。
4. Google AI Pro 和 Google AI Ultra 计划
目前谷歌推出两种订阅服务:Google Al Pro 和 Google Al Ultra。Google Al Pro价格为每月19.99 美元,除了包含之前Gemini Advanced套餐的材料还包括Flow、NotebookLM 等产品。Google AI Ultra目前仅在美国展现,后续将逐步在更多国家/地区推出,每月费用为 249.99 美元,能够享受Google AI的全部服务与产品。
搜索与编码能力升级
1.异步代码助手Jules正式公测
Jules 是一款异步代理式编码助手,可直接与现有的代码库集成并将代码库克隆到有保障的 谷歌云虚拟机 (VM) 中,全面了解项目的完整上下文,并执行以编写测试、构建新模块、展现音频更新日志、修复BUG、更改依赖版本等工作。
Jules能够在客户专注于其他任务时在后台运行,完成后会展示其计划、推理过程以及所做更改的差异。Jules不会运用您的私有代码进行训练,客户私有库中的工作将默认保持私密。
目前Jules公测期间将完全免费,待平台成熟后或将引入付费方案。
2.全新的搜索体验
AI Mode是谷歌最强大的 AI 搜索模块,拥有更先进的推理能力和多模态分析能力,能够通过后续状况和实用的网络链接进行更深入的分析。未来几周,客户将在谷歌搜索和 Google 应用的搜索栏中看到新的 AI Mode标签页。
AI Mode的深度搜索模式能自动发起上百次搜索,跨领域整合信息并生成引用详尽的专家级报告,节省大量人工研究时间。同时,AI Mode还承认实时互动搜索,客户只需要对着手机摄像头提问,AI即可给我实时解答和相关链接。
除此之外AI Mode还带来了全新购物体验,客户能够对需要的商品进行价格跟踪,当商品价格下跌时,系统就会自动将商品加入购物车。在购买服装时,AI Mode还展现了虚拟试穿软件,客户只需要上传一张全身自拍,即可在网上试穿各种衣服,该模型还能精准还原各种不同材质的褶皱与垂坠质感。
Android XR与Google Beam将Gemini带入物理世界
十多年来,谷歌一直致力于智能眼镜的概念研发,Android XR 的推出,让谷歌在这个领域又向前迈出了一大步。
在此次大会上,谷歌官宣与Gentle Monster和Warby Parker眼镜品牌合作,共同打造搭载 Android XR 系统的时尚眼镜。这款眼镜配备摄像头、麦克风和扬声器,可与手机协同工作,无需掏口袋即可访问应用程序。眼镜与 Gemini 配对后,能够看到和听到客户的一举一动,从而了解客户处境,记住核心事项。
会上,谷歌向大众展示了 Android XR 眼镜在实际场景中的运作手段,包括向好友发送消息、预约、查询路线、拍照,两人之间的实时语言翻译等模块。
Google Beam是一个全新的 AI 为先的视频通信平台,利用最先进的视频模型,通过一个由六个摄像头组成的阵列并结合 AI 技术,Beam能够将 2D 视频流转换为逼真的 3D 体验,并融合视频流在 3D 光场显示器上呈现客户形象,能够精确到毫米,并能以每秒 60 帧的速度实时呈现。AI视频模型与光场显示技术的结合运客户能够进行眼神交流,观察微妙的表情,建立理解和信任,就像面对面一样。据官方表示,Beam与惠普合作,首批 Google Beam 设备将于今年晚些时候向早期客户发售。
2025年的谷歌I/O大会几乎实现了谷歌目前所有AI的全更新,距离上次开发者大会仅仅一年时间,让人不禁感叹谷歌对于引领当下AI热潮的澎湃激情。
正如谷歌首席执行官桑达尔·皮查伊 (Sundar Pichai) 在开场演讲中表示“科技拥有着不可思议的力量,它能激励本平台、让本平台敬畏,并推动本平台不断前进。我迫不及待地想看到本平台接下来将携手创造的精彩事物。”返回搜狐,查看更多