在2026年Google I/O开发者大会上,谷歌宣布Gmail正式引入对话式语音搜索功能。用户现在可以直接对收件箱说话,要求AI助手Gemini找出隐藏在长邮件中的特定细节。这一更新标志着Gmail的交互方式从传统关键词检索转向自然语言对话。
语音指令替代关键词组合
过去,在Gmail中寻找一封旧邮件里的具体信息,用户需要构建精确的关键词组合,并在搜索结果中反复滚动翻找。新功能上线后,交互逻辑被简化。用户只需点击搜索栏旁的麦克风图标,用日常语言提出问题,例如“上周房东发来的物业费缴纳账号是多少”。
据谷歌在主题演讲中的现场演示,Gemini在接收到语音指令后,会遍历收件箱,直接定位到相关邮件,提取出具体的银行账号和缴费金额,并通过语音将结果播报给用户。如果存在多封相关邮件,系统会列出具体来源供用户确认。整个过程无需用户手动打开邮件或阅读长篇内容。
该功能支持多轮对话。如果用户紧接着追问“这个账号和上个月的一样吗”,Gemini能够理解上下文,自动调取上个月的缴费邮件进行比对,并给出明确答复。数据显示,传统邮件搜索平均需要用户花费约2分钟的时间翻找和滚动,而对话式语音提取将信息获取的耗时压缩至10秒以内。
AI Inbox的技术延伸
此次更新是谷歌“AI Inbox”计划的最新动作。早在2024年,Gmail就引入了智能摘要功能,但当时的交互仍局限于文本点击和预设指令。2026年的这项更新,将交互维度从文本扩展到了语音,底层依赖的是Gemini模型上下文窗口的扩大和推理速度的提升。
Gmail目前拥有超过18亿月活跃用户。对于这类超大规模的应用,交互方式的调整会带来显著的使用习惯改变。语音交互的引入,特别针对了包含长对话线程的邮件场景。在这类场景中,关键信息往往被层层嵌套在几十条回复中,Gemini可以直接跳过冗余内容,抓取核心数据。
此外,针对跨语言邮件,语音搜索同样适用。用户可以用中文提问,让Gemini在一封英文邮件中找出具体的交货日期,系统会自动完成语义理解并翻译回复。
隐私边界与商业化路径
处理个人邮件对AI系统的隐私保护提出了极高要求。邮件内容通常包含财务账单、个人身份信息和商业机密。谷歌在发布会上强调,所有通过Gemini处理的语音搜索请求,都在隔离的云环境中运行,数据不会用于训练基础模型,且音频记录在处理后即刻删除。针对离线场景,部分轻量级的语音指令将交由设备端侧模型处理,以减少数据上传。
从商业角度看,这项功能也是谷歌推动AI订阅服务的手段。对话式语音搜索不会向所有Gmail用户免费开放。据科技媒体The Verge报道,该功能将首先面向Google One AI Premium订阅用户提供,随后可能逐步下放至普通用户群体。这与微软将Copilot Pro功能与Microsoft 365订阅绑定的策略基本一致。
在移动端场景下,语音交互的实用性远高于桌面端。谷歌表示,该功能将在未来几周内随Gmail应用的更新向安卓和iOS双平台推送。随着大模型处理自然语言的能力日趋成熟,将收件箱转化为一个可对话的数据库,正在成为办公软件演进的方向。