Gemini接入沃尔沃EX60外部摄像头,多模态AI开始理解物理路标

发布于 2026年05月20日

在今年的Google I/O开发者大会上,Google与沃尔沃宣布了一项车机交互的实质性升级:Gemini助手将获准调用沃尔沃即将发布的EX60 SUV的外部摄像头,直接为车主解释和解读车辆周围的环境。这标志着车载大模型从单纯的语音问答阶段,迈入了结合实时视觉的感知阶段。

原生系统带来的硬件穿透力

这一功能升级的技术前提,在于沃尔沃采用了Google的嵌入式Android Automotive作为车载操作系统。需要区分的是,Android Auto本质上只是将手机屏幕投射到车机端,而Android Automotive是直接运行在车辆硬件上的独立操作系统。这种原生架构的优势在于系统级的硬件访问权限。

据The Verge报道,正是基于Android Automotive,Gemini才能绕过传统的隔离机制,直接获取车载传感器的底层数据。过去,语音助手只能读取车速、电量等车辆状态信息;现在,大模型可以直接调取车辆外部摄像头的视频流。这种操作系统与AI模型的深度绑定,让软件对物理世界的感知能力大幅增强。

停车标志识别的技术拆解

Google目前设定的首个落地场景,是解决城市驾驶中的痛点:解读复杂的停车标志。面对限制条件繁多、文字密集的停车指示牌,驾驶员往往需要停车仔细辨认。现在,驾驶者可以直接向Gemini提问,系统会截取前置摄像头画面,利用多模态能力进行实时分析。

多模态大模型(Multimodal AI,即能够同时处理文本、图像、音频等多种信息输入的人工智能)在处理这类任务时,经历了一个极短但复杂的运算过程。首先,系统从摄像头视频流中抽取关键帧;接着,视觉编码器将这些图像转化为向量特征;随后,这些特征与用户的语音指令一同输入大语言模型;模型完成图像语义理解与逻辑推理后,再通过语音合成告知车主能否在此停车以及具体的时间限制。在这个过程中,模型需要克服强光、反光、标志牌部分遮挡等现实干扰,这对模型的鲁棒性(Robustness,即系统在异常或危险情况下维持稳定输出的能力)提出了实际考验。

视觉记忆与隐私的平衡

Google对这套系统的愿景并不止于停车标志识别。官方设想,摄像头辅助的Gemini还能帮助车主回忆刚刚路过的某个路标或店面信息。这相当于给原本只有听觉和文本能力的车机装上了眼睛,且具备了短期视觉记忆。

然而,外部摄像头的持续调用不可避免地引发了隐私层面的讨论。车辆在公共道路上不断采集画面,即便仅用于即时分析,系统也需要在内存中暂存这些图像数据。数据是否上传云端?面部特征和车牌号如何脱敏?在断网离线状态下,本地算力能否支撑多模态运算?Google和沃尔沃目前尚未公布详细的技术细节。从技术逻辑来看,端侧处理(On-device processing)将是必然选择,即将视觉识别的主要计算任务放在车机本地完成,避免将敏感视频流上传至云端,从而降低隐私泄露风险。

多模态AI上车,提供便利只是第一步。当大模型开始拥有视觉,车载操作系统就不再只是一个信息娱乐中心,而是逐渐演变为车辆的感知中枢。Android Automotive与Gemini的结合,展示了科技巨头与车企在软件定义汽车趋势下的一种合作路径。但决定这套系统能否被广泛接受的,除了识别准确率,更是数据安全的透明度。



评论