据The Verge报道,在今年的Google I/O开发者大会上,Google与沃尔沃联合宣布了一项技术合作:Gemini模型将能够调用沃尔沃即将推出的EX60 SUV的外部摄像头,为车主解释和解读车辆周围的环境。这标志着车载AI助手从单纯的语音交互向视觉理解迈出了实质性的一步。
Android Automotive的系统级权限
这次升级的技术基础在于沃尔沃采用了Google的Android Automotive OS(AAOS)作为车辆的原生操作系统。需要明确的是,AAOS与Android Auto有着本质区别。Android Auto本质上是手机屏幕的投射,所有计算和数据处理都在手机端完成;而AAOS是直接运行在车机硬件上的独立操作系统。正因为系统是原生的,Gemini才得以绕过传统的应用沙盒限制,直接获取车辆底层硬件的访问权限。当驾驶员发出询问时,AI不再局限于互联网上的文本搜索,而是能够实时拉取车载摄像头捕捉到的图像数据流,进行本地或云端推理。目前主流的车载视觉系统通常包含4到6颗环视摄像头,这些原本只为泊车辅助服务的传感器,现在成为了大模型感知物理世界的眼睛。
停车标志识别的首个用例
Google为这一能力设定的首个落地场景是翻译和解释难以理解的停车标志。在北美和欧洲的许多城市,停车规则往往通过复杂的路牌组合来表达,涉及时间段、许可区域、车型限制等多种条件,人类驾驶员在短暂经过时也容易产生误判。Gemini通过调用外部摄像头获取路牌图像,利用多模态大模型的视觉解析能力处理这些信息。传统的OCR(光学字符识别)技术只能将图像中的文字转化为可编辑文本,但无法理解文字间的逻辑关系。而多模态模型不仅能提取出"2小时"和"除周日外"这些字符,还能结合当前时间、车辆属性等上下文信息进行常识推理,最终以自然语言向驾驶员反馈当前车位是否允许停放。
视觉与语言的融合挑战
将外部摄像头的数据接入大模型,技术上并非毫无门槛。车辆行驶或停放时,外部环境光照变化剧烈,摄像头容易受到逆光、阴影或污渍的干扰,这对视觉模型的鲁棒性提出了极高要求。此外,多模态处理对算力的消耗极大。如果完全依赖云端推理,网络延迟可能会让"能否停车"的实时判断失去意义;如果采用端侧推理,则对车规级芯片的NPU(神经网络处理单元)算力提出了严苛要求。目前Google尚未披露Gemini在沃尔沃车机上的具体算力分配方案,但可以推测,其必然采用了端云协同的策略:低延迟需求的简单视觉特征提取在车机端完成,而复杂的语义理解和逻辑推理则交由云端处理。一种可能的优化路径是,车机端仅将图像转换为特征向量(Feature Vectors)后上传,而非传输原始高清视频流,这样既降低了带宽需求,也在一定程度上缓解了隐私泄露风险。
从感知到记忆的演进
据官方透露,配备摄像头的Gemini未来有望实现路标记忆和场景回忆功能。例如,系统可以自动记录驾驶员刚刚经过的某个店面或路标,当驾驶员询问"刚才那个餐厅叫什么"时,AI能够调取历史视觉帧进行检索和回答。这要求车载系统不仅具备实时处理能力,还需要建立一套高效的视觉数据缓存与索引机制。在隐私保护层面,如何确保这些持续记录的车辆外部影像不被滥用,也将是这项技术正式商用前必须回答的问题。从技术演进的路径来看,车辆外部的传感器正在从单纯的驾驶辅助工具,逐渐转变为AI理解物理世界的输入接口,而Google显然希望凭借AAOS的原生优势,在这场车载操作系统的竞争中占据主导地位。