在今年的Google I/O开发者大会上,Google和沃尔沃公布了一项技术整合:AI助手Gemini将获得车辆的外部视觉能力。在即将发布的沃尔沃EX60 SUV上,Gemini可以直接调用车辆的外部摄像头,帮助车主理解车外的环境信息。
系统级权限带来的视觉接入
这一功能得以实现的基础,是沃尔沃采用了Google的Android Automotive OS(AAOS)作为车载操作系统。需要明确的是,AAOS与手机投屏方案Android Auto有着本质区别。AAOS是直接运行在车辆硬件上的原生操作系统,这意味着它拥有对车辆硬件的直接访问权。据Google公布的数据,自双方2020年展开合作以来,目前已有超过200万辆沃尔沃汽车运行该系统。
正是这种系统级的控制权,让Gemini能够跨过应用沙盒的限制,直接读取外部摄像头的图像数据。如果把传统的手机投屏比作隔着窗户看室内,那么原生系统就是直接把房门钥匙交给了AI,使其能够真正触达传感器的原始数据。
多模态模型的务实落地
多模态大模型(Multimodal Large Language Models,即能够同时处理文字、图像等不同类型输入的AI模型)正在加速向车载场景渗透。Google为这次视觉能力上车设定的首个应用场景非常具体:解读复杂的停车标志。
在城市驾驶中,驾驶员经常遇到信息密度极高的停车牌,上面可能叠加了特定时间段、许可车辆类型、天气条件等限制信息。以往,驾驶员需要自己阅读并综合判断。现在,只需向Gemini提问,系统便会结合摄像头捕捉的图像与当前时间、地理位置,用自然语言给出能否停车的结论。这种基于实时视觉的推理,比依赖预先采集的高精地图更具灵活性,模型不需要提前知道标志牌的存在,而是通过视觉识别直接得出判断。本质上,这是将大语言模型的逻辑推理能力与计算机视觉(Computer Vision,即让计算机理解和处理图像的技术)的感知能力进行了融合。
视觉记忆与车端算力考量
Google对这一视觉能力的规划并未止步于停车标志识别。官方设想中,具备视觉能力的Gemini还能记住沿途的路标或特定建筑,为后续的行程回忆或地点查找提供依据。
不过,将视觉大模型真正部署到车端仍需面对算力与延迟的平衡。实时处理多路外部摄像头的高清视频流,对车规级芯片的算力消耗极大。目前智能座舱主流的高通8295芯片AI算力约为30 TOPS,而手机端最新的旗舰芯片算力通常在45 TOPS左右,车规级芯片出于散热和安全考量,在制程和绝对算力上往往落后于消费级产品。如果采用云端推理,即车辆上传图像至服务器处理后返回结果,在网络信号不佳的地下车库或偏远地区,响应延迟会显著影响体验;而若采用车端本地推理,EX60现有的计算平台能否流畅支撑多模态模型的运行,还需要实车验证。目前来看,停车标志识别这类相对静态、对实时性要求不极高的场景,是对当前车端算力限制的一种务实选择。