Google Gemini接入沃尔沃EX60车载摄像头识别停车标志

在今年的Google I/O开发者大会上，Google和沃尔沃公布了一项技术整合：AI助手Gemini将获得车辆的外部视觉能力。在即将发布的沃尔沃EX60 SUV上，Gemini可以直接调用车辆的外部摄像头，帮助车主理解车外的环境信息。

系统级权限带来的视觉接入

这一功能得以实现的基础，是沃尔沃采用了Google的Android Automotive OS（AAOS）作为车载操作系统。需要明确的是，AAOS与手机投屏方案Android Auto有着本质区别。AAOS是直接运行在车辆硬件上的原生操作系统，这意味着它拥有对车辆硬件的直接访问权。据Google公布的数据，自双方2020年展开合作以来，目前已有超过200万辆沃尔沃汽车运行该系统。

正是这种系统级的控制权，让Gemini能够跨过应用沙盒的限制，直接读取外部摄像头的图像数据。如果把传统的手机投屏比作隔着窗户看室内，那么原生系统就是直接把房门钥匙交给了AI，使其能够真正触达传感器的原始数据。

多模态模型的务实落地

多模态大模型（Multimodal Large Language Models，即能够同时处理文字、图像等不同类型输入的AI模型）正在加速向车载场景渗透。Google为这次视觉能力上车设定的首个应用场景非常具体：解读复杂的停车标志。

在城市驾驶中，驾驶员经常遇到信息密度极高的停车牌，上面可能叠加了特定时间段、许可车辆类型、天气条件等限制信息。以往，驾驶员需要自己阅读并综合判断。现在，只需向Gemini提问，系统便会结合摄像头捕捉的图像与当前时间、地理位置，用自然语言给出能否停车的结论。这种基于实时视觉的推理，比依赖预先采集的高精地图更具灵活性，模型不需要提前知道标志牌的存在，而是通过视觉识别直接得出判断。本质上，这是将大语言模型的逻辑推理能力与计算机视觉（Computer Vision，即让计算机理解和处理图像的技术）的感知能力进行了融合。

视觉记忆与车端算力考量

Google对这一视觉能力的规划并未止步于停车标志识别。官方设想中，具备视觉能力的Gemini还能记住沿途的路标或特定建筑，为后续的行程回忆或地点查找提供依据。

不过，将视觉大模型真正部署到车端仍需面对算力与延迟的平衡。实时处理多路外部摄像头的高清视频流，对车规级芯片的算力消耗极大。目前智能座舱主流的高通8295芯片AI算力约为30 TOPS，而手机端最新的旗舰芯片算力通常在45 TOPS左右，车规级芯片出于散热和安全考量，在制程和绝对算力上往往落后于消费级产品。如果采用云端推理，即车辆上传图像至服务器处理后返回结果，在网络信号不佳的地下车库或偏远地区，响应延迟会显著影响体验；而若采用车端本地推理，EX60现有的计算平台能否流畅支撑多模态模型的运行，还需要实车验证。目前来看，停车标志识别这类相对静态、对实时性要求不极高的场景，是对当前车端算力限制的一种务实选择。

菜单

Google Gemini接入沃尔沃EX60车载摄像头识别停车标志

系统级权限带来的视觉接入

多模态模型的务实落地

视觉记忆与车端算力考量

评论