The Volvo EX60 Can 'See' The World And Chat With You About It

据海外媒体报道，沃尔沃即将推出的纯电中型SUV EX60在智能化路线上选择了一条新路径。新车的车载摄像头将直接与谷歌Gemini AI大模型协作，不仅能识别建筑物和街道标志，还能与车内乘员就这些视觉信息进行实时对话。这项技术将原本仅用于辅助驾驶的视觉数据，转化为了座舱交互的素材。

从感知到认知的跨越

目前市面上的智能汽车，感知硬件和座舱系统大多是割裂的。前风挡上的ADAS摄像头负责看路，把车道线、前车距离等数据喂给智驾芯片；语音助手则依靠麦克风和云端服务器来处理查天气、放音乐等指令。EX60的做法改变了这种硬件互不干涉的现状。当车辆行驶在陌生的城市街道，800万像素的外置摄像头捕捉到路旁的历史建筑或生僻的法语路牌时，画面数据会同步传输给车内的Gemini大模型。

这里需要提到大模型处理多模态数据的能力。数据显示，谷歌Gemini 1.5 Pro模型原生支持处理多达100万个token的上下文。这就意味着，车辆不需要在每一帧画面中都重新识别环境，它能够记住几分钟前走过的街区特征，并在乘员提问时调取这些视觉记忆。相比于目前多数只能执行简单车控指令的常规语音助手，EX60的这套系统更像是一个带着百科全书的随车导游。

硬件架构的支撑

要实现视觉与语言的无缝衔接，离不开算力的支持。参考沃尔沃EX90的技术架构，EX60大概率会继续基于SPA2纯电平台打造。该平台核心搭载了Nvidia Drive Orin芯片，算力达到254 TOPS。这种算力级别，足以支撑车辆在运行辅助驾驶算法的同时，为本地大模型的推理预留充足的计算空间。

在行业趋势方面，车企与科技巨头的绑定正在加深。大众注资Rivian以获取其区域控制架构技术，而沃尔沃早在多年前就深度集成了谷歌Android Automotive OS操作系统。这次引入Gemini大模型，是双方合作在AI时代的自然延伸。相比于自研大模型的高昂成本和漫长的迭代周期，直接调用谷歌成熟的模型显然能加快量产节奏，让产品更快落地。

视觉大模型的双重用途

将摄像头数据接入大模型，除了提升座舱体验，还涉及到功能安全的问题。如果AI模型能够准确识别出建筑物和路牌，说明系统对环境的理解已经达到了相当高的精度。这些语义信息同样可以反哺给辅助驾驶系统，提高车辆在复杂路况下的决策冗余。

特斯拉的FSD纯视觉方案试图通过端到端神经网络直接输出驾驶指令，属于黑盒运作；而沃尔沃的方案则在此基础上增加了一层可解释的语义理解。当系统告诉你前方路口有施工标志时，它不仅是在读取路牌，也是在验证其驾驶决策的合理性。

从产品定位来看，EX60作为XC60的纯电继任者，肩负着品牌走量的重任。在三电技术逐渐同质化的今天，智能座舱的差异化体验成为了新的竞争点。将多模态大模型与视觉感知结合，是沃尔沃在豪华品牌智能化竞争中的一次尝试。至于这套系统在实际路况中的响应速度和识别准确率，还有待新车上市后的真实检验。

菜单

The Volvo EX60 Can 'See' The World And Chat With You About It

从感知到认知的跨越

硬件架构的支撑

视觉大模型的双重用途

评论