The Volvo EX60 Can 'See' The World And Chat With You About It

发布于 2026年05月20日

据海外媒体报道,沃尔沃即将推出的纯电中型SUV EX60在智能化路线上选择了一条新路径。新车的车载摄像头将直接与谷歌Gemini AI大模型协作,不仅能识别建筑物和街道标志,还能与车内乘员就这些视觉信息进行实时对话。这项技术将原本仅用于辅助驾驶的视觉数据,转化为了座舱交互的素材。

从感知到认知的跨越

目前市面上的智能汽车,感知硬件和座舱系统大多是割裂的。前风挡上的ADAS摄像头负责看路,把车道线、前车距离等数据喂给智驾芯片;语音助手则依靠麦克风和云端服务器来处理查天气、放音乐等指令。EX60的做法改变了这种硬件互不干涉的现状。当车辆行驶在陌生的城市街道,800万像素的外置摄像头捕捉到路旁的历史建筑或生僻的法语路牌时,画面数据会同步传输给车内的Gemini大模型。

这里需要提到大模型处理多模态数据的能力。数据显示,谷歌Gemini 1.5 Pro模型原生支持处理多达100万个token的上下文。这就意味着,车辆不需要在每一帧画面中都重新识别环境,它能够记住几分钟前走过的街区特征,并在乘员提问时调取这些视觉记忆。相比于目前多数只能执行简单车控指令的常规语音助手,EX60的这套系统更像是一个带着百科全书的随车导游。

硬件架构的支撑

要实现视觉与语言的无缝衔接,离不开算力的支持。参考沃尔沃EX90的技术架构,EX60大概率会继续基于SPA2纯电平台打造。该平台核心搭载了Nvidia Drive Orin芯片,算力达到254 TOPS。这种算力级别,足以支撑车辆在运行辅助驾驶算法的同时,为本地大模型的推理预留充足的计算空间。

在行业趋势方面,车企与科技巨头的绑定正在加深。大众注资Rivian以获取其区域控制架构技术,而沃尔沃早在多年前就深度集成了谷歌Android Automotive OS操作系统。这次引入Gemini大模型,是双方合作在AI时代的自然延伸。相比于自研大模型的高昂成本和漫长的迭代周期,直接调用谷歌成熟的模型显然能加快量产节奏,让产品更快落地。

视觉大模型的双重用途

将摄像头数据接入大模型,除了提升座舱体验,还涉及到功能安全的问题。如果AI模型能够准确识别出建筑物和路牌,说明系统对环境的理解已经达到了相当高的精度。这些语义信息同样可以反哺给辅助驾驶系统,提高车辆在复杂路况下的决策冗余。

特斯拉的FSD纯视觉方案试图通过端到端神经网络直接输出驾驶指令,属于黑盒运作;而沃尔沃的方案则在此基础上增加了一层可解释的语义理解。当系统告诉你前方路口有施工标志时,它不仅是在读取路牌,也是在验证其驾驶决策的合理性。

从产品定位来看,EX60作为XC60的纯电继任者,肩负着品牌走量的重任。在三电技术逐渐同质化的今天,智能座舱的差异化体验成为了新的竞争点。将多模态大模型与视觉感知结合,是沃尔沃在豪华品牌智能化竞争中的一次尝试。至于这套系统在实际路况中的响应速度和识别准确率,还有待新车上市后的真实检验。



评论