沃尔沃EX60搭载谷歌Gemini模型，车载视觉系统实现场景识别与对话

当车辆驶过一栋陌生的历史建筑，传统的车机导航可能只会弹出一个小小的兴趣点图标，而沃尔沃EX60的做法是直接告诉你这栋楼的来历。据海外媒体报道，沃尔沃即将推出的EX60将深度集成谷歌的Gemini AI模型，这款纯电SUV的外部摄像头不仅能用来辅助驾驶，还能直接看懂街景，并和车内乘员进行自然对话。

视觉感知的进阶：从认路到认楼

现阶段大部分智能汽车的外部摄像头主要服务于ADAS系统，工作逻辑是提取车道线、行人和交通标志等结构化数据。一旦识别完成，这些画面就会被系统丢弃，摄像头本质上是个单一用途的数据采集器。

EX60的思路发生了明显转变。通过接入Gemini模型，车辆摄像头捕捉到的画面会实时进入大模型的视觉处理模块。比如前方出现一块复杂的路牌，Gemini不仅能读出上面的文字，还能结合语境理解具体的交通规则限制。当驾驶员询问刚才那个路牌是什么意思时，系统能调取几秒前的视觉记忆进行准确解答。如果路边有一座造型独特的建筑，系统也能结合地理位置和视觉特征，给出详细的背景介绍。这种多模态交互，把原本孤立的感知数据和自然语言处理连接在了一起。

跑通大模型的算力门槛

把一个庞大的多模态大模型塞进车里，对硬件算力提出了苛刻要求。数据显示，Gemini模型的参数规模达到了千亿级别，要在车端实现实时推理，传统的车规级芯片很难独立胜任。

目前行业内主流的座舱芯片如高通8295，其NPU算力约为30 TOPS，智驾芯片如英伟达Orin X则提供254 TOPS算力。如果EX60要在本地运行Gemini的视觉推理功能，必然需要更高规格的硬件支持，或者采用端云协同的架构。沃尔沃很可能采用本地处理低延迟的视觉识别任务，同时将复杂的建筑解析和长文本生成放在云端。这种做法的好处是降低车端芯片压力，但挑战在于如何保证在弱网环境下的响应速度。从目前曝光的信息来看，EX60的电子电气架构会做针对性的带宽预留，以应对多模态数据上传的需求。

传感器数据开放背后的产业逻辑

沃尔沃和谷歌的合作由来已久，从早期的原生安卓车机到现在的Gemini深度集成，双方在底层数据接口上有着更深的打通。这和国内新势力普遍选择自研大模型的做法截然不同。

国内车企倾向于把大模型应用在语音助手和座舱娱乐上，通过接入第三方大模型API或者端侧部署小参数模型来实现。而沃尔沃直接把Gemini和车辆的外部感知硬件绑定，相当于给车配了一个带眼睛的导游。这种方案不仅考验AI模型的视觉理解能力，更考验车企开放底层传感器数据的决心。把环视摄像头的原始画面直接交给第三方模型处理，在数据安全和隐私合规上需要一套极其严密的隔离机制。

随着EX60的落地，汽车行业的视觉竞争将从单纯的看得到向看得懂转移。当摄像头不再只为驾驶服务，车外感知硬件的商业价值将被进一步放大，这或许会促使更多车企重新审视自己手中的传感器资源。

菜单

沃尔沃EX60搭载谷歌Gemini模型，车载视觉系统实现场景识别与对话

视觉感知的进阶：从认路到认楼

跑通大模型的算力门槛

传感器数据开放背后的产业逻辑

评论