沃尔沃EX60搭载谷歌Gemini模型,车载视觉系统实现场景识别与对话

发布于 2026年05月20日

当车辆驶过一栋陌生的历史建筑,传统的车机导航可能只会弹出一个小小的兴趣点图标,而沃尔沃EX60的做法是直接告诉你这栋楼的来历。据海外媒体报道,沃尔沃即将推出的EX60将深度集成谷歌的Gemini AI模型,这款纯电SUV的外部摄像头不仅能用来辅助驾驶,还能直接看懂街景,并和车内乘员进行自然对话。

视觉感知的进阶:从认路到认楼

现阶段大部分智能汽车的外部摄像头主要服务于ADAS系统,工作逻辑是提取车道线、行人和交通标志等结构化数据。一旦识别完成,这些画面就会被系统丢弃,摄像头本质上是个单一用途的数据采集器。

EX60的思路发生了明显转变。通过接入Gemini模型,车辆摄像头捕捉到的画面会实时进入大模型的视觉处理模块。比如前方出现一块复杂的路牌,Gemini不仅能读出上面的文字,还能结合语境理解具体的交通规则限制。当驾驶员询问刚才那个路牌是什么意思时,系统能调取几秒前的视觉记忆进行准确解答。如果路边有一座造型独特的建筑,系统也能结合地理位置和视觉特征,给出详细的背景介绍。这种多模态交互,把原本孤立的感知数据和自然语言处理连接在了一起。

跑通大模型的算力门槛

把一个庞大的多模态大模型塞进车里,对硬件算力提出了苛刻要求。数据显示,Gemini模型的参数规模达到了千亿级别,要在车端实现实时推理,传统的车规级芯片很难独立胜任。

目前行业内主流的座舱芯片如高通8295,其NPU算力约为30 TOPS,智驾芯片如英伟达Orin X则提供254 TOPS算力。如果EX60要在本地运行Gemini的视觉推理功能,必然需要更高规格的硬件支持,或者采用端云协同的架构。沃尔沃很可能采用本地处理低延迟的视觉识别任务,同时将复杂的建筑解析和长文本生成放在云端。这种做法的好处是降低车端芯片压力,但挑战在于如何保证在弱网环境下的响应速度。从目前曝光的信息来看,EX60的电子电气架构会做针对性的带宽预留,以应对多模态数据上传的需求。

传感器数据开放背后的产业逻辑

沃尔沃和谷歌的合作由来已久,从早期的原生安卓车机到现在的Gemini深度集成,双方在底层数据接口上有着更深的打通。这和国内新势力普遍选择自研大模型的做法截然不同。

国内车企倾向于把大模型应用在语音助手和座舱娱乐上,通过接入第三方大模型API或者端侧部署小参数模型来实现。而沃尔沃直接把Gemini和车辆的外部感知硬件绑定,相当于给车配了一个带眼睛的导游。这种方案不仅考验AI模型的视觉理解能力,更考验车企开放底层传感器数据的决心。把环视摄像头的原始画面直接交给第三方模型处理,在数据安全和隐私合规上需要一套极其严密的隔离机制。

随着EX60的落地,汽车行业的视觉竞争将从单纯的看得到向看得懂转移。当摄像头不再只为驾驶服务,车外感知硬件的商业价值将被进一步放大,这或许会促使更多车企重新审视自己手中的传感器资源。



评论