沃尔沃EX60接入谷歌Gemini大模型车载摄像头可识别建筑与路牌

沃尔沃正在把车载摄像头的用途从单纯的驾驶辅助，拓展到日常交互。据海外媒体报道，即将推出的沃尔沃EX60将内置谷歌Gemini AI模型，车辆的外部摄像头不仅能捕捉路况，还能直接与AI大模型协作，识别街边的建筑物和路牌，并通过语音与车内乘客交流。

视觉与语言系统的直接打通

目前市面上绝大多数智能汽车，视觉感知系统和语音交互系统是两套独立的运作逻辑。摄像头负责给ADAS系统提供图像，识别车道线、行人和车辆；语音助手则负责处理导航、空调控制等指令。沃尔沃EX60这次的做法，是把这两套系统在数据层面进行了连接。

EX60的内置摄像头获取到外部图像后，会直接将视觉数据交由谷歌Gemini模型进行处理。比如车辆驶过一家具有历史背景的酒店，或者一块复杂的外文路牌，摄像头捕捉到画面，Gemini模型会在后台进行图像理解和语义分析，随后把结果转化为语音反馈给车内乘客。这种交互方式，让车辆不再只是一个执行命令的工具，而是具备了环境认知能力。

数据显示，谷歌Gemini 1.5 Pro模型具备100万Token的上下文窗口处理能力。相比之下，目前国内多数车机端运行的大模型上下文窗口普遍在8K到32K之间。这种长文本处理能力让EX60在处理长视频流或连续街景变化时，能够保持更连贯的记忆和分析能力，而不会因为几秒钟的遮挡就丢失对环境的判断。

从看得到到看得懂

单纯的视觉识别并不新鲜，特斯拉的纯视觉方案一直在做这件事，但两者的侧重点完全不同。特斯拉的视觉网络是为了输出转向和制动指令，追求的是毫秒级的响应和极高的准确性；沃尔沃EX60接入Gemini，更多是为了扩展车辆的信息服务维度。

以前我们开车经过一个陌生的路口，看到一块路牌或者一栋奇特的建筑，如果想了解具体信息，需要自己掏手机搜索。EX60的机制相当于给车配了一个随时在线的实景导游。当乘客问出右边那栋楼是什么时，系统不需要重新唤醒，因为摄像头和Gemini模型已经在实时同步外部环境数据，可以直接给出答案。

这种基于实景的对话交互，对车机硬件的算力分配提出了新要求。参考沃尔沃EX90搭载的Nvidia Drive Orin芯片，其核心算力达到508 TOPS。EX60作为换代车型，大概率会沿用这一级别的计算平台，并在软件层面对视觉数据和自然语言处理进行更灵活的调度。

大模型上车的另一种解法

纵观目前的汽车行业，大模型上车的路径主要分两种。国内主机厂倾向于将大模型接入座舱，主打情绪陪伴和车控生态；而海外品牌更倾向于将AI与车辆本身的硬件做深度绑定。沃尔沃选择与谷歌深度合作，走的是后一条路。

把大模型与视觉传感器结合，需要解决两个核心问题：延迟和隐私。图像数据的体量远大于文本，如果在云端处理，网络延迟会直接破坏对话的自然感。据业内推测，EX60很可能会采用端云结合的方案，日常的街景和路牌识别由端侧小模型秒回，复杂的建筑背景查询则交由云端Gemini大模型处理。

隐私方面，实时上传车外影像意味着需要更严格的数据脱敏。沃尔沃在EX90上已经引入了激光雷达和纯电架构，EX60在数据安全层面大概率会延续欧洲车企一贯的保守策略，对上传云端的人脸、车牌等敏感信息进行本地模糊化处理。

沃尔沃EX60的这套方案，展示了智能汽车传感器融合的新方向。当摄像头不再只为驾驶服务，当大模型不再只待在语音助手的壳子里，汽车与物理世界的交互方式就发生了实质性的改变。

菜单

沃尔沃EX60接入谷歌Gemini大模型车载摄像头可识别建筑与路牌

视觉与语言系统的直接打通

从看得到到看得懂

大模型上车的另一种解法

评论

沃尔沃EX60接入谷歌Gemini大模型 车载摄像头可识别建筑与路牌

视觉与语言系统的直接打通

从看得到到看得懂

大模型上车的另一种解法

评论

沃尔沃EX60接入谷歌Gemini大模型车载摄像头可识别建筑与路牌