沃尔沃正在把车载摄像头的用途从单纯的驾驶辅助,拓展到日常交互。据海外媒体报道,即将推出的沃尔沃EX60将内置谷歌Gemini AI模型,车辆的外部摄像头不仅能捕捉路况,还能直接与AI大模型协作,识别街边的建筑物和路牌,并通过语音与车内乘客交流。
视觉与语言系统的直接打通
目前市面上绝大多数智能汽车,视觉感知系统和语音交互系统是两套独立的运作逻辑。摄像头负责给ADAS系统提供图像,识别车道线、行人和车辆;语音助手则负责处理导航、空调控制等指令。沃尔沃EX60这次的做法,是把这两套系统在数据层面进行了连接。
EX60的内置摄像头获取到外部图像后,会直接将视觉数据交由谷歌Gemini模型进行处理。比如车辆驶过一家具有历史背景的酒店,或者一块复杂的外文路牌,摄像头捕捉到画面,Gemini模型会在后台进行图像理解和语义分析,随后把结果转化为语音反馈给车内乘客。这种交互方式,让车辆不再只是一个执行命令的工具,而是具备了环境认知能力。
数据显示,谷歌Gemini 1.5 Pro模型具备100万Token的上下文窗口处理能力。相比之下,目前国内多数车机端运行的大模型上下文窗口普遍在8K到32K之间。这种长文本处理能力让EX60在处理长视频流或连续街景变化时,能够保持更连贯的记忆和分析能力,而不会因为几秒钟的遮挡就丢失对环境的判断。
从看得到到看得懂
单纯的视觉识别并不新鲜,特斯拉的纯视觉方案一直在做这件事,但两者的侧重点完全不同。特斯拉的视觉网络是为了输出转向和制动指令,追求的是毫秒级的响应和极高的准确性;沃尔沃EX60接入Gemini,更多是为了扩展车辆的信息服务维度。
以前我们开车经过一个陌生的路口,看到一块路牌或者一栋奇特的建筑,如果想了解具体信息,需要自己掏手机搜索。EX60的机制相当于给车配了一个随时在线的实景导游。当乘客问出右边那栋楼是什么时,系统不需要重新唤醒,因为摄像头和Gemini模型已经在实时同步外部环境数据,可以直接给出答案。
这种基于实景的对话交互,对车机硬件的算力分配提出了新要求。参考沃尔沃EX90搭载的Nvidia Drive Orin芯片,其核心算力达到508 TOPS。EX60作为换代车型,大概率会沿用这一级别的计算平台,并在软件层面对视觉数据和自然语言处理进行更灵活的调度。
大模型上车的另一种解法
纵观目前的汽车行业,大模型上车的路径主要分两种。国内主机厂倾向于将大模型接入座舱,主打情绪陪伴和车控生态;而海外品牌更倾向于将AI与车辆本身的硬件做深度绑定。沃尔沃选择与谷歌深度合作,走的是后一条路。
把大模型与视觉传感器结合,需要解决两个核心问题:延迟和隐私。图像数据的体量远大于文本,如果在云端处理,网络延迟会直接破坏对话的自然感。据业内推测,EX60很可能会采用端云结合的方案,日常的街景和路牌识别由端侧小模型秒回,复杂的建筑背景查询则交由云端Gemini大模型处理。
隐私方面,实时上传车外影像意味着需要更严格的数据脱敏。沃尔沃在EX90上已经引入了激光雷达和纯电架构,EX60在数据安全层面大概率会延续欧洲车企一贯的保守策略,对上传云端的人脸、车牌等敏感信息进行本地模糊化处理。
沃尔沃EX60的这套方案,展示了智能汽车传感器融合的新方向。当摄像头不再只为驾驶服务,当大模型不再只待在语音助手的壳子里,汽车与物理世界的交互方式就发生了实质性的改变。