谷歌对搜索业务的改造正在向视频领域延伸。近期,YouTube宣布推出名为“Ask YouTube”的AI对话式搜索功能,同时将Gemini Omni模型整合进Shorts短视频业务。这意味着用户在寻找视频内容时,不再依赖传统的关键词匹配,而是可以通过自然语言提问直接获取视频内的具体信息。
据科技媒体报道,这项更新是谷歌整体搜索体验升级的一部分。作为全球访问量最大的视频平台,YouTube月活跃用户已超过20亿,每天产生数十亿次搜索请求。其搜索机制的变动,将直接影响海量用户的检索习惯和内容分发逻辑。
从关键词匹配到自然语言问答
传统的视频搜索依赖于标题、描述和标签的文本匹配。用户输入关键词后,算法返回相关视频,用户需要点开视频自行寻找所需片段。“Ask YouTube”改变了这一检索流程。用户在搜索框输入问题后,AI系统会直接分析视频的音轨和字幕内容,生成摘要并给出答案,同时附上指向相关视频的具体时间戳链接。
例如,当用户搜索“烤箱预热需要多长时间”时,系统不再只返回标题包含该短语的烹饪视频,而是直接提取多个视频中的操作建议,生成文字总结,并标注出答案出现在视频的第几分第几秒。这种交互方式将搜索从“找视频”推进到“找答案”。目前,该功能已向部分YouTube Premium订阅用户开放测试,用户获取有效信息的平均耗时大幅缩短。
多模态模型进入短视频场景
除了长视频搜索,YouTube的短视频板块Shorts也迎来了AI能力升级。谷歌将Gemini Omni模型接入Shorts的创作与消费端。Omni模型具备原生多模态处理能力,能够同时理解文本、图像、音频和视频输入。据此前公布的数据,支撑该能力的Gemini 1.5 Pro模型拥有100万token的上下文窗口,这为处理长视频和连续短视频流提供了技术基础。
在Shorts场景下,多模态能力主要体现在内容理解与创作辅助上。创作者可以通过语音或文字指令,让AI根据当前视频画面自动生成配文或推荐背景音乐。对于观看者而言,系统能够实时解析短视频内容,提供画面中商品的信息识别或背景知识补充。这种整合打破了以往图文与视频割裂的处理方式,让AI能够同时处理画面和声音信息。
搜索版图的统一逻辑
YouTube的这两项更新并非孤立动作。谷歌此前已在主搜索页面推进生成式搜索体验(SGE),试图用AI摘要替代传统的蓝色链接列表。“Ask YouTube”和Gemini在Shorts的落地,是同一产品逻辑在视频维度的执行。
视频内容占互联网数据流量的绝大比例,但其信息密度和检索效率一直存在错配。用户往往需要花费数分钟观看,才能获取几秒钟的有效信息。AI对话搜索和多模态理解直接切入了这个痛点。通过提取视频内的结构化数据,谷歌正在把YouTube从单纯的内容分发平台转变为可交互的信息检索数据库。
随着测试范围的扩大,YouTube搜索结果页的呈现形态将发生根本改变。对于平台上数千万的内容创作者而言,视频内容的可解析性可能成为新的流量分配标准,音频中的关键信息和画面中的核心细节将直接影响内容被AI推荐的概率。对于用户而言,从浏览视频到对话问答的搜索习惯迁移才刚刚开始。