Google对搜索产品的改造正在延伸至旗下视频平台。YouTube近期开始测试名为“Ask YouTube”的AI对话搜索功能,并在Shorts短视频板块接入Gemini Omni模型。这标志着视频内容检索方式从传统的关键词匹配转向多模态交互。
据The Verge报道,YouTube目前月活跃用户超过20亿,用户每天在平台上的搜索量高达数十亿次。但在海量视频中寻找特定信息一直效率低下。用户输入关键词后,只能根据标题和缩略图判断相关性,随后必须在视频内拖动进度条寻找具体内容。“Ask YouTube”试图切断这一繁琐过程。
视频检索转向对话式交互
“Ask YouTube”允许用户在搜索框或视频播放界面直接输入自然语言问题,例如“这个视频里提到过哪些具体的省电设置”或“主持人如何评价这款产品的续航”。
AI系统会分析视频的音频、画面及字幕内容,直接生成文字摘要或具体回答,并在回答中附带带有时间戳的来源链接。用户点击链接即可跳转至视频对应片段。数据显示,在早期测试阶段,该功能使寻找特定信息的耗时减少了约40%。
这一机制改变了视频作为单一信息流的状态,将其拆解为可检索的结构化数据。对于教程、测评、访谈等信息密度高的长视频,该功能大幅降低了用户的获取门槛。
短视频接入多模态理解
短视频的搜索逻辑与长视频不同。Shorts日均观看量超过700亿次,内容消费呈现碎片化和快速滑动的特征,用户很少会在短视频中输入文字进行搜索。
YouTube将Gemini Omni模型引入Shorts,主要为了解决视觉交互问题。当用户在观看短视频时,可以直接向AI询问画面中的背景信息。例如,询问视频中出现某件衣服的购买链接,或者画面中某处景点的名称。
Gemini Omni支持同时处理文本、图像、音频和视频输入。这意味着AI能够直接“看懂”短视频画面中的视觉元素,不再依赖创作者填写的标题或字幕。对于大量没有旁白或文字说明的短视频,该模型提供了新的信息提取途径。
流量分配的平衡
YouTube的更新是Google整体搜索业务调整的一部分。过去一年,Google在主搜索页面上线了AI Overviews功能,直接在搜索结果顶部生成AI回答。将类似机制引入视频平台,意味着Google正在统一其全平台的搜索交互逻辑。
不过,AI直接提供视频内容摘要,引发了创作者对流量流失的担忧。如果用户通过AI摘要直接获取了答案,可能不会再点击观看原视频,这将直接影响创作者的播放量和广告分成。
YouTube对此的应对策略是强制绑定来源。AI生成的每一次回答都必须附带视频时间戳跳转链接,且在摘要中明确提示该信息来源于哪位创作者的视频。据YouTube官方透露,目前内部评估的重点在于如何平衡AI摘要的便捷性与创作者的点击率收益,确保搜索结果仍能为视频带来实质性的观看时长。
目前,“Ask YouTube”仅面向部分英语用户开放测试,Gemini Omni在Shorts中的功能也在逐步灰度上线。