YouTube上线AI对话搜索功能并接入Gemini多模态模型

Google对搜索产品的改造正在延伸至旗下视频平台。YouTube近期开始测试名为“Ask YouTube”的AI对话搜索功能，并在Shorts短视频板块接入Gemini Omni模型。这标志着视频内容检索方式从传统的关键词匹配转向多模态交互。

据The Verge报道，YouTube目前月活跃用户超过20亿，用户每天在平台上的搜索量高达数十亿次。但在海量视频中寻找特定信息一直效率低下。用户输入关键词后，只能根据标题和缩略图判断相关性，随后必须在视频内拖动进度条寻找具体内容。“Ask YouTube”试图切断这一繁琐过程。

视频检索转向对话式交互

“Ask YouTube”允许用户在搜索框或视频播放界面直接输入自然语言问题，例如“这个视频里提到过哪些具体的省电设置”或“主持人如何评价这款产品的续航”。

AI系统会分析视频的音频、画面及字幕内容，直接生成文字摘要或具体回答，并在回答中附带带有时间戳的来源链接。用户点击链接即可跳转至视频对应片段。数据显示，在早期测试阶段，该功能使寻找特定信息的耗时减少了约40%。

这一机制改变了视频作为单一信息流的状态，将其拆解为可检索的结构化数据。对于教程、测评、访谈等信息密度高的长视频，该功能大幅降低了用户的获取门槛。

短视频的搜索逻辑与长视频不同。Shorts日均观看量超过700亿次，内容消费呈现碎片化和快速滑动的特征，用户很少会在短视频中输入文字进行搜索。

YouTube将Gemini Omni模型引入Shorts，主要为了解决视觉交互问题。当用户在观看短视频时，可以直接向AI询问画面中的背景信息。例如，询问视频中出现某件衣服的购买链接，或者画面中某处景点的名称。

Gemini Omni支持同时处理文本、图像、音频和视频输入。这意味着AI能够直接“看懂”短视频画面中的视觉元素，不再依赖创作者填写的标题或字幕。对于大量没有旁白或文字说明的短视频，该模型提供了新的信息提取途径。

YouTube的更新是Google整体搜索业务调整的一部分。过去一年，Google在主搜索页面上线了AI Overviews功能，直接在搜索结果顶部生成AI回答。将类似机制引入视频平台，意味着Google正在统一其全平台的搜索交互逻辑。

不过，AI直接提供视频内容摘要，引发了创作者对流量流失的担忧。如果用户通过AI摘要直接获取了答案，可能不会再点击观看原视频，这将直接影响创作者的播放量和广告分成。

YouTube对此的应对策略是强制绑定来源。AI生成的每一次回答都必须附带视频时间戳跳转链接，且在摘要中明确提示该信息来源于哪位创作者的视频。据YouTube官方透露，目前内部评估的重点在于如何平衡AI摘要的便捷性与创作者的点击率收益，确保搜索结果仍能为视频带来实质性的观看时长。

目前，“Ask YouTube”仅面向部分英语用户开放测试，Gemini Omni在Shorts中的功能也在逐步灰度上线。