MCP 插件LINUX DO · MCP·2026/5/1

多模态模型MCP插件能否支持图像与视频搜索

原标题：有没有适用于多模态模型的搜索功能 MCP ？

速览

有开发者在使用Cherry-Studio时，发现内置的Searxng和Tavily搜索插件不支持返回图片。由于部署的是多模态模型，用户希望MCP插件能直接获取网络图片供模型分析，甚至支持视频输入。该讨论旨在探索多模态模型在MCP生态中的搜索扩展能力。

AI 深度解读

背景

随着多模态大语言模型（Multimodal LLMs）的普及，用户对于 AI 工具的需求已从单纯的文本交互扩展到视觉信息的深度理解。在 Linux DO 社区的 MCP（Model Context Protocol）板块中，一位用户提出了一个极具代表性的痛点：在使用 Cherry-Studio 这一本地化 AI 客户端时，现有的内置搜索插件（如 SearXNG 和 Tavily）仅支持返回文本结果，无法直接提供图片数据。

这一需求反映了当前 AI 工作流中的一个断层：虽然底层模型已经具备强大的视觉分析能力，但上游的数据获取层（即搜索功能）尚未完全适配多模态场景。用户希望模型能够直接从网络抓取图片甚至视频素材进行即时分析，从而构建更完整的“感知-认知”闭环。

核心内容

该帖子主要探讨了在 MCP 架构下，如何为多模态模型实现图像及视频数据的搜索与输入功能。

现有工具的局限性：用户指出，Cherry-Studio 目前集成的主流搜索插件，包括开源的 SearXNG 和商业化的 Tavily，其输出格式主要局限于文本。这意味着当用户向多模态模型提问时，模型无法直接“看到”搜索结果中的图片，只能依赖文本描述，这极大地限制了模型在视觉任务上的表现。
核心需求：多模态搜索支持：用户询问是否存在支持返回 Image（图片）数据的 MCP 插件。其核心诉求是让部署的多模态模型能够直接从互联网获取图片信息并进行分析。此外，用户还进一步提出了高阶需求，即希望支持视频输入，以实现更复杂的动态视觉理解。
社区互动与延伸：该话题引发了社区讨论，共有 6 个帖子和 2 位参与者参与。除了技术实现层面的探讨，用户还表达了对多模态模型项目的兴趣，寻求其他有趣的多模态应用案例，显示出社区对多模态技术落地的高度关注。

关键要点

工具现状：Cherry-Studio 内置的 SearXNG 和 Tavily 搜索插件目前不支持返回图片数据，仅支持文本。
技术痛点：多模态模型缺乏直接从网络获取视觉素材（图片/视频）的能力，导致“感知”环节缺失。
功能诉求：
- 急需支持返回 Image 的 MCP 插件。
- 理想状态下应支持视频输入，以增强动态场景的分析能力。
社区反馈：该需求在 Linux DO 社区引起关注，反映出多模态 AI 工具链中数据接入层的技术缺口。
潜在方向：暗示了开发或适配支持多媒体输出的 MCP 服务器（MCP Server）的必要性，以填补文本搜索与视觉模型之间的鸿沟。

意义与影响

这一讨论揭示了 AI 应用开发中的一个关键趋势：模型能力的提升必须伴随工具链的全面适配。

MCP 生态的演进方向： Model Context Protocol 的核心价值在于标准化 AI 与外部数据的连接。该需求表明，MCP 生态需要从单一的文本数据交换，向多模态数据（图像、视频、音频）交换扩展。未来的 MCP 服务器可能需要支持 Base64 编码的图片流、URL 直链或更复杂的多媒体元数据格式。
多模态工作流的完整性：对于部署本地多模态模型（如 Llama 3.2 Vision、Qwen-VL 等）的用户而言，能够直接“看图说话”是提升实用性的关键。如果搜索插件能返回图片，用户即可构建“搜索-获取图片-模型分析”的自动化工作流，这在电商比价、视觉识别、新闻溯源等场景中具有巨大价值。
开发者启示：对于 MCP 插件开发者而言，这是一个明确的市场机会。开发支持 image_url 或类似字段返回的搜索 MCP 服务器，将极大丰富 Cherry-Studio 等客户端的功能，满足进阶用户对多模态交互的需求。同时，这也推动了上游搜索引擎 API 向多模态接口优化的进程。

查看原文 →linux.do

多模态模型MCP插件能否支持图像与视频搜索

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐