Agent SkillLINUX DO · AI·27 天前

豆包Kimi与自建EXA+GLM AI搜索能力自测对比

原标题：AI 搜索能力自测报告：豆包、Kimi、EXA+GLM对比

速览

本文通过多维度测试对比了豆包、Kimi网页端与自建EXA+GLM链路的AI搜索能力。测试涵盖来源专业性、准确性、时效性及可验证性，旨在评估不同方案在真实场景下的表现。结论指出通用网页端AI适合快速了解，而自建检索增强链路更适合专业可控场景。

AI 深度解读

AI 搜索能力自测报告深度解读：从“像那么回事”到“可验证的真实”

背景

随着生成式 AI 的普及，网络上“迷信 AI 搜索结果”的现象日益增多。许多用户，包括作者身边的亲戚朋友（如使用蚂蚁阿福、豆包等），开始依赖 AI 获取信息。然而，AI 幻觉（Hallucination）和信源不可靠的问题依然存在，导致用户可能获得错误或过时的信息。

为了探究不同 AI 搜索方案在真实场景下的表现，作者进行了一次对比测试。测试旨在观察 AI 作为“搜索工具”时，能否在自然、模糊甚至口语化的提问下，稳定给出高质量、有来源、可追溯的答案。测试对象涵盖了主流消费级产品（豆包网页端、Kimi 网页端）以及作者自建的专业级方案（EXA + GLM-5.1）。值得注意的是，本次测试刻意避开了 DeepSeek 和千问，且未对问题进行过度工程化的优化，以模拟真实用户首次使用模型时的自然状态。

核心内容

本次测试围绕 AI 搜索的核心痛点展开，通过严谨的维度设计和多样化的问题类型，对三款搜索方案进行了全方位评估。

1. 测试维度：五大核心指标

测试并未局限于回答的流畅度，而是聚焦于信息的可信度，具体分为五个维度：

来源专业性：是否优先引用官网、论文、技术文档、权威媒体或标准组织等高质量来源。
来源准确性：引用内容是否真实存在，是否存在“看起来像引用但点开不相关”的虚假引用现象。
信息时效性：面对最新版本、最新政策或最新事件时，能否检索到较新的资料。
结论一致性：回答结论是否与引用来源一致，避免“来源说 A、模型总结成 B”的逻辑偏差。
可验证性：是否提供链接、出处、发布日期及原文信息，以便人工复核。

2. 测试问题设计：覆盖多场景

为了避免单一问题造成的偏差，测试设计了四类具有代表性的问题：

技术类：如对比 OSPF 和 IS-IS 在大型运营商网络中的适用场景，要求给出权威来源。
时效类：如查询 Grok 当前最新版本及能力变化，或查询济南天桥维修状态、大观园到济南市动物园的公交路线。
争议类：如分析 AI 搜索与传统搜索引擎在信息可信度上的差异，或探讨 Vless 代理协议近期的纠纷及安全风险。
事实核查类：如验证 DeepSeek-V4.1 是否为多模态模型，或核查 BGP 是否存在名为 RFC 4271bis 的正式标准版本。

这些问题旨在同时测试搜索深度、来源质量、总结能力及事实核查能力。

3. 测试结果与对比分析

虽然具体的分值分布需参考各子报告页面，但测试揭示了不同架构下的显著差异：

通用网页端 AI 搜索（豆包、Kimi）：
- 优势：使用门槛低，交互体验好，适合快速了解问题的大致情况。
- 劣势：搜索策略通常不可控。用户难以知晓其具体检索了哪些内容、过滤了哪些来源，存在“黑盒”风险。
自建检索增强链路（EXA + GLM-5.1）：
- 优势：链路完全可控。使用者可以自行决定搜索关键词、召回数量、来源过滤规则及总结方式。这种定制化搜索更适合专业场景，支持可复现的测试流程。
- 劣势：对使用者要求极高，需要设计检索策略、去重机制、来源排序和事实校验流程。

4. 作者的个人观察

作者在文末补充了个人体验，指出在正常情况下的 GPT 表现较为稳定，而 Grok 在搜索能力上仍具优势。同时，作者引用了“回形针”对 AI 幻觉的批评，强调当 AI 瞎扯时，往往会在某个专业点上暴露出逻辑断裂，这提醒用户不能盲目信任 AI 的“自然感”。

关键要点

测试核心目标：不比较闲聊能力，重点考察 AI 作为“搜索工具”在自然提问下的理解能力、信源选择能力及答案的可验证性。
五大评估维度：来源专业性、来源准确性、信息时效性、结论一致性、可验证性。
测试环境模拟：使用厂商默认设置，模拟真实用户首次安装使用时的状态，提问方式模糊、口语化，不进行过度优化。
产品形态二分法：
- 通用网页端 AI：适合快速获取信息、初步理解问题，但缺乏透明度。
- 自建检索增强链路：适合专业场景、需可控流程和可复现测试，但技术门槛高。
判断标准：不应只看回答是否完整或“像那么回事”，而应重点检查来源是否权威、引用是否真实、结论是否忠于原文。
工具推荐倾向：作者认为在常规搜索场景下，Grok 和 GPT 仍具有较好的表现，但需警惕 AI 幻觉。

意义与影响

本次自测报告对当前 AI 搜索生态具有重要的警示和指导意义：

打破“AI 幻觉”迷信：报告明确指出，AI 生成的答案即使看起来逻辑严密、语气自然，也可能存在信源虚假或结论偏差的问题。用户必须从“被动接受”转向“主动验证”，将 AI 视为辅助工具而非绝对真理来源。
明确不同场景的工具选择：报告清晰地划分了通用型 AI 搜索和专业型自建搜索的适用边界。对于日常快速查询，豆包、Kimi 等便捷工具足以应对；但对于需要严谨依据的专业研究、技术决策或事实核查，自建可控的检索增强链路（RAG）是更可靠的选择。
推动 AI 搜索透明度：通过强调“可验证性”和“来源准确性”，报告呼吁 AI 产品应提供更透明的搜索过程，让用户知道信息从何而来。这有助于推动行业建立更严格的信源审核机制，减少虚假引用。
提升用户数字素养：报告提醒用户，在使用 AI 时，尤其是面对争议性话题或最新技术动态时，应具备基本的事实核查意识，利用提供的链接进行人工复核，避免被误导。

总之，AI 搜索能力的提升不仅依赖于模型本身的智能，更取决于检索链路的可控性和信源的质量。用户应根据自身需求，合理选择工具，并保持批判性思维。

查看原文 →linux.do