豆包Kimi与自建EXA+GLM AI搜索能力自测对比
速览
本文通过多维度测试对比了豆包、Kimi网页端与自建EXA+GLM链路的AI搜索能力。测试涵盖来源专业性、准确性、时效性及可验证性,旨在评估不同方案在真实场景下的表现。结论指出通用网页端AI适合快速了解,而自建检索增强链路更适合专业可控场景。
AI 深度解读
AI 搜索能力自测报告深度解读:从“像那么回事”到“可验证的真实”
背景
随着生成式 AI 的普及,网络上“迷信 AI 搜索结果”的现象日益增多。许多用户,包括作者身边的亲戚朋友(如使用蚂蚁阿福、豆包等),开始依赖 AI 获取信息。然而,AI 幻觉(Hallucination)和信源不可靠的问题依然存在,导致用户可能获得错误或过时的信息。
为了探究不同 AI 搜索方案在真实场景下的表现,作者进行了一次对比测试。测试旨在观察 AI 作为“搜索工具”时,能否在自然、模糊甚至口语化的提问下,稳定给出高质量、有来源、可追溯的答案。测试对象涵盖了主流消费级产品(豆包网页端、Kimi 网页端)以及作者自建的专业级方案(EXA + GLM-5.1)。值得注意的是,本次测试刻意避开了 DeepSeek 和千问,且未对问题进行过度工程化的优化,以模拟真实用户首次使用模型时的自然状态。
核心内容
本次测试围绕 AI 搜索的核心痛点展开,通过严谨的维度设计和多样化的问题类型,对三款搜索方案进行了全方位评估。
1. 测试维度:五大核心指标
测试并未局限于回答的流畅度,而是聚焦于信息的可信度,具体分为五个维度:
- 来源专业性:是否优先引用官网、论文、技术文档、权威媒体或标准组织等高质量来源。
- 来源准确性:引用内容是否真实存在,是否存在“看起来像引用但点开不相关”的虚假引用现象。
- 信息时效性:面对最新版本、最新政策或最新事件时,能否检索到较新的资料。
- 结论一致性:回答结论是否与引用来源一致,避免“来源说 A、模型总结成 B”的逻辑偏差。
- 可验证性:是否提供链接、出处、发布日期及原文信息,以便人工复核。
2. 测试问题设计:覆盖多场景
为了避免单一问题造成的偏差,测试设计了四类具有代表性的问题:
- 技术类:如对比 OSPF 和 IS-IS 在大型运营商网络中的适用场景,要求给出权威来源。
- 时效类:如查询 Grok 当前最新版本及能力变化,或查询济南天桥维修状态、大观园到济南市动物园的公交路线。
- 争议类:如分析 AI 搜索与传统搜索引擎在信息可信度上的差异,或探讨 Vless 代理协议近期的纠纷及安全风险。
- 事实核查类:如验证 DeepSeek-V4.1 是否为多模态模型,或核查 BGP 是否存在名为 RFC 4271bis 的正式标准版本。
这些问题旨在同时测试搜索深度、来源质量、总结能力及事实核查能力。
3. 测试结果与对比分析
虽然具体的分值分布需参考各子报告页面,但测试揭示了不同架构下的显著差异:
-
通用网页端 AI 搜索(豆包、Kimi):
- 优势:使用门槛低,交互体验好,适合快速了解问题的大致情况。
- 劣势:搜索策略通常不可控。用户难以知晓其具体检索了哪些内容、过滤了哪些来源,存在“黑盒”风险。
-
自建检索增强链路(EXA + GLM-5.1):
- 优势:链路完全可控。使用者可以自行决定搜索关键词、召回数量、来源过滤规则及总结方式。这种定制化搜索更适合专业场景,支持可复现的测试流程。
- 劣势:对使用者要求极高,需要设计检索策略、去重机制、来源排序和事实校验流程。
4. 作者的个人观察
作者在文末补充了个人体验,指出在正常情况下的 GPT 表现较为稳定,而 Grok 在搜索能力上仍具优势。同时,作者引用了“回形针”对 AI 幻觉的批评,强调当 AI 瞎扯时,往往会在某个专业点上暴露出逻辑断裂,这提醒用户不能盲目信任 AI 的“自然感”。
关键要点
- 测试核心目标:不比较闲聊能力,重点考察 AI 作为“搜索工具”在自然提问下的理解能力、信源选择能力及答案的可验证性。
- 五大评估维度:来源专业性、来源准确性、信息时效性、结论一致性、可验证性。
- 测试环境模拟:使用厂商默认设置,模拟真实用户首次安装使用时的状态,提问方式模糊、口语化,不进行过度优化。
- 产品形态二分法:
- 通用网页端 AI:适合快速获取信息、初步理解问题,但缺乏透明度。
- 自建检索增强链路:适合专业场景、需可控流程和可复现测试,但技术门槛高。
- 判断标准:不应只看回答是否完整或“像那么回事”,而应重点检查来源是否权威、引用是否真实、结论是否忠于原文。
- 工具推荐倾向:作者认为在常规搜索场景下,Grok 和 GPT 仍具有较好的表现,但需警惕 AI 幻觉。
意义与影响
本次自测报告对当前 AI 搜索生态具有重要的警示和指导意义:
- 打破“AI 幻觉”迷信:报告明确指出,AI 生成的答案即使看起来逻辑严密、语气自然,也可能存在信源虚假或结论偏差的问题。用户必须从“被动接受”转向“主动验证”,将 AI 视为辅助工具而非绝对真理来源。
- 明确不同场景的工具选择:报告清晰地划分了通用型 AI 搜索和专业型自建搜索的适用边界。对于日常快速查询,豆包、Kimi 等便捷工具足以应对;但对于需要严谨依据的专业研究、技术决策或事实核查,自建可控的检索增强链路(RAG)是更可靠的选择。
- 推动 AI 搜索透明度:通过强调“可验证性”和“来源准确性”,报告呼吁 AI 产品应提供更透明的搜索过程,让用户知道信息从何而来。这有助于推动行业建立更严格的信源审核机制,减少虚假引用。
- 提升用户数字素养:报告提醒用户,在使用 AI 时,尤其是面对争议性话题或最新技术动态时,应具备基本的事实核查意识,利用提供的链接进行人工复核,避免被误导。
总之,AI 搜索能力的提升不仅依赖于模型本身的智能,更取决于检索链路的可控性和信源的质量。用户应根据自身需求,合理选择工具,并保持批判性思维。
