← 返回信息流
AI 资讯Hacker News·2 小时前

AI可见性工具都说谎

原标题:Every AI Visibility Tool Is Lying to You

速览

AI可见性工具是许多公司用来跟踪AI应用性能的解决方案,但根据分析,它们普遍报告虚假或夸大的指标。文章探讨了这些工具在实际使用中的局限性,以及对用户决策的潜在误导。了解真相有助于开发者和企业避免盲目投资AI项目,避免资源浪费。

AI 深度解读

Every AI Visibility Tool Is Lying to You

背景

随着AI搜索和推荐工具在企业品牌可见性评估中的普及,市场出现了一个新兴品类:AI可见性工具。它们承诺能够为品牌提供在ChatGPT、Claude、Gemini、Perplexity以及Google AI回答中的可见度数据,并转化为易于理解的指标,如提及率、引用率、声量份额或排名。这些工具正迅速成为品牌营销和竞争情报的重要组成部分,但底层测量机制的可靠性和透明度引发了强烈质疑。

核心内容

这篇文章是一位资深软件工程师的分析。他指出,AI可见性工具承诺向品牌展示其在ChatGPT、Claude、Gemini、Perplexity和Google AI回答中的可见度,却将复杂系统简化为提及率、引用率、声量份额或排名等整洁数据指标。作者认为,当工具宣称品牌在某一类别中排名第四,本周上升两位,或可见度为17%而竞争对手为31%时,这种信号并非毫无价值,但其精确度并非真实存在。这些系统本身具有噪声、个性化、地理因素、非确定性和持续变化的特点,因此一个干净的排行榜数字掩盖了工程师真正需要检查的细节:分布情况、测量方法、方差以及原始证据。

大多数厂商试图衡量重要事物,但机制通常比仪表盘声称的更弱。如果工具宣称显示“客户在ChatGPT或Claude中看到的内容”,很可能通过抓取消费者App或调用API实现。抓取只捕获一个合成会话,API调用使用的是与客户实际使用的表面不同的接口。两者都能产生有用的方向性信号,尤其是在商业提示或地理差距中揭示不可见性时,但都不应该被售为精确、稳定的真相,而无需展示工作细节。

前端抓取问题

前端抓取ChatGPT或Claude界面最初听起来有说服力。厂商可诚实地说,它打开了App,提出了问题,并记录了产品返回的内容。这更接近真实用户看到的表面,但仍然只衡量一个受控界面。

抓取来自一个账号,或受控账号池。这意味着一个历史状态、一个记忆状态、一个订阅层级、一个地理位置、一个浏览器会话和一个提示。改变任何这些,答案都会改变。真实买家询问“种子阶段初创企业的最佳CRM”与干净浏览器从数据中心IP询问“最佳CRM软件”是不同的测量工具。

大规模抓取会增加更多偏差。在任何有意义的量级上,必须运行在云机器、代理路由、托管浏览器、无头会话或其他自动化层。自动化层可能渗入测量。集中的IP模式、重复登录、奇特的会话节奏、限流压力、以及AI产品自身的反滥用处理。

操作员必须做出选择。干净账号可重复且不像客户。陈旧账号有历史记录且控制较弱。询问数千个类别提示的基准账号也会创建自己的个性化轨迹。过一段时间,账号的整个生命都是基准流量。

这对本地和商业提示尤为重要。“附近最佳商业屋顶公司”因地点而变。“在NYC的AEO代理的最佳”也因地点而变。答案取决于用户位置、检索系统、账号以及当时拉取的来源。

单一前端答案是一个实验室样本。

同一个提示在不同运行中会改变

AI可见度排名的最简单辩护是:我们每周问同一个问题,统计是否出现。但这仅在同一个问题有稳定答案时有效。相同单词经常产生不同答案。

即使在生产环境中温度为零的LLM调用也不是完全稳定的。Thinking Machines Lab解释了一个技术原因:批处理和内核行为在真实生产负载下可能变化。他们的示例显示,相同温度为零的请求产生了多个独特完成。

SparkToro和Gumshoe观察到了相同问题的营销版本。他们让志愿者通过ChatGPT、Claude和Google AI产品重复运行商业提示。他们的研究发现,品牌推荐在重复运行中变化很大。

这是核心测量问题。如果同一系统的下一次抽样可以命名不同的品牌集,那么“你排名第四”就是一个来自分布的样本。

一个诚实的仪表盘应该显示分布。

消费者App和API的行为不同

一些工具跳过浏览器抓取,转而调用提供商API。操作优势明显:API调用更容易重复、审计、按规模运行且在网页App更改时不易中断。

权衡在于:API和消费者App的行为不同。

消费者产品可能具有记忆、账号个性化、模型路由、网页检索、位置推断、购物模块、本地模块、引用和产品特定展示。API则提供可编程模型调用,并启用用户选择的工具和参数。例如,OpenAI API文档要求用户启用网页搜索等工具来获取基础检索。Google Gemini API也有自己的基础和搜索配置。

差距双向:原始API调用可能低估App会知道的内容,因为它浏览方式不同。浏览器抓取可能高估真实用户会看到的内容,因为它捕获一个个性化会话并称为代表性。

API可以是受控测量的正确表面。应该以这种方式出售,避免称为“消费者App向买家展示的内容”。

提示集制造分数

AI可见度工具监控提示集。他们从市场采样,而不是覆盖真实买家问题的全部长尾。

提示集是决定性的。

如果跟踪“NYC最佳AEO代理”、“AI搜索优化顾问”和“答案引擎优化审计”,会得到关于Canonry的一个画面。如果跟踪“SEO代理”、“数字营销公司”和“AI营销软件”,会得到另一个画面。两个提示集都可能有效。它们回答不同问题。

头条数字取决于所选提示、权重、运行频率和竞争者集。Profound自己的提示设计指南表示,其用户通常跟踪100到1,000个提示,典型为几百个。仪表盘在采样市场。

评分公式同样重要。一个仪表盘可以按提及频率评分,另一个可以按引用位置加权,另一个可以按来源链接计数,另一个可以混合情感。Digital Applied的AI声量份额框架提供了清晰示例:同一品牌、同一数据,基于提及的声量份额为20%,基于位置加权的为16.8%,基于引用的为31.4%。

相同证据。三种头条数字。三种竞争地位。

从业者出于良好理由持怀疑态度。在同一Digital Applied文章中,SALT.agency的Dan Taylor批评供应商在人为环境中测量小型静态提示集。Digiday报道了买家侧的相同操作问题。/prompt的CEO Paul Dyer表示,如果给三个工具相同的提示,会得到三个不同答案。

没有提示列表、每次提示的运行次数、地理位置、模型、账号状态和评分公式,仪表盘展示的只是一个构建的指标。

构建指标可能有用。它们需要标签。

位置打破排行榜

地理是大多数仪表盘最常忽略的部分。

对于本地、区域和服务区业务,位置改变问题。布鲁克林、奥斯汀、伦敦或农村密歇根的用户可以对相同单词获得关于同一问题的不同推荐,因为答案引擎推断本地意图。

单一全球可见度排名通常毫无意义。“在ChatGPT中可见”在何处?从哪个用户位置?使用哪种本地检索上下文?使用哪个城市或服务区短语?

前端抓取使其尤其混乱。从云服务器运行的合成浏览器运行与市场上关心的买家看起来不同。你可以尝试代理。可以尝试账号池。可以尝试浏览器自动化。现在你的“真相”取决于前端是否接受了该

关键要点

  • AI可见度工具将复杂、噪声的系统简化为排名等简单数字,掩盖了分布、方法、方差和原始证据
  • 测量机制(抓取或API)通常弱于仪表盘宣称,抓取捕捉单一会话,API使用不同表面
  • 前端抓取受账号历史、订阅层级、地理和浏览器会话影响,导致答案不稳定
  • 同一提示在温度为零的LLM调用中可能产生不同结果,重复运行下品牌推荐变化大
  • API调用更可重复、更易审计,但可能低估App实际可见度,抓取可能高估
  • 提示集决定最终分数,不同提示集可能产生不同排名
  • 评分公式多样(如提及频率、引用位置、声量份额),同一数据可得不同结果
  • 构建指标可能有用,但需明确标签和方法论
  • 地理位置对本地提示影响显著,单一全球排名往往无意义

意义与影响

这些洞见暴露了AI可见度工具领域的核心信任危机:多数工具的“精确”指标往往是人为构建的,受测量噪音和选择性影响,而非客观事实。品牌和营销者不应将排行榜数字视为可靠真相,而应将其视为方向性指示,结合多工具验证、原始数据审计和地理上下文来制定策略。

长期来看,这将迫使行业转向更透明的测量实践,包括公开提示集、运行分布和方差报告,可能催生标准化协议或第三方审计。短期内,存在“工具疲劳”风险——营销预算被分散于不可靠的可见度指标,竞争情报质量下降。

对从业者而言,最安全的方式是拒绝单一数字,采用“可见度地图”而非排行榜,将AI作为营销渠道的补充而非核心决策工具。这场争论不仅反映了技术局限,更揭示了在AI时代数据诚信的结构性挑战。

查看原文 →canonry.ai