← 返回信息流
创投信息钛媒体·1 天前

豆包千问618购物实测:AI推荐仍受困于商业逻辑与数据断层

原标题:豆包、千问618 购物实测:这届AI还没学会卖货

速览

本文通过四组测试对比豆包与千问的AI购物功能,发现两者在复杂决策中均存在商品匹配错误、预算约束失效及跨平台比价数据造假等严重缺陷。测试揭示AI推荐底层仍受平台广告与竞价排名逻辑主导,AI仅影响购物链路第一步,未能打通商品召回层。这反映出当前大模型在实时库存同步与标准化数据工程上的短板,以及“花园围墙”生态下AI购物效率尚未超越传统搜索的现实。

AI 深度解读

背景

在电商行业过去二十年的发展中,竞争的核心在于“在哪里买”,即渠道与流量的争夺。然而,随着人工智能技术的演进,下一阶段的竞争焦点正在转向“谁替你决定买什么”。这种转变表面上看是为用户提供了更便捷的福利,但实际上引发了关于“将购物决策权交给由平台训练、服务于平台利益的AI”的深层担忧:这究竟是体验的升级,还是一种更隐蔽的流量收割手段?

在2024年618购物节前夕,字节跳动的豆包和阿里巴巴的千问(Qwen)密集上线了购物功能,为这一行业命题提供了真实的测试场。钛媒体记者强调Next通过同一组测试问题,对这两款AI产品进行了实测,旨在观察AI是否真的能改变用户的购物习惯,以及其背后的推荐逻辑与商业意图。

核心内容

本次测试选取了四组具有代表性的问题,分别对应基础推荐、反向纠偏、高客单价复杂决策以及跨平台比价四个维度,深入剖析了豆包千问在AI购物场景下的表现差异。

1. 基础推荐:预算3000元以内购买笔记本电脑

  • 豆包:表现像一位做过功课的朋友,先进行需求过滤,再推送具体商品卡,附带价格、配置及适用场景。其底部设有“选购提醒”,主动警告低价i7独显机可能是老款改装陷阱,并追问用途以引导对话。其闭环流程顺畅,但流量分发逻辑中,直播间的权重高于普通商品列表,首位推荐多为直播间。
  • 千问:按使用场景分类推荐,但信息结构化呈现不如豆包。它未直接提供购买链接,而是引导用户进入商品结果页自行筛选,需求匹配度一般,类似淘宝关键词搜索结果。此外,千问推荐了一款标价6237元的二手MacBook,明显超出3000元预算,显示出预算匹配失控。
  • 小结:豆包倾向于替用户做完决策,但落脚点突出直播间;千问更像开放商城入口让用户自决,智能程度相对较弱,但体现了阿里电商生态的丰富性,尽管存在预算匹配失误。

2. 反向纠偏:戴森吸尘器比米家贵,但效果一样,对不对?

  • 豆包:直接否定错误前提,分场景阐述差异,并附带实时商品卡,主动推销意向明显。
  • 千问:使用三列对比表格拆解维度,给出分场景结论,纯信息输出,无商品挂载。
  • 小结:两者均合格。豆包推销意识强,善于捕捉卖货机会;千问回答像纯工具,但显得过于谨慎,缺乏果断性和专业感。

3. 高客单价复杂决策:预算8000元购买相机,主要用于拍娃

  • 豆包:提炼核心需求(对焦快、追焦稳、直出好看),提供三套预算方案,商品卡来自官方旗舰店,数据可查,表现稳定。
  • 千问:文字推荐框架完整,品牌判断专业(如索尼A6400、富士X-T30II),但商品卡匹配严重错位。例如,“全新微单方案”挂的是53元的库洛米儿童玩具相机,“二手全画幅方案”挂的是7.78元的玩具相机。
  • 小结:豆包在高客单价场景下逻辑清晰;千问在语言理解层正确,但在商品匹配层断裂,语言层与商品层未打通。

4. 跨平台比价:同款AirPods 4在京东、淘宝、拼多多哪里最划算

  • 千问:坦诚作为淘宝AI助手,无法查询京东和拼多多实时价格,仅给出淘宝内部省钱攻略,数据真实但覆盖范围有限。推荐克制,需用户确认后才推商品。
  • 豆包:给出看似完整的三平台比价表,结论清晰。但数据并非实时拉取,而是模型基于搜索资料生成,存在“幻觉”。例如,引用的“淘宝普通版636元”是叠加多重优惠后的理论最低价,普通用户难以获取。此外,豆包底部挂载的商品卡是自家抖音商城的产品,与比价需求无关,体现了强烈的推销逻辑。
  • 小结:这组测试揭示了底层策略差异。千问诚实但受限,豆包看似专业实则存在数据幻觉和强推销意图。在购物决策中,编造的答案比没有答案更危险。

AI购物的三大核心短板

  1. 推荐底层未必是用户利益:平台型AI购物面临商业逻辑矛盾。千问的推荐高度集中在付费权重高的商家,高性价比平价款被压制;豆包的推荐池指向抖音商城,且直播间权重高。AI推荐掩盖了广告与自然结果的界限,用户难以分辨算法推荐与商业推广。
  2. AI做了决策,但未管控全程:AI的决策层与平台的商品召回层未打通。一旦用户离开推荐卡片进入“查看更多”,预算约束消失,排序逻辑回归传统的销量、广告权重和平台利益。此外,商品数据的标准化和实时同步是巨大工程难题,大模型的知识更新速度跟不上电商实时变化的库存和价格。
  3. 对话购物效率未超越搜索:AI购物的优势仅在“需求明确+标品+决策简单”场景成立。对于模糊需求或多维比较,用户仍需打开其他App交叉验证,AI反而增加了确认步骤,并未提升整体效率。

关键要点

  • 生态局限性无解:移动互联网时代的“花园围墙”在AI时代依然存在。千问受制于阿里生态,无法跨平台比价;豆包则强力引导至抖音电商闭环。
  • 商业利益优先:AI推荐的排序逻辑深受平台商业模式影响。千问受淘宝广告竞价排名影响,豆包受抖音直播间流量分发逻辑影响,用户利益往往让位于平台商业目标。
  • 技术断层明显:当前AI在“语言理解”与“商品匹配”之间存在断层。千问出现将高价相机推荐为廉价玩具的错误,显示后端数据同步与匹配机制存在严重Bug。
  • 数据真实性存疑豆包的跨平台比价数据多为模型生成而非实时抓取,存在“幻觉”风险,可能误导用户决策。
  • 高客单价信任缺失:在618主战场(家电、手机、服装等高决策成本品类),AI推荐的可靠性和用户信任度尚不足以替代传统搜索比价。
  • 入口之争非主战场:2024年618的AI购物更多是一次“公开压测”和象征性节点,旨在验证技术路线和跑通支付闭环,而非真正改变购物格局。

意义与影响

本次实测表明,尽管豆包千问等AI助手在购物场景中展现出一定的辅助能力,但距离真正的“AI购物时代”仍有显著差距。

首先,信任契约的重建是核心挑战。AI购物需要解决推荐数据的实时性、准确性、跨平台比价的可信度,以及个性化推荐与商业利益之间的透明边界问题。这些问题的解决不能仅靠功能迭代,更需要行业重建用户与平台之间的信任。

其次,用户习惯迁移需要时间。从搜索式购物切换到对话式购物是认知方式的迁移,而非简单的App更新。在可预见的未来,大多数用户仍会依赖熟悉的购物App进行比价和下单,AI购物的尝鲜者仍属少数。

最后,AI在低决策成本品类中更具潜力。目前,外卖、标品等低决策成本品类在AI购物中表现相对顺滑。而对于高决策成本、强比价需求、重信任背书的品类,AI尚无法完全“代劳”。

综上所述,2024年618的AI购物实测揭示了一个现实:虽然AI正在介入电商决策环节,但其背后的商业逻辑、技术局限和生态壁垒,使得它暂时无法颠覆现有的电商格局。真正的AI购物时代,仍需等待技术突破、数据打通以及行业信任机制的完善。

查看原文 →tmtpost.com