豆包千问618购物实测:AI推荐仍受困于商业逻辑与数据断层
速览
本文通过四组测试对比豆包与千问的AI购物功能,发现两者在复杂决策中均存在商品匹配错误、预算约束失效及跨平台比价数据造假等严重缺陷。测试揭示AI推荐底层仍受平台广告与竞价排名逻辑主导,AI仅影响购物链路第一步,未能打通商品召回层。这反映出当前大模型在实时库存同步与标准化数据工程上的短板,以及“花园围墙”生态下AI购物效率尚未超越传统搜索的现实。
AI 深度解读
背景
在电商行业过去二十年的发展中,竞争的核心在于“在哪里买”,即渠道与流量的争夺。然而,随着人工智能技术的演进,下一阶段的竞争焦点正在转向“谁替你决定买什么”。这种转变表面上看是为用户提供了更便捷的福利,但实际上引发了关于“将购物决策权交给由平台训练、服务于平台利益的AI”的深层担忧:这究竟是体验的升级,还是一种更隐蔽的流量收割手段?
在2024年618购物节前夕,字节跳动的豆包和阿里巴巴的千问(Qwen)密集上线了购物功能,为这一行业命题提供了真实的测试场。钛媒体记者强调Next通过同一组测试问题,对这两款AI产品进行了实测,旨在观察AI是否真的能改变用户的购物习惯,以及其背后的推荐逻辑与商业意图。
核心内容
本次测试选取了四组具有代表性的问题,分别对应基础推荐、反向纠偏、高客单价复杂决策以及跨平台比价四个维度,深入剖析了豆包与千问在AI购物场景下的表现差异。
1. 基础推荐:预算3000元以内购买笔记本电脑
- 豆包:表现像一位做过功课的朋友,先进行需求过滤,再推送具体商品卡,附带价格、配置及适用场景。其底部设有“选购提醒”,主动警告低价i7独显机可能是老款改装陷阱,并追问用途以引导对话。其闭环流程顺畅,但流量分发逻辑中,直播间的权重高于普通商品列表,首位推荐多为直播间。
- 千问:按使用场景分类推荐,但信息结构化呈现不如豆包。它未直接提供购买链接,而是引导用户进入商品结果页自行筛选,需求匹配度一般,类似淘宝关键词搜索结果。此外,千问推荐了一款标价6237元的二手MacBook,明显超出3000元预算,显示出预算匹配失控。
- 小结:豆包倾向于替用户做完决策,但落脚点突出直播间;千问更像开放商城入口让用户自决,智能程度相对较弱,但体现了阿里电商生态的丰富性,尽管存在预算匹配失误。
2. 反向纠偏:戴森吸尘器比米家贵,但效果一样,对不对?
- 豆包:直接否定错误前提,分场景阐述差异,并附带实时商品卡,主动推销意向明显。
- 千问:使用三列对比表格拆解维度,给出分场景结论,纯信息输出,无商品挂载。
- 小结:两者均合格。豆包推销意识强,善于捕捉卖货机会;千问回答像纯工具,但显得过于谨慎,缺乏果断性和专业感。
3. 高客单价复杂决策:预算8000元购买相机,主要用于拍娃
- 豆包:提炼核心需求(对焦快、追焦稳、直出好看),提供三套预算方案,商品卡来自官方旗舰店,数据可查,表现稳定。
- 千问:文字推荐框架完整,品牌判断专业(如索尼A6400、富士X-T30II),但商品卡匹配严重错位。例如,“全新微单方案”挂的是53元的库洛米儿童玩具相机,“二手全画幅方案”挂的是7.78元的玩具相机。
- 小结:豆包在高客单价场景下逻辑清晰;千问在语言理解层正确,但在商品匹配层断裂,语言层与商品层未打通。
4. 跨平台比价:同款AirPods 4在京东、淘宝、拼多多哪里最划算
- 千问:坦诚作为淘宝AI助手,无法查询京东和拼多多实时价格,仅给出淘宝内部省钱攻略,数据真实但覆盖范围有限。推荐克制,需用户确认后才推商品。
- 豆包:给出看似完整的三平台比价表,结论清晰。但数据并非实时拉取,而是模型基于搜索资料生成,存在“幻觉”。例如,引用的“淘宝普通版636元”是叠加多重优惠后的理论最低价,普通用户难以获取。此外,豆包底部挂载的商品卡是自家抖音商城的产品,与比价需求无关,体现了强烈的推销逻辑。
- 小结:这组测试揭示了底层策略差异。千问诚实但受限,豆包看似专业实则存在数据幻觉和强推销意图。在购物决策中,编造的答案比没有答案更危险。
AI购物的三大核心短板
- 推荐底层未必是用户利益:平台型AI购物面临商业逻辑矛盾。千问的推荐高度集中在付费权重高的商家,高性价比平价款被压制;豆包的推荐池指向抖音商城,且直播间权重高。AI推荐掩盖了广告与自然结果的界限,用户难以分辨算法推荐与商业推广。
- AI做了决策,但未管控全程:AI的决策层与平台的商品召回层未打通。一旦用户离开推荐卡片进入“查看更多”,预算约束消失,排序逻辑回归传统的销量、广告权重和平台利益。此外,商品数据的标准化和实时同步是巨大工程难题,大模型的知识更新速度跟不上电商实时变化的库存和价格。
- 对话购物效率未超越搜索:AI购物的优势仅在“需求明确+标品+决策简单”场景成立。对于模糊需求或多维比较,用户仍需打开其他App交叉验证,AI反而增加了确认步骤,并未提升整体效率。
关键要点
- 生态局限性无解:移动互联网时代的“花园围墙”在AI时代依然存在。千问受制于阿里生态,无法跨平台比价;豆包则强力引导至抖音电商闭环。
- 商业利益优先:AI推荐的排序逻辑深受平台商业模式影响。千问受淘宝广告竞价排名影响,豆包受抖音直播间流量分发逻辑影响,用户利益往往让位于平台商业目标。
- 技术断层明显:当前AI在“语言理解”与“商品匹配”之间存在断层。千问出现将高价相机推荐为廉价玩具的错误,显示后端数据同步与匹配机制存在严重Bug。
- 数据真实性存疑:豆包的跨平台比价数据多为模型生成而非实时抓取,存在“幻觉”风险,可能误导用户决策。
- 高客单价信任缺失:在618主战场(家电、手机、服装等高决策成本品类),AI推荐的可靠性和用户信任度尚不足以替代传统搜索比价。
- 入口之争非主战场:2024年618的AI购物更多是一次“公开压测”和象征性节点,旨在验证技术路线和跑通支付闭环,而非真正改变购物格局。
意义与影响
本次实测表明,尽管豆包和千问等AI助手在购物场景中展现出一定的辅助能力,但距离真正的“AI购物时代”仍有显著差距。
首先,信任契约的重建是核心挑战。AI购物需要解决推荐数据的实时性、准确性、跨平台比价的可信度,以及个性化推荐与商业利益之间的透明边界问题。这些问题的解决不能仅靠功能迭代,更需要行业重建用户与平台之间的信任。
其次,用户习惯迁移需要时间。从搜索式购物切换到对话式购物是认知方式的迁移,而非简单的App更新。在可预见的未来,大多数用户仍会依赖熟悉的购物App进行比价和下单,AI购物的尝鲜者仍属少数。
最后,AI在低决策成本品类中更具潜力。目前,外卖、标品等低决策成本品类在AI购物中表现相对顺滑。而对于高决策成本、强比价需求、重信任背书的品类,AI尚无法完全“代劳”。
综上所述,2024年618的AI购物实测揭示了一个现实:虽然AI正在介入电商决策环节,但其背后的商业逻辑、技术局限和生态壁垒,使得它暂时无法颠覆现有的电商格局。真正的AI购物时代,仍需等待技术突破、数据打通以及行业信任机制的完善。
