Agent SkillLINUX DO · AI·1 小时前

用户实测对比千问DeepSeekGPTGemini足球赛事查询能力

原标题：感觉gpt确实强，gemini真的拉完了

速览

本文记录了一次针对多款AI模型在足球赛事查询场景下的实测对比。用户发现千问（3.7思考模式）回答基本正确，GPT凭借实时数据更新能力表现最强。相比之下，DeepSeek、豆包及Gemini在信息准确性和实时性上均出现明显失误，其中Gemini的搜索功能被指表现拉胯。

在近期国际足球赛事（推测为世界杯预选赛或类似大型锦标赛）期间，关于韩国队出线形势的讨论在社交媒体上引发关注。部分舆论认为韩国队晋级希望渺茫，但作者通过浏览小红书发现，在12个小组第三名中，韩国队排名第七，理论上仍保留晋级机会。这种信息差导致作者对“为何大众普遍看衰韩国队”产生疑惑。

由于作者本人缺乏足球规则知识，决定借助人工智能工具来厘清复杂的出线形势。此次测试涵盖了国内主流大模型（通义千问、DeepSeek、豆包）以及国际头部模型（ChatGPT、Gemini），旨在对比不同AI在处理实时体育数据、逻辑推理及搜索能力上的表现差异。

作者通过实际测试，对多款AI模型在回答“韩国出线形势如何”这一问题上的表现进行了详细记录和对比：

通义千问（Qwen 3.7 开启思考模式）：
- 表现：回答基本正确。
- 评价：作为作者日常使用的模型，初期认为其存在错误，但在开启“思考模式”后，最终给出的答案被证实是准确的。
DeepSeek：
- 表现：回答出现基础性错误。
- 测试时间点：6月27日 12:30，当时仅剩4组比赛未打完。
- 评价：作者认为其连最基本的信息都回答错误，表现“更垃圾”，甚至不如千问。
豆包：
- 表现：文中未提供具体回答内容，但隐含其表现优于Gemini。
Gemini：
- 表现：搜索与信息获取能力严重不足。
- 具体问题：H组比赛实际上已经结束，但Gemini未能正确获取最新信息，显示其搜索功能存在滞后或失效。
- 评价：作者认为Gemini在搜索信息方面表现极差（“拉了”），甚至不如豆包，更不如千问。
ChatGPT：
- 表现：实时性最强。
- 测试细节：由于网络问题，回答生成时时间已至12:00，且页面发生过更新，作者推测可能升级至GPT-5.6（注：此处为作者主观推测，实际版本需以官方为准）。
- 优势：能够找到正在进行的比赛数据，展现出最强的实时数据获取和处理能力。

总结对比：

模型表现差异显著：不同AI模型在处理同一实时体育问题时，表现天差地别。国内模型（如千问）在开启高级推理模式后表现优异，而部分模型（如DeepSeek、Gemini）在基础事实或搜索上出现严重失误。
“思考模式”的重要性：通义千问在默认状态下可能出错，但开启“思考模式”后能显著提升回答的准确性，表明复杂推理任务需要特定的模型机制支持。
实时数据获取是关键：在体育赛事等时效性极强的场景中，ChatGPT 展现了最强的实时数据抓取能力，能够处理正在进行的比赛信息，这是其他模型未能完全做到的。
Gemini 的搜索短板：尽管Gemini常被宣传为擅长搜索的模型，但在此次测试中，其未能正确反映已结束的H组比赛结果，暴露出其在实时信息同步上的缺陷。
用户预期与现实的落差：作者原本预期国外AI（ChatGPT、Gemini）会优于国内AI，但实际测试结果显示，国内千问在准确性上优于DeepSeek和Gemini，而ChatGPT仅在实时性上占优。

AI工具选择的实用性指南：对于需要处理实时、复杂逻辑问题（如体育赛事分析、金融数据追踪）的用户，不能仅凭品牌或地域偏见选择AI。应根据具体任务需求（如是否需要实时搜索、是否需要深度推理）选择合适的模型和模式（如开启思考模式）。
对AI实时能力的重视：此次测试凸显了AI在实时数据同步方面的差距。ChatGPT 的实时性优势表明，在动态信息场景中，模型的数据更新机制和搜索集成能力是核心竞争力。
对国内AI能力的重新评估：测试结果显示，国内AI（如通义千问）在特定场景下（如开启思考模式后）的表现可媲美甚至超越部分国际主流模型，打破了“国外AI一定更强”的刻板印象。
用户需具备验证意识：AI并非绝对可靠，尤其在处理实时、复杂信息时，用户需结合多方信息源（如社交媒体、新闻）进行交叉验证，不能完全依赖单一AI的回答。