Agent SkillLINUX DO · AI·2 小时前

用户实测Gemini 3.5开启深度思考可提升上下文召回

原标题：哈基米3.5可通过提高思考强度略微提高上下文召回能力但这已经说明基础上下文能力不行了…

速览

有用户分享使用Gemini 3.5的实测体验，指出在常规模式下AI容易忽略前置指令，但开启“深度思考”模式后，模型会逐步回顾对话历史，从而显著提升上下文召回能力。尽管该模式改善了中等长度任务的稳定性，但面对万字以上超长提示词时，Gemini的表现依然不佳，用户表示不再将其用于此类任务。这一发现揭示了当前大模型在处理长上下文时的局限性及深度思考机制的辅助作用。

AI 深度解读

背景

近期在 LINUX DO 社区的 AI 讨论板块中，用户针对 Google 旗下大模型 Gemini 3.5 版本的上下文理解能力进行了深度测试与反馈。核心争议点在于：虽然通过提升模型的“思考强度”（即增加推理步骤或深度），能够略微改善其对长对话上下文的召回能力，但这恰恰暴露了该模型在基础上下文处理能力上的不足。这一现象引发了关于 AI 训练惯性、提示词工程局限性以及长文本处理瓶颈的广泛讨论。

核心内容

此次讨论主要围绕 Gemini 3.5 在处理复杂、长周期对话时的表现展开。参与者指出，AI 存在一种固有的“惯性”问题，即模型往往需要用户反复提醒或设立规则才能维持对上下文的一致理解，而单纯依靠预设规则往往无效。

测试者发现，在不启用深度思考模式的情况下，Gemini 3.5 完全无法意识到当前对话与历史上下文之间的潜在联系或问题所在。然而，当开启“High 思考”（高强度思考模式）后，模型的表现有所改善。具体而言，在对话进行到大约第 10 个小标题时，模型开始主动发现问题。观察显示，模型通过“一轮一轮地走”，逐步回顾和梳理之前的对话内容，这种逐步回溯的机制有助于它找回丢失的上下文信息。

尽管在常规使用场景下，Gemini 3.5 的上下文稳定性表现尚可，自推出以来未出现重大体验问题，且修改提示词时较少出现内容丢失的情况，但其极限能力依然有限。测试者明确表示，从未尝试过万字以上的超长提示词任务，并直言此类高负荷任务已不再愿意交给 Gemini 处理。该话题由用户 is_hp 提供素材，共有 7 个帖子、5 位参与者参与讨论。

关键要点

思考强度与上下文召回的正相关：提高模型的思考强度（推理深度）可以略微提升其对上下文的召回能力，但这是一种“补救”措施，而非根本解决方案。
基础能力不足的体现：依赖高强度思考来弥补上下文召回，本身就说明了模型在基础上下文理解和保持能力上存在缺陷。
AI 惯性与规则失效：AI 存在固有的惯性，用户必须主动提醒，单纯设立规则无法有效解决上下文丢失或理解偏差的问题。
逐步回溯机制：开启高强度思考后，模型通过逐轮回顾对话历史（如“一轮一轮地走”）来重建上下文关联，这是其找回上下文的关键机制。
稳定性与极限能力的矛盾：在日常使用中，Gemini 3.5 表现稳定，提示词修改不易导致内容丢失；但在面对万字以上超长提示词等极限任务时，其表现不佳，用户对其信任度降低。
训练语料的引导作用：上下文应用的效果也受限于 AI 训练语料对 Gemini 的引导方式，特别是在处理问题方法层面的逻辑引导。

意义与影响

这一讨论揭示了当前大语言模型在长上下文处理上的普遍痛点：即“看似理解，实则遗忘”或“需深度推理才能找回记忆”的现象。对于开发者而言，这意味着仅靠优化模型架构可能不足以完全解决长窗口记忆问题，还需要在推理机制（如 Chain of Thought 的优化应用）和用户交互设计（如主动的记忆锚点设置）上进行改进。

对于用户而言，该反馈提供了重要的实践指南：在处理复杂、多轮次对话时，不应完全依赖模型的自动上下文保持能力，而应通过结构化提示、定期总结或启用深度思考模式来辅助模型维持一致性。同时，这也警示了当前模型在处理超大规模上下文（如万字以上）时的局限性，用户需对模型的极限能力保持理性预期，避免将关键的高复杂度任务完全交由模型自主处理。

查看原文 →linux.do

用户实测Gemini 3.5开启深度思考可提升上下文召回

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐