用户实测Qoder与Codex:Agent技能提升AI效率,复杂任务仍显不足
速览
一位高校教师实测Qoder,利用Agent技能显著提升了PPT制作与期末作业批改的效率,认为其已超越受限的Codex。然而,在涉及复杂逻辑校验的试卷生成任务中,国产模型仍存在评分计算错误等缺陷,最终由Gemini完成。该案例展示了AI Agent在自动化工作流中的潜力,同时也揭示了当前大模型在复杂逻辑推理上的差距。
AI 深度解读
背景
作者是一名在民办大专任教的计算机教师。近期,他主要利用 AI 工具处理两项核心工作:一是重构并优化一门课程的复习 PPT;二是利用 AI 辅助批改多个班级的期末作业,包括文档内容提取、图像识别、抄袭检测及成绩汇总。此外,作者还回顾并重新审视了一个用于测试 AI 逻辑与格式输出能力的“试卷生成”任务,以此对比不同模型在三个月内的能力演进。
核心内容
1. PPT 制作与额度消耗问题
作者最初尝试使用 Qoder 制作复习 PPT。第一版因未找到 pptskill,作者转而使用 Python 脚本生成,导致排版混乱、效果不佳。第二版启用 skill 后效果改善,但内容部分此前已使用 Codex 生成。由于 Codex 生成的 PPT 视觉效果较差,作者尝试让 AI 直接使用 image2 功能生成不可编辑但美观的图片形式 PPT。然而,该任务消耗了大量额度,导致本周额度提前耗尽。此前,作者一直使用 Codex 重构出版商提供的劣质原版 PPT,经过反复修改尚未完成,并尝试让 Qoder 接力处理,怀疑是 PPT 生成任务导致了额度快速消耗。
2. 期末作业自动批改流程 作者利用 Qoder 处理三个班级(每班约 50-60 人)的期末作业批改,完整工作流包括:
- 读取文件夹及
.docx文档。 - 提取文档中的文字和图片。
- 识别图片内容并判断学生完成情况。
- 根据评分标准打分。
- 自主抄袭检测:作者未明确要求,但模型自主实现了 MD5 匹配机制,不仅比对文档文本,还比对提取出的图片内容,有效识别抄袭。
- 成绩汇总:结合平时成绩进行汇总,并对 50-59 分的学生进行“及格线拉升”处理。
在此过程中,Qoder 调用了 GML 5.2 和千问 3.7 Max 模型,两者均自主完成了复杂的抄袭匹配逻辑。作者表示,处理完三个班后,Pro 版的 2000 credits 额度耗尽,随后开始使用赠送的 4000 credits。作者认为 PPT 任务可能极度消耗额度,或者该额度总量对于此类批量任务而言偏少。整体评价 Qoder 较为聪明,GML 和千问在此场景下无明显差距,且体验优于“降智”且“砍额度”的 Codex。
3. “试卷生成”测试任务的回顾与对比 作者分享了一个约三个月前进行的 AI 能力测试任务:
- 任务描述:提供一套空白试卷(含选择、填空、用于控分的简答题)及 50 个目标分数,要求 AI 生成对应分数的作答,并整理为 Excel/CSV 表格,以便通过邮件合并生成最终试卷。
- 早期模型表现(3个月前):
- 豆包及专家模式:不开专家模式直接失败;开专家模式后,DeepSeek 处理 20 题需半小时以上且非全对;豆包速度快但非全对。两者在生成 CSV 时均输出 TXT 格式,需手动重命名,且出现错行错列。
- DeepSeek 专家模式:耗时极长,准确率不高。
- 千问:当时未尝试。
- 核心痛点:所有国产模型的成绩核算逻辑错误。例如生成声称 80 分的试卷,实际分数可能为 90、95 或 70,且模型无法自我修正。
- 最终解决方案:使用 Gemini Pro 模型完成。速度快(60 题不超过 2 分钟),结果完全正确,直接输出无错行的 CSV 文件。
- 当前展望:作者认为,经过三个月的发展,Codex 或 Qoder 等新型工作流工具已能实现此类任务的全流程直出。
关键要点
- 工具链组合策略:单一模型或工具难以完美解决所有问题,最佳实践往往涉及多工具组合(如 Qoder +
pptskill+image2+ Python 脚本)。 - 额度消耗陷阱:复杂的视觉生成任务(如直接生成图片型 PPT)和大规模文档处理任务对 Credits 消耗巨大,用户需警惕额度提前耗尽的风险。
- 自主逻辑涌现:在作业批改场景中,AI 模型(GML 5.2、千问 3.7 Max)在未受明确指令的情况下,自主实现了跨模态(文本+图片)的 MD5 抄袭检测逻辑,展现了较强的自主推理能力。
- 模型能力迭代迅速:对比三个月前的测试,国产模型在复杂逻辑(分数核算)和格式输出(CSV 直出、防错行)上仍有明显短板,而 Gemini Pro 当时已具备稳定表现。目前 Qoder/Codex 等新一代工作流工具正在快速弥补这一差距,有望实现全流程自动化。
- 工作流价值:Qoder 等 Agent 类工具通过串联读取、提取、识别、判断、匹配、汇总等步骤,显著降低了教师在重复性劳动(如批改、重构课件)中的工作量。
意义与影响
- 教育技术应用的深化:AI 已从简单的内容生成走向复杂的教育工作流自动化,包括课件重构、多模态作业批改及防作弊检测,极大提升了教学管理效率。
- 模型能力评估的新维度:传统的对话测试已不足以反映 AI 在实际工作流中的表现。格式规范性(如 CSV 无错行)、逻辑自洽性(如分数核算准确)以及自主纠错能力成为衡量模型实用性的关键指标。
- 工具生态的演进:从单一模型对话向“工作流/Agent”模式转变(如 Qoder 的 Skill 机制),标志着 AI 应用正从“辅助创作”向“自动化执行”演进。这种转变要求用户不仅关注模型本身,更要关注工具链的整合能力与额度成本效益。
- 国产与海外模型的差距与追赶:虽然国产模型在特定复杂逻辑任务上曾出现明显缺陷,但随着工作流工具的优化,差距正在缩小。用户需根据具体任务类型(如高精度格式输出 vs. 创意生成)灵活选择模型与工具组合。
