← 返回信息流
AI 资讯Hacker News·2 小时前

将代码转图像让模型OCR,Fable成本降低六成

原标题:60% Fable cost cut by converting code to images and having the model OCR it

速览

一项新方法通过将代码转换为图像,然后让AI模型进行OCR识别,成功将Fable项目的成本削减了60%。该技术绕过了传统代码解析的复杂性,利用视觉识别提高效率。这一创新展示了AI在软件优化中的潜力,可能推动更多开发流程的变革。

AI 深度解读

背景

在大语言模型(LLM)应用中,输入 token 的数量直接决定了 API 调用成本,尤其对于需要携带大量上下文(system prompt、工具文档、对话历史)的代码助手和代理任务。传统的文本 token 化方式对密集内容(代码、JSON、工具输出)效率较低,平均每个 token 仅对应约 1 个字符,而图像 token 的计费规则是基于像素尺寸而非图像内文本密度,形成了成本套利空间。pxpipe 正是利用这一差距,将文本密集型请求中的冗余部分转换为压缩图像,从而大幅降低输入 token 数。

核心内容

pxpipe 是一个本地代理工具,部署在用户机器上(默认监听 127.0.0.1:47821),在发起请求到 Anthropic 或 OpenAI 模型之前,将请求中体积庞大的部分(system prompt、工具文档、较早的历史对话)改写为紧凑的 PNG 图像。图像 token 的成本仅由其像素尺寸决定,与图像内包含的文本数量无关。实测显示,在真实的 Claude Code 流量中,密集内容(如代码、JSON、工具输出)平均每图像 token 可承载约 3.1 个字符,而文本 token 每 token 仅约 1 个字符。这意味着可将原本需要 ~25k 文本 token 的内容压缩为 ~2.7k 图像 token,降幅约 10 倍。

pxpipe 不修改模型的输出,仅压缩请求(即用户的上行上下文)。最近的对话轮次保持文本形式,仅将 system prompt、工具文档及较早的批量历史转换为图像。它内置智能门控:仅当数学上有利时才进行图像压缩(针对密集内容),对稀疏的英文散文(约 3.5 字符/token)则不处理,保持原文本发送。

实测效果

  • 在 Fable 5 模型上(默认启用),图像渲染的可读性达到 100/100(清洁评估)。演示对比显示,相同任务下:普通模式下上下文占满 96%(964.5k/1M),费用 $42.21;pxpipe 模式上下文仅用 73.5k/1M,费用 $6.06,省约 86%。
  • 在 SWE-bench Lite(10 个实例)上,pxpipe 开启与关闭均解决 10/10,但开启时 token 等效费用 $27 vs 关闭时 $54,节省 50%。在更难的 SWE-bench Pro(19 对)上,pxpipe 解决 14/19,关闭 15/19,裁决一致率 18/19;唯一分歧经 3 次复现,pxpipe 均成功解决,属于代理的运行间方差而非压缩问题。
  • 在需要精确召回的场景(如 12 字符十六进制字符串的 needle-in-haystack 评估),Opus 4.8 在密集图像内容中召回率为 0/15,Fable 5 为 13/15,且失败模式是静默捏造(给出一个看似合理但错误的数字)。因此 pxpipe 声明其是有损压缩,任何需要字节精确返回的内容(ID、哈希、密钥、精确数值)必须保持文本形式。

使用方式

npx pxpipe-proxy # 启动代理
ANTHROPIC_BASE_URL=http://localhost:47821 claude # 将 Claude Code 指向代理

提供实时仪表盘(http://127.0.0.1:47821/)查看 token 节省、会话统计、转换对比及模型芯片控制。

模型范围:默认对 claude-fable-5gpt-5.6 进行图像压缩(GPT 5.5 需手动启用,因其在图像上下文中表现下降)。可通过 PXPIPE_MODELS 环境变量或配置文件控制。Opus 4.7/4.8 因误读率约 7% 默认关闭,可自行启用但风险自负。

关键要点

  • 成本节省幅度取决于工作负载:在 token 密集内容(代码、JSON、哈希)上节省显著,在稀疏英文散文上反而可能增加成本(因图像 token 固定成本)。内置门控基于 391 条生产数据校准,仅当数学上有利时才压缩。
  • 是通过减少输入 token 降低成本,而非修改输出。主要度量是输入 token 数,而非美元费用(因为官方定价可能变化)。报告中的节省比例(如 59%~70%)基于当前 Fable 公开定价。
  • 有损压缩:无法保证在图像化内容中精确还原具体字符串(如 ID、哈希、秘密)。pxpipe 默认仅对 Fable 模型启用图像化,对于需要精确召回的工作,可通过设置 CLAUDE_CODE_SUBAGENT_MODEL=claude-sonnet-4-6 等非 Fable 模型作为子代理,使其以文本形式读取原始文件/JSONL,而不是图像化的历史。
  • 对真实工作的影响:在 SWE-bench Pro 上,裁决一致率 18/19,差异可归因于代理运行间方差;但小样本(n=19,且为 easy subset)需谨慎对待。GSM8K 评估因数据集已在训练数据中,模型可通过记忆回答,导致假象高分,故不以之为准。
  • 实时仪表盘:可在运行时动态切换模型、查看转换对比、全局 kill switch 以及运行时模型芯片(包括 GPT 5.6 和 5.5)。

意义与影响

pxpipe 提供了一种实用的 token 成本优化方案,尤其适用于携带大量系统级上下文和工具文档的代码代理场景。其核心创新在于利用图像 token 计费机制与文本 token 效率差异,将密集内容以更经济的形式送入模型,同时通过智能门控避免反向效果。这种思路可能启发其他 LLM 应用探索类似的异构表示(图文混合)以优化成本。

然而,由于其有损特性,对精确性要求高的场景(如密码管理、数值计算)必须谨慎使用或保留文本路径。pxpipe 通过允许关键子代理使用非压缩模型来部分解决这一问题,但用户仍需自行评估风险。总体而言,该工具在降低推理成本的同时,对复杂实际任务(如 SWE-bench Pro)保持了较高的任务成功率,显示了实用性。但随着模型定价和 token 计算规则的变化,图像压缩的成本优势可能需要重新校准。

查看原文 →github.com