AI 资讯Hacker News·2 小时前

将代码转图像让模型OCR，Fable成本降低六成

原标题：60% Fable cost cut by converting code to images and having the model OCR it

速览

一项新方法通过将代码转换为图像，然后让AI模型进行OCR识别，成功将Fable项目的成本削减了60%。该技术绕过了传统代码解析的复杂性，利用视觉识别提高效率。这一创新展示了AI在软件优化中的潜力，可能推动更多开发流程的变革。

AI 深度解读

背景

在大语言模型（LLM）应用中，输入 token 的数量直接决定了 API 调用成本，尤其对于需要携带大量上下文（system prompt、工具文档、对话历史）的代码助手和代理任务。传统的文本 token 化方式对密集内容（代码、JSON、工具输出）效率较低，平均每个 token 仅对应约 1 个字符，而图像 token 的计费规则是基于像素尺寸而非图像内文本密度，形成了成本套利空间。pxpipe 正是利用这一差距，将文本密集型请求中的冗余部分转换为压缩图像，从而大幅降低输入 token 数。

核心内容

pxpipe 是一个本地代理工具，部署在用户机器上（默认监听 127.0.0.1:47821），在发起请求到 Anthropic 或 OpenAI 模型之前，将请求中体积庞大的部分（system prompt、工具文档、较早的历史对话）改写为紧凑的 PNG 图像。图像 token 的成本仅由其像素尺寸决定，与图像内包含的文本数量无关。实测显示，在真实的 Claude Code 流量中，密集内容（如代码、JSON、工具输出）平均每图像 token 可承载约 3.1 个字符，而文本 token 每 token 仅约 1 个字符。这意味着可将原本需要 ~25k 文本 token 的内容压缩为 ~2.7k 图像 token，降幅约 10 倍。

pxpipe 不修改模型的输出，仅压缩请求（即用户的上行上下文）。最近的对话轮次保持文本形式，仅将 system prompt、工具文档及较早的批量历史转换为图像。它内置智能门控：仅当数学上有利时才进行图像压缩（针对密集内容），对稀疏的英文散文（约 3.5 字符/token）则不处理，保持原文本发送。

实测效果：

在 Fable 5 模型上（默认启用），图像渲染的可读性达到 100/100（清洁评估）。演示对比显示，相同任务下：普通模式下上下文占满 96%（964.5k/1M），费用 $42.21；pxpipe 模式上下文仅用 73.5k/1M，费用 $6.06，省约 86%。
在 SWE-bench Lite（10 个实例）上，pxpipe 开启与关闭均解决 10/10，但开启时 token 等效费用 $27 vs 关闭时 $54，节省 50%。在更难的 SWE-bench Pro（19 对）上，pxpipe 解决 14/19，关闭 15/19，裁决一致率 18/19；唯一分歧经 3 次复现，pxpipe 均成功解决，属于代理的运行间方差而非压缩问题。
在需要精确召回的场景（如 12 字符十六进制字符串的 needle-in-haystack 评估），Opus 4.8 在密集图像内容中召回率为 0/15，Fable 5 为 13/15，且失败模式是静默捏造（给出一个看似合理但错误的数字）。因此 pxpipe 声明其是有损压缩，任何需要字节精确返回的内容（ID、哈希、密钥、精确数值）必须保持文本形式。

使用方式：

npx pxpipe-proxy # 启动代理
ANTHROPIC_BASE_URL=http://localhost:47821 claude # 将 Claude Code 指向代理

提供实时仪表盘（http://127.0.0.1:47821/）查看 token 节省、会话统计、转换对比及模型芯片控制。

模型范围：默认对 claude-fable-5 和 gpt-5.6 进行图像压缩（GPT 5.5 需手动启用，因其在图像上下文中表现下降）。可通过 PXPIPE_MODELS 环境变量或配置文件控制。Opus 4.7/4.8 因误读率约 7% 默认关闭，可自行启用但风险自负。

关键要点

成本节省幅度取决于工作负载：在 token 密集内容（代码、JSON、哈希）上节省显著，在稀疏英文散文上反而可能增加成本（因图像 token 固定成本）。内置门控基于 391 条生产数据校准，仅当数学上有利时才压缩。
是通过减少输入 token 降低成本，而非修改输出。主要度量是输入 token 数，而非美元费用（因为官方定价可能变化）。报告中的节省比例（如 59%~70%）基于当前 Fable 公开定价。
有损压缩：无法保证在图像化内容中精确还原具体字符串（如 ID、哈希、秘密）。pxpipe 默认仅对 Fable 模型启用图像化，对于需要精确召回的工作，可通过设置 CLAUDE_CODE_SUBAGENT_MODEL=claude-sonnet-4-6 等非 Fable 模型作为子代理，使其以文本形式读取原始文件/JSONL，而不是图像化的历史。
对真实工作的影响：在 SWE-bench Pro 上，裁决一致率 18/19，差异可归因于代理运行间方差；但小样本（n=19，且为 easy subset）需谨慎对待。GSM8K 评估因数据集已在训练数据中，模型可通过记忆回答，导致假象高分，故不以之为准。
实时仪表盘：可在运行时动态切换模型、查看转换对比、全局 kill switch 以及运行时模型芯片（包括 GPT 5.6 和 5.5）。

意义与影响

pxpipe 提供了一种实用的 token 成本优化方案，尤其适用于携带大量系统级上下文和工具文档的代码代理场景。其核心创新在于利用图像 token 计费机制与文本 token 效率差异，将密集内容以更经济的形式送入模型，同时通过智能门控避免反向效果。这种思路可能启发其他 LLM 应用探索类似的异构表示（图文混合）以优化成本。

然而，由于其有损特性，对精确性要求高的场景（如密码管理、数值计算）必须谨慎使用或保留文本路径。pxpipe 通过允许关键子代理使用非压缩模型来部分解决这一问题，但用户仍需自行评估风险。总体而言，该工具在降低推理成本的同时，对复杂实际任务（如 SWE-bench Pro）保持了较高的任务成功率，显示了实用性。但随着模型定价和 token 计算规则的变化，图像压缩的成本优势可能需要重新校准。

查看原文 →github.com

将代码转图像让模型OCR，Fable成本降低六成

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐