AI 资讯Hacker News·2 小时前

Kimi K2.7-Code开源发布：编码模型Token效率更优

原标题：Kimi K2.7-Code: open-source coding model with better token efficiency

速览

Kimi K2.7-Code是一款新发布的开源编码模型。该模型在Token效率方面表现更佳，旨在提升代码生成的资源利用率。其开源发布有助于开发者更高效地构建和优化AI编程应用。

AI 深度解读

Kimi K2.7-Code 深度解读：开源代码智能体的新标杆

背景

月之暗面（Moonshot AI）近日正式开源了 Kimi K2.7-Code，这是一款专注于代码生成的 Agentic（智能体）模型。该模型基于 Kimi K2.6 构建，旨在解决复杂软件工程工作流中的端到端任务完成问题。

在当前的 AI 编程领域，虽然许多模型具备代码生成能力，但在处理长周期、多步骤的真实世界编程任务时，往往面临效率低下、上下文丢失或推理成本过高的问题。Kimi K2.7-Code 的发布，不仅提供了更强的代码智能体能力，还特别强调了 Token 效率 的提升，通过减少思考 Token 的使用量，降低了部署和推理成本。此外，该模型原生支持 INT4 量化，进一步降低了硬件门槛，使其更易于在本地或私有环境中部署。

核心内容

1. 模型定位与性能提升

Kimi K2.7-Code 是一个面向代码领域的 Agentic 模型。相较于前代 Kimi K2.6，它在以下方面进行了显著优化：

长周期任务能力：在现实世界的长周期编程任务中表现大幅提升，能够更稳健地完成复杂的软件工程工作流。
Token 效率优化：通过优化推理过程，将思考 Token（Thinking Tokens）的使用量减少了约 30%，显著降低了推理成本。
架构一致性：其架构与 Kimi K2.5/K2.6 保持一致，这意味着现有的部署方法和经验可以直接复用。

2. 评估基准与结果

模型在多个维度的基准测试中进行了评估，涵盖了代码生成、机器学习方法创新以及长期智能体协作等场景：

代码生成基准：
- Kimi Code Bench V2：内部基准测试，涵盖 10 多种主流编程语言及完整的生产技术栈，重点评估后端服务、基础设施、性能工程、系统编程、安全、前端开发及 ML/数据工程等领域。
- Program Bench：评估模型仅凭编译后的二进制文件和文档重建程序行为的能力。测试包含从小型 CLI 工具到 FFmpeg、SQLite 等大型系统，通过超过 248,000 个模糊测试生成的行为测试进行验证。模型需自行选择实现语言并从零构建程序。
- MLS-Bench：评估 AI 系统发明通用且可扩展的机器学习方法的能力。其中 MLS-Bench-Lite 包含 30 个任务，涵盖 LLM 预训练/后训练、机器人、世界模型、计算机视觉、强化学习等。
智能体（Agentic）基准：
- Kimi Claw 24/7 Bench：评估在持久化、多日协作任务中的长周期智能体表现。涵盖软件工程、ML 研究、招聘、交易、营销等 17 个专业场景，共 610 个评估点。
- MCP-Atlas：通过可扩展的 MCP（Model Context Protocol）评估 LLM 在真实工具使用任务中的表现。
- MCPMark-Verified：经过人工验证的 MCPMark 版本，评估在 Notion、GitHub、文件系统、Postgres 和 Playwright 五个真实服务器环境中的工具使用情况。
测试条件说明：
- 除非另有说明，Kimi K2.7 Code 和 K2.6 均在 Kimi Code CLI 中以 temperature=1.0、top-p=0.95 和 262,144 Token 上下文长度开启思考模式进行测试。
- 对比模型如 GPT-5.5 在 Codex 的 xhigh 模式下运行，Opus 4.8 在 Claude Code 的 xhigh 模式下运行。

3. 量化与部署支持

原生 INT4 量化：Kimi-K2.7-Code 采用了与 Kimi-K2-Thinking 相同的原生 INT4 量化方法，旨在降低显存占用并提升推理速度。
推荐推理引擎：官方推荐使用 vLLM、SGLang 和 KTransformers 进行部署。
Transformers 兼容性：要求 transformers 库版本在 >=4.57.1, <5.0.0 之间。

4. 使用指南与 API 细节

官方提供了多种使用方式，包括通过 Hugging Face Transformers 库、vLLM、SGLang 以及 Docker 进行本地或服务器端部署。

API 调用特性：
- 强制思考模式：Kimi-K2.7-Code 强制开启思考模式（thinking）并保留思考过程（preserve_thinking=True）。
- 参数建议：Thinking 模式下推荐 temperature=1.0，top_p=0.95。不支持 Instant 模式。
- 多模态支持：视频内容聊天目前仅为实验性功能，且仅在官方 API 中支持。
- 兼容性：提供 OpenAI/Anthropic 兼容的 API 接口。
代码示例：官方提供了基于 Python openai 兼容接口的调用示例，展示了如何发送包含文本和图片的多模态请求，以及如何配置客户端参数。

关键要点

效率显著提升：相比 Kimi K2.6，Kimi K2.7-Code 将思考 Token 消耗降低约 30%，在保持甚至提升代码生成质量的同时，大幅优化了推理成本。
专注 Agentic 编程：不同于普通的代码补全模型，K2.7-Code 专为解决长周期、多步骤的复杂软件工程任务设计，强调端到端的任务完成能力。
开源与量化友好：模型支持原生 INT4 量化，降低了硬件部署门槛，适合希望私有化部署或降低推理成本的开发者。
严格的评估体系：通过 Program Bench（二进制逆向重建）、Kimi Claw 24/7（多日协作）等高难度基准测试，证明了其在真实复杂场景下的鲁棒性。
部署灵活：全面支持 vLLM、SGLang 等主流推理框架，并提供 Docker 镜像和详细的 API 调用文档，便于集成到现有开发工作流中。
官方 API 限制：虽然开源，但视频聊天等多模态实验性功能目前仅限官方 API 使用；本地部署时需遵循特定的参数设置（如强制开启思考模式）。

意义与影响

Kimi K2.7-Code 的开源标志着 AI 编程助手从“代码生成”向“智能体协作”迈进的重要一步。

首先，Token 效率的提升解决了大模型在长上下文编程任务中成本高昂的痛点。对于需要处理大型代码库或进行长时间调试的开发者而言，30% 的 Token 节省意味着更低的 API 费用和更快的响应速度，这使得高频、长周期的 AI 辅助编程在经济上更加可行。

其次，Agentic 能力的强化重新定义了 AI 在软件工程中的角色。传统的代码模型往往局限于单文件或单函数生成，而 K2.7-Code 通过长周期基准测试的优异表现，证明其能够像初级工程师一样，跨越多日、多文件、多工具进行协作。这对于自动化 CI/CD 流程、自动化测试修复以及复杂系统维护具有潜在的巨大价值。

最后，原生 INT4 量化与主流框架支持降低了技术门槛。开发者无需昂贵的 A100/H100 集群即可在消费级或企业级 GPU 上高效运行该模型，促进了 AI 编程工具在更广泛范围内的普及和私有化部署，增强了数据隐私和安全性。

综上所述，Kimi K2.7-Code 不仅在性能上超越了前代，更在成本效益和部署灵活性上取得了平衡，为开源社区的 AI 编程工具链提供了强有力的新选择。

查看原文 →huggingface.co