← 返回信息流
AI 资讯Hacker News·2 小时前

Kimi K2.7-Code开源发布:编码模型Token效率更优

原标题:Kimi K2.7-Code: open-source coding model with better token efficiency

速览

Kimi K2.7-Code是一款新发布的开源编码模型。该模型在Token效率方面表现更佳,旨在提升代码生成的资源利用率。其开源发布有助于开发者更高效地构建和优化AI编程应用。

AI 深度解读

Kimi K2.7-Code 深度解读:开源代码智能体的新标杆

背景

月之暗面(Moonshot AI)近日正式开源了 Kimi K2.7-Code,这是一款专注于代码生成的 Agentic(智能体)模型。该模型基于 Kimi K2.6 构建,旨在解决复杂软件工程工作流中的端到端任务完成问题。

在当前的 AI 编程领域,虽然许多模型具备代码生成能力,但在处理长周期、多步骤的真实世界编程任务时,往往面临效率低下、上下文丢失或推理成本过高的问题。Kimi K2.7-Code 的发布,不仅提供了更强的代码智能体能力,还特别强调了 Token 效率 的提升,通过减少思考 Token 的使用量,降低了部署和推理成本。此外,该模型原生支持 INT4 量化,进一步降低了硬件门槛,使其更易于在本地或私有环境中部署。

核心内容

1. 模型定位与性能提升

Kimi K2.7-Code 是一个面向代码领域的 Agentic 模型。相较于前代 Kimi K2.6,它在以下方面进行了显著优化:

  • 长周期任务能力:在现实世界的长周期编程任务中表现大幅提升,能够更稳健地完成复杂的软件工程工作流。
  • Token 效率优化:通过优化推理过程,将思考 Token(Thinking Tokens)的使用量减少了约 30%,显著降低了推理成本。
  • 架构一致性:其架构与 Kimi K2.5/K2.6 保持一致,这意味着现有的部署方法和经验可以直接复用。

2. 评估基准与结果

模型在多个维度的基准测试中进行了评估,涵盖了代码生成、机器学习方法创新以及长期智能体协作等场景:

  • 代码生成基准

    • Kimi Code Bench V2:内部基准测试,涵盖 10 多种主流编程语言及完整的生产技术栈,重点评估后端服务、基础设施、性能工程、系统编程、安全、前端开发及 ML/数据工程等领域。
    • Program Bench:评估模型仅凭编译后的二进制文件和文档重建程序行为的能力。测试包含从小型 CLI 工具到 FFmpeg、SQLite 等大型系统,通过超过 248,000 个模糊测试生成的行为测试进行验证。模型需自行选择实现语言并从零构建程序。
    • MLS-Bench:评估 AI 系统发明通用且可扩展的机器学习方法的能力。其中 MLS-Bench-Lite 包含 30 个任务,涵盖 LLM 预训练/后训练、机器人、世界模型、计算机视觉、强化学习等。
  • 智能体(Agentic)基准

    • Kimi Claw 24/7 Bench:评估在持久化、多日协作任务中的长周期智能体表现。涵盖软件工程、ML 研究、招聘、交易、营销等 17 个专业场景,共 610 个评估点。
    • MCP-Atlas:通过可扩展的 MCP(Model Context Protocol)评估 LLM 在真实工具使用任务中的表现。
    • MCPMark-Verified:经过人工验证的 MCPMark 版本,评估在 Notion、GitHub、文件系统、Postgres 和 Playwright 五个真实服务器环境中的工具使用情况。
  • 测试条件说明

    • 除非另有说明,Kimi K2.7 Code 和 K2.6 均在 Kimi Code CLI 中以 temperature=1.0top-p=0.95 和 262,144 Token 上下文长度开启思考模式进行测试。
    • 对比模型如 GPT-5.5 在 Codex 的 xhigh 模式下运行,Opus 4.8 在 Claude Code 的 xhigh 模式下运行。

3. 量化与部署支持

  • 原生 INT4 量化:Kimi-K2.7-Code 采用了与 Kimi-K2-Thinking 相同的原生 INT4 量化方法,旨在降低显存占用并提升推理速度。
  • 推荐推理引擎:官方推荐使用 vLLMSGLangKTransformers 进行部署。
  • Transformers 兼容性:要求 transformers 库版本在 >=4.57.1, <5.0.0 之间。

4. 使用指南与 API 细节

官方提供了多种使用方式,包括通过 Hugging Face Transformers 库、vLLM、SGLang 以及 Docker 进行本地或服务器端部署。

  • API 调用特性

    • 强制思考模式:Kimi-K2.7-Code 强制开启思考模式(thinking)并保留思考过程(preserve_thinking=True)。
    • 参数建议:Thinking 模式下推荐 temperature=1.0top_p=0.95。不支持 Instant 模式。
    • 多模态支持:视频内容聊天目前仅为实验性功能,且仅在官方 API 中支持。
    • 兼容性:提供 OpenAI/Anthropic 兼容的 API 接口。
  • 代码示例: 官方提供了基于 Python openai 兼容接口的调用示例,展示了如何发送包含文本和图片的多模态请求,以及如何配置客户端参数。

关键要点

  • 效率显著提升:相比 Kimi K2.6,Kimi K2.7-Code 将思考 Token 消耗降低约 30%,在保持甚至提升代码生成质量的同时,大幅优化了推理成本。
  • 专注 Agentic 编程:不同于普通的代码补全模型,K2.7-Code 专为解决长周期、多步骤的复杂软件工程任务设计,强调端到端的任务完成能力。
  • 开源与量化友好:模型支持原生 INT4 量化,降低了硬件部署门槛,适合希望私有化部署或降低推理成本的开发者。
  • 严格的评估体系:通过 Program Bench(二进制逆向重建)、Kimi Claw 24/7(多日协作)等高难度基准测试,证明了其在真实复杂场景下的鲁棒性。
  • 部署灵活:全面支持 vLLM、SGLang 等主流推理框架,并提供 Docker 镜像和详细的 API 调用文档,便于集成到现有开发工作流中。
  • 官方 API 限制:虽然开源,但视频聊天等多模态实验性功能目前仅限官方 API 使用;本地部署时需遵循特定的参数设置(如强制开启思考模式)。

意义与影响

Kimi K2.7-Code 的开源标志着 AI 编程助手从“代码生成”向“智能体协作”迈进的重要一步。

首先,Token 效率的提升解决了大模型在长上下文编程任务中成本高昂的痛点。对于需要处理大型代码库或进行长时间调试的开发者而言,30% 的 Token 节省意味着更低的 API 费用和更快的响应速度,这使得高频、长周期的 AI 辅助编程在经济上更加可行。

其次,Agentic 能力的强化重新定义了 AI 在软件工程中的角色。传统的代码模型往往局限于单文件或单函数生成,而 K2.7-Code 通过长周期基准测试的优异表现,证明其能够像初级工程师一样,跨越多日、多文件、多工具进行协作。这对于自动化 CI/CD 流程、自动化测试修复以及复杂系统维护具有潜在的巨大价值。

最后,原生 INT4 量化与主流框架支持降低了技术门槛。开发者无需昂贵的 A100/H100 集群即可在消费级或企业级 GPU 上高效运行该模型,促进了 AI 编程工具在更广泛范围内的普及和私有化部署,增强了数据隐私和安全性。

综上所述,Kimi K2.7-Code 不仅在性能上超越了前代,更在成本效益和部署灵活性上取得了平衡,为开源社区的 AI 编程工具链提供了强有力的新选择。

查看原文 →huggingface.co