AI 资讯Hacker News·3 小时前

Modal推出Auto Endpoints：实现高效且自主可控的推理服务

原标题：Modal Auto Endpoints: Optimized inference you own

速览

Modal推出了名为Auto Endpoints的新功能，专注于优化AI模型的推理过程。该功能旨在提供更高的推理效率，同时让用户能够完全拥有和控制其推理基础设施。这对于需要低延迟和高可扩展性的AI应用具有重要意义。

AI 深度解读

Modal Auto Endpoints：真正由你掌控的优化推理服务

背景

在当前的 AI 基础设施格局中，许多团队面临着“拥有推理能力”与“保持开发速度/成本效益”之间的两难选择。

传统的专有模型提供商（Proprietary model providers）可能会无声地降级模型质量，或者突然撤回访问权限。如果你不拥有自己的推理基础设施，你就无法掌控自己的命运。虽然使用由推理提供商服务的开源模型（Open models）能带来一定的控制权，但这远非真正的“拥有”。真正的拥有意味着你需要掌控、理解并优化运行推理的代码。

以往，想要真正掌控推理的团队只有两条路：

使用托管推理提供商：这虽然能轻松获得 API，但服务堆栈（Serving stack）是一个黑盒，缺乏透明度。
自建推理服务：这赋予了控制权，但团队不得不背负起引擎调优、端点基准测试、容器部署、副本自动扩缩容及路由、推理指标监控等沉重负担。

为了解决这一痛点，Modal 推出了 Modal Auto Endpoints。这是一个平滑、自助式（Self-serve）的生产级 LLM 推理入口，旨在让像 Cognition、Decagon、Fathom 和 DoorDash 这样的领先团队能够在不牺牲成本性能或开发速度的前提下，真正拥有自己的推理服务。

核心内容

Modal Auto Endpoints 的核心设计理念是打破传统推理提供商的黑盒模式，提供透明、可控且高性能的基础设施。其核心内容可以从以下几个维度解读：

1. 透明与可控：拒绝黑盒

Modal Endpoint 是一个兼容 OpenAI API 的生产就绪服务，其背后由一个你可以完全查看和控制的 Modal App 支持。与传统方案相比，有三个关键区别：

代码不隐藏：从 GPU 选择、区域化配置，到推理引擎标志（Engine flags）以及偶尔的引擎补丁，所有细节均对用户开放。
指标不隐藏：系统自动提供用于调试推理问题的关键指标，如推测解码接受长度（Speculative decoding acceptance length）和每个副本的引擎侧 Token 延迟分位数。
无需销售介入：你可以直接通过 CLI 命令或点击操作部署前沿开源模型（如 GLM-5.2），而无需预约 Zoom 会议。当然，如果你需要额外 expertise，销售团队依然在线。

2. 专为推理构建的基础设施

Modal 建立在坚实的 AI 基础设施平台之上，该平台原本用于折叠蛋白质、驱动机器人和生成音乐。这些基础组件同样适用于 LLM 推理。

按需付费与弹性伸缩：用户无需预留昂贵的 GPU 容量来应对无法预估的负载。Modal 提供高性能自动扩缩容系统和自定义容器运行时，用户只需为实际使用的资源付费，并可根据需求在全球或靠近用户的区域使用 GPU。
Modal Servers：为了支持低延迟推理，Modal 引入了 Modal Servers。它保留了 Modal Web Functions 的弹性伸缩和深度计算能力，但去除了排队机制，并默认进行区域化部署。这使得通过 Modal 提供 HTTP 请求的开销仅为 5ms，同时不牺牲可靠性和自动扩缩容能力。

3. 高性能推理代码：点击即得，而非艰难调优

推理引擎类似于 PostgreSQL 等数据库管理系统：复杂、关键且必须发挥硬件极限性能。调优这些引擎通常需要学习大量复杂的参数（Knobs）。

预置优化配方（Recipes）：Modal Auto Endpoints 为每个支持的模型提供基于经验的初始部署配置。用户无需手动指定 GPU 类型或调整 --mamba-scheduler-strategy 或 --flashinfer-mxfp4-moe-precision 等引擎标志，即可享受最佳性能。
开源优先策略：Modal 通过押注开源赢得了性能优势，包括对底层推理引擎（如 SGLang）和内核（如 FlashAttention-4）进行修补和上游贡献。
推测解码（Speculative Decoding）：Modal 全面采用推测解码技术，特别是与 Z Lab 合作的 DFlash 块扩散草稿架构（Block-diffusion drafter architecture）。Modal 与 Z Lab 及 SGLang 团队紧密合作，确保 DFlash 在实际服务系统中快速可靠，并训练发布了自有的 DFlash 草稿模型以扩展支持范围。

4. 引擎级可观测性（Engine-level Observability）

基准测试性能不足以代表生产环境表现。拥有推理意味着能够深入引擎内部进行性能改进和问题根因分析。Modal 提供两类指标：

服务器指标（Server Metrics）：包括 GPU 温度、功耗和利用率等传统 Modal App 指标。
推理指标（Inference Metrics）：包括首 Token 时间（TTFT）、Token 间延迟（ITL）、排队情况和推测解码接受长度等。

实际场景演示：当流量激增时，处理基线负载的单个容器会出现 TTFT 增加（由于 Prefills 排队）和 ITL 升高（由于 Decodes 排队），导致端到端延迟增加。此时，Modal 的自动扩缩容系统会自动启动两个额外的副本。排队情况迅速缓解，延迟恢复至可接受水平，整个过程无需人工干预（无 PagerDuty 警报）。

5. 迈向“全自动化”

Auto Endpoints 采用基于工作负载和服务水平目标（SLOs）的声明式接口。虽然目前部署代码仍由工程师编写（尽管已高度自动化），但设计目标是面向未来，实现推理端点工程的完全自动化。

关键要点

真正的“拥有感”：与传统黑盒 API 不同，Modal Auto Endpoints 允许用户掌控从底层引擎配置到监控指标的所有细节，确保对推理服务的主导权。
开箱即用的高性能：通过预置的优化配方和自动化的推测解码（如 DFlash 架构），用户无需成为推理引擎专家即可部署高性能服务。
极低的延迟开销：引入的 Modal Servers 将 HTTP 请求的处理开销降低至 5ms，同时保持弹性伸缩能力。
透明的可观测性：提供从硬件级（GPU 温度/功耗）到引擎级（TTFT/ITL/排队）的全栈指标，帮助团队快速定位生产环境问题。
灵活的部署方式：支持通过 CLI 或控制台直接部署前沿开源模型（如 GLM-5.2），无需繁琐的销售流程。
基于开源的竞争优势：Modal 通过深度参与 SGLang、FlashAttention-4 等开源项目，并自研 DFlash 草稿模型，构建了独特的性能壁垒。

意义与影响

Modal Auto Endpoints 的推出标志着 AI 基础设施领域的一个重要转变：从“使用 API”向“拥有并优化推理服务”的平民化过渡。

降低自建门槛：过去，只有资源雄厚的大厂才能负担得起自建高性能推理集群的成本和技术债务。Modal 通过自动化和预优化，将这一能力下放给中小型团队，使他们能够以接近专有 API 的开发速度，获得接近自建系统的控制权和成本效益。
推动开源生态的成熟：Modal 对 SGLang、FlashAttention 等开源项目的深度整合和优化，不仅提升了自身产品的竞争力，也反过来促进了开源推理引擎的成熟和标准化。
重新定义“所有权”：在 AI 应用层竞争日益激烈的今天，推理的性能、成本和稳定性直接决定用户体验。Modal 强调的“拥有推理”概念，提醒开发者不能仅满足于 API 调用，而应关注底层基础设施的透明度和可控性，以应对模型降级、访问限制等风险。
基础设施即代码的延伸：通过将推理配置声明化并集成到自动化工作流中，Modal 正在推动推理工程向完全自动化迈进，这可能成为未来 AI 应用部署的标准范式。

总之，Modal Auto Endpoints 为那些希望在 AI 时代掌握主动权、追求极致性能与成本平衡的团队，提供了一条既稳健又灵活的新路径。

查看原文 →modal.com