AI 资讯Hacker News·3 小时前

YOLO26发布：引领目标检测技术新突破

原标题：An Introduction to YOLO26

速览

YOLO26是最新一代目标检测模型，旨在解决复杂场景下的检测难题。该版本在保持实时性的同时，大幅提升了检测精度与鲁棒性。其发布标志着计算机视觉领域的重要进展，将为自动驾驶、安防监控等应用提供更强大的技术支持。

AI 深度解读

YOLO26 深度解读：端到端实时检测的新范式

背景

YOLO（You Only Look Once）系列模型一直是实时计算机视觉领域的标杆，以其卓越的速度和准确性著称，广泛应用于边缘设备、云端 API 以及各类嵌入式系统中。随着硬件环境的多样化和对实时性要求的不断提高，模型架构也在不断演进。

2026 年 1 月，Ultralytics 发布了 YOLO26。这一版本不仅延续了 YOLO 系列在多任务处理上的优势，更在架构设计上进行了重大革新，旨在解决传统目标检测模型在边缘部署中的痛点。与此同时，计算机视觉领域也涌现出如 RF-DETR、LW-DETR 和 D-FINE 等强有力的竞争对手，它们分别在泛化能力、Transformer 架构融合以及边界框细化方面展现了独特的优势。本文将深入解析 YOLO26 的技术细节、性能表现及其在行业中的定位。

核心内容

YOLO26 是一个端到端的多任务模型家族，支持五大核心计算机视觉任务：目标检测（Object Detection）、实例分割（Instance Segmentation）、姿态估计（Pose Estimation）、定向目标检测（Oriented Object Detection, OBB）以及图像分类（Image Classification）。该系列提供了从 Nano (N) 到 Extra Large (X) 五种尺寸变体，以满足不同性能需求和部署场景。

相较于前代产品，YOLO26 的核心革新体现在以下几个方面：

1. 移除 NMS 实现端到端预测

YOLO26 最大的架构变化是移除了后处理步骤中的非极大值抑制（Non-Maximum Suppression, NMS）。通过直接输出预测结果，模型显著降低了推理延迟，使得部署更加轻量、快速且可靠。这一改动不仅简化了推理流程，还确保了模型在 fp16 和 fp32 精度下结果的一致性，从而在保持训练时的高准确率的同时，实现了优化的低延迟运行。

2. 简化架构以适配边缘设备

为了提升在边缘和低功耗硬件上的兼容性，YOLO26 移除了分布焦点损失（Distribution Focal Loss, DFL）模块。这一简化不仅降低了计算复杂度，还使得模型能够支持多种导出格式，包括 TFLite、CoreML、OpenVINO、TensorRT 和 ONNX，极大地拓宽了其在异构硬件环境中的适用性。

3. 小目标检测能力的增强

YOLO26 引入了 ProgLoss 和 STAL 损失函数，显著提升了小目标的检测精度。这一改进对于物联网（IoT）、机器人视觉以及航拍图像等应用场景具有重要意义，因为这些场景往往包含大量细小且难以识别的目标。

4. CPU 推理性能的大幅提升

通过对模型设计和训练过程的优化，YOLO26 在 CPU 上的推理速度相比 YOLO11 有了显著提升。例如，YOLO26-N 变体的 CPU 推理速度比 YOLO11-N 快高达 43%。这一特性使得 YOLO26 成为在没有 GPU 支持的边缘设备上实现实时性能的理想选择。

5. 引入 MuSGD 优化器

在训练方面，YOLO26 引入了 MuSGD 优化器。这是一种结合了 SGD（随机梯度下降）和 Muon 的混合优化器，其灵感来源于 Kimi K2 大语言模型（LLM）的最新突破。通过将大语言模型领域的优化进展迁移到计算机视觉领域，MuSGD 确保了训练过程的稳定性并加速了收敛速度。

6. 与竞争对手的比较

在实时目标检测领域，YOLO26 面临着来自其他先进模型的竞争：

RF-DETR：由 Roboflow 于 2025 年 3 月发布，支持分割、检测和分类任务。基准测试显示，RF-DETR 在跨领域泛化能力上优于 YOLO26，且适合边缘部署。
LW-DETR：发布于 2024 年 6 月，结合了 Vision Transformer (ViT) 和 DETR Decoder 的优势，通过多尺度特征表示提高了预测的准确性和鲁棒性，在准确性和推理速度上均超越了 YOLO11。
D-FINE：发布于 2024 年 10 月，引入了细粒度分布细化（FDR）机制，通过迭代细化边界框分布来提升定位精度，特别擅长检测小目标或重叠目标，同时保持实时性能。

值得注意的是，Ultralytics 官方并未发布关于 YOLO26 的正式研究论文。不过，康奈尔大学和堪萨斯州立大学的研究人员撰写了一篇题为《YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection》的论文，为理解该模型提供了有价值的参考资源。

关键要点

多任务支持：YOLO26 是一个统一的多任务模型家族，涵盖检测、分割、姿态估计、OBB 和分类五大任务。
端到端架构：通过移除 NMS 和 DFL 模块，实现了真正的端到端预测，降低了延迟并简化了部署流程。
边缘优化：专为边缘计算设计，支持多种导出格式（TFLite, CoreML, OpenVINO, TensorRT, ONNX），兼容性强。
性能提升：YOLO26-N 在 CPU 上的推理速度比 YOLO11-N 快 43%，适合无 GPU 设备。
小目标增强：利用 ProgLoss 和 STAL 损失函数，显著改善了小目标的检测精度。
新型优化器：引入受 LLM 启发而来的 MuSGD 优化器，提升训练稳定性和收敛速度。
尺寸变体：提供 N、S、M、L、X 五种尺寸，用户可根据硬件约束在推理速度和检测精度之间进行权衡。

意义与影响

YOLO26 的发布标志着实时计算机视觉模型向更高效、更通用的方向迈出了重要一步。其移除 NMS 和 DFL 的设计哲学，反映了行业对简化推理管道、降低硬件依赖的迫切需求。通过直接输出预测结果，YOLO26 不仅减少了后处理带来的延迟，还提高了模型在复杂现实场景中的鲁棒性。

对于开发者而言，YOLO26 提供了更广泛的硬件兼容性，特别是其对 CPU 推理的优化，使得高性能视觉 AI 能够下沉到资源受限的 IoT 设备和边缘节点。这对于机器人、自动驾驶辅助、智能安防等对实时性和功耗有严格要求的应用场景具有深远影响。

尽管面临 RF-DETR、LW-DETR 等基于 Transformer 架构模型的激烈竞争，YOLO26 依然凭借其高效的参数利用率和极快的推理速度，确立了其在实时检测领域的领先地位。它证明了在保持高准确率的同时，通过架构简化实现极致性能是可行的。随着边缘计算需求的持续增长，YOLO26 有望成为构建下一代智能视觉系统的基础组件。

查看原文 →blog.roboflow.com