← 返回信息流
AI 资讯Hacker News·3 小时前

YOLO26发布:引领目标检测技术新突破

原标题:An Introduction to YOLO26

速览

YOLO26是最新一代目标检测模型,旨在解决复杂场景下的检测难题。该版本在保持实时性的同时,大幅提升了检测精度与鲁棒性。其发布标志着计算机视觉领域的重要进展,将为自动驾驶、安防监控等应用提供更强大的技术支持。

AI 深度解读

YOLO26 深度解读:端到端实时检测的新范式

背景

YOLO(You Only Look Once)系列模型一直是实时计算机视觉领域的标杆,以其卓越的速度和准确性著称,广泛应用于边缘设备、云端 API 以及各类嵌入式系统中。随着硬件环境的多样化和对实时性要求的不断提高,模型架构也在不断演进。

2026 年 1 月,Ultralytics 发布了 YOLO26。这一版本不仅延续了 YOLO 系列在多任务处理上的优势,更在架构设计上进行了重大革新,旨在解决传统目标检测模型在边缘部署中的痛点。与此同时,计算机视觉领域也涌现出如 RF-DETR、LW-DETR 和 D-FINE 等强有力的竞争对手,它们分别在泛化能力、Transformer 架构融合以及边界框细化方面展现了独特的优势。本文将深入解析 YOLO26 的技术细节、性能表现及其在行业中的定位。

核心内容

YOLO26 是一个端到端的多任务模型家族,支持五大核心计算机视觉任务:目标检测(Object Detection)、实例分割(Instance Segmentation)、姿态估计(Pose Estimation)、定向目标检测(Oriented Object Detection, OBB)以及图像分类(Image Classification)。该系列提供了从 Nano (N) 到 Extra Large (X) 五种尺寸变体,以满足不同性能需求和部署场景。

相较于前代产品,YOLO26 的核心革新体现在以下几个方面:

1. 移除 NMS 实现端到端预测

YOLO26 最大的架构变化是移除了后处理步骤中的非极大值抑制(Non-Maximum Suppression, NMS)。通过直接输出预测结果,模型显著降低了推理延迟,使得部署更加轻量、快速且可靠。这一改动不仅简化了推理流程,还确保了模型在 fp16 和 fp32 精度下结果的一致性,从而在保持训练时的高准确率的同时,实现了优化的低延迟运行。

2. 简化架构以适配边缘设备

为了提升在边缘和低功耗硬件上的兼容性,YOLO26 移除了分布焦点损失(Distribution Focal Loss, DFL)模块。这一简化不仅降低了计算复杂度,还使得模型能够支持多种导出格式,包括 TFLite、CoreML、OpenVINO、TensorRT 和 ONNX,极大地拓宽了其在异构硬件环境中的适用性。

3. 小目标检测能力的增强

YOLO26 引入了 ProgLoss 和 STAL 损失函数,显著提升了小目标的检测精度。这一改进对于物联网(IoT)、机器人视觉以及航拍图像等应用场景具有重要意义,因为这些场景往往包含大量细小且难以识别的目标。

4. CPU 推理性能的大幅提升

通过对模型设计和训练过程的优化,YOLO26 在 CPU 上的推理速度相比 YOLO11 有了显著提升。例如,YOLO26-N 变体的 CPU 推理速度比 YOLO11-N 快高达 43%。这一特性使得 YOLO26 成为在没有 GPU 支持的边缘设备上实现实时性能的理想选择。

5. 引入 MuSGD 优化器

在训练方面,YOLO26 引入了 MuSGD 优化器。这是一种结合了 SGD(随机梯度下降)和 Muon 的混合优化器,其灵感来源于 Kimi K2 大语言模型(LLM)的最新突破。通过将大语言模型领域的优化进展迁移到计算机视觉领域,MuSGD 确保了训练过程的稳定性并加速了收敛速度。

6. 与竞争对手的比较

在实时目标检测领域,YOLO26 面临着来自其他先进模型的竞争:

  • RF-DETR:由 Roboflow 于 2025 年 3 月发布,支持分割、检测和分类任务。基准测试显示,RF-DETR 在跨领域泛化能力上优于 YOLO26,且适合边缘部署。
  • LW-DETR:发布于 2024 年 6 月,结合了 Vision Transformer (ViT) 和 DETR Decoder 的优势,通过多尺度特征表示提高了预测的准确性和鲁棒性,在准确性和推理速度上均超越了 YOLO11。
  • D-FINE:发布于 2024 年 10 月,引入了细粒度分布细化(FDR)机制,通过迭代细化边界框分布来提升定位精度,特别擅长检测小目标或重叠目标,同时保持实时性能。

值得注意的是,Ultralytics 官方并未发布关于 YOLO26 的正式研究论文。不过,康奈尔大学和堪萨斯州立大学的研究人员撰写了一篇题为《YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection》的论文,为理解该模型提供了有价值的参考资源。

关键要点

  • 多任务支持:YOLO26 是一个统一的多任务模型家族,涵盖检测、分割、姿态估计、OBB 和分类五大任务。
  • 端到端架构:通过移除 NMS 和 DFL 模块,实现了真正的端到端预测,降低了延迟并简化了部署流程。
  • 边缘优化:专为边缘计算设计,支持多种导出格式(TFLite, CoreML, OpenVINO, TensorRT, ONNX),兼容性强。
  • 性能提升:YOLO26-N 在 CPU 上的推理速度比 YOLO11-N 快 43%,适合无 GPU 设备。
  • 小目标增强:利用 ProgLoss 和 STAL 损失函数,显著改善了小目标的检测精度。
  • 新型优化器:引入受 LLM 启发而来的 MuSGD 优化器,提升训练稳定性和收敛速度。
  • 尺寸变体:提供 N、S、M、L、X 五种尺寸,用户可根据硬件约束在推理速度和检测精度之间进行权衡。

意义与影响

YOLO26 的发布标志着实时计算机视觉模型向更高效、更通用的方向迈出了重要一步。其移除 NMS 和 DFL 的设计哲学,反映了行业对简化推理管道、降低硬件依赖的迫切需求。通过直接输出预测结果,YOLO26 不仅减少了后处理带来的延迟,还提高了模型在复杂现实场景中的鲁棒性。

对于开发者而言,YOLO26 提供了更广泛的硬件兼容性,特别是其对 CPU 推理的优化,使得高性能视觉 AI 能够下沉到资源受限的 IoT 设备和边缘节点。这对于机器人、自动驾驶辅助、智能安防等对实时性和功耗有严格要求的应用场景具有深远影响。

尽管面临 RF-DETR、LW-DETR 等基于 Transformer 架构模型的激烈竞争,YOLO26 依然凭借其高效的参数利用率和极快的推理速度,确立了其在实时检测领域的领先地位。它证明了在保持高准确率的同时,通过架构简化实现极致性能是可行的。随着边缘计算需求的持续增长,YOLO26 有望成为构建下一代智能视觉系统的基础组件。

查看原文 →blog.roboflow.com