← 返回信息流
AI 资讯Hacker News·2 小时前

10Gb/s以太网切换至Broadcom SFP+模块

原标题:10Gb/s Ethernet: switching to a Broadcom SFP+ module

速览

本文主要讨论在10Gb/s以太网部署中,将现有网络模块切换为Broadcom SFP+模块的技术方案。Broadcom作为核心芯片供应商,其SFP+模块在兼容性和性能上具有显著优势。这一切换有助于提升网络连接的稳定性和数据传输效率。

AI 深度解读

10Gb/s 以太网:从 Marvell 芯片转向 Broadcom SFP+ 模块的散热与稳定性实践

背景

作者早在今年四月就将家庭局域网(LAN)升级至 10Gb/s 速率。由于墙内布线为 CAT-6 或类似规格,最初不得不使用 10GBASE-T(电口)标准。目前,作者使用的路由器(代号 reggie)和书房中的交换机(代号 nigel)均通过 SFP+ 插槽提供 10Gb/s 连接。这意味着需要插入支持 10GBASE-T 的 SFP+ 光模块(即电口模块)才能完成连接。

然而,这类 10GBASE-T SFP+ 模块以发热量大而闻名,有时甚至因过热而无法正常工作。在路由器 reggie 上,模块运行状况尚可(参考作者之前发布的图表),但在书房交换机 nigel 上的模块温度却高达 93°C,令人担忧。作者曾尝试为其贴上迷你散热片,虽略有改善,但随着天气转热,该模块最终因过热而失效。

故障表现为典型的“链路震荡”(flapping):温度升至约 95°C 触发模块自我保护机制而关闭,冷却后重新启用,随后温度再次升高,循环往复。这导致书房彻底失去互联网访问权限。虽然开启空调可以暂时缓解,但为了维持网络运行而 24/7 开启空调显然不是可持续的解决方案。因此,作者决定更换为功耗更低、散热更好的 SFP+ 模块。

核心内容

1. 芯片组的选择:Marvell vs. Broadcom 在作者最初关于 10Gb/s 升级的 Hacker News 帖子中,用户 xxpor 指出 10GBASE-T SFP+ 模块主要分为两代:早期使用 Marvell 芯片的模块,以及较新使用 Broadcom 芯片的模块。ServeTheHome 论坛用户 blunden 也持相同观点。已知 Marvell 基芯片的模块发热严重,因此社区建议寻找基于 Broadcom 芯片的模块。

作者确认其交换机 nigel 中安装的 MikroTik S+RJ10 模块确实基于 Marvell 芯片,因此更换方案明确:购买基于 Broadcom 芯片的替代品。

2. 模块采购与安装 作者在 Amazon 上选购了 10Gtek ASF-10G-T80-INT 模块。查阅 10Gtek 官方页面确认,该模块采用 Broadcom BCM84891 PHY 芯片,遵循 IEEE 802.3an/az 和 SFP+ MSA 标准,支持 CAT.6a 或 CAT.7 线缆上最高 80 米的传输距离,并宣称具有超低功耗(1.6W @ 10Gbps 30m,2.0W @ 10Gbps 80m)特性。

安装过程颇具挑战。由于原有 MikroTik 模块的卡扣难以拆卸,作者参考了 YouTube 上 Willie Howe 的视频才成功移除旧模块。新模块插入后,交换机重启,网络恢复连接。

3. 监控数据的异常与 EEPROM 欺骗 网络恢复后,作者检查监控数据时发现温度读数消失。此前,作者通过 SNMP OID .1.3.6.1.4.1.14988.1.1.19.1.1.6.3 从交换机读取模块温度并发送至 InfluxDB/Grafana。新模块未返回数据,推测其可能在不同的 OID 上发布数据,或者根本不支持温度上报。

作者登录交换机 nigel(MikroTik RouterOS 系统)查看模块详细信息:

[admin@Nigel] > /interface ethernet monitor sfp-sfpplus1 once
...
sfp-vendor-name: Intel Corp
sfp-vendor-part-number: FTLX8571D3BCV-IT
...
sfp-connector-type: LC
sfp-wavelength: 850nm
sfp-link-length-om1: 30m
sfp-link-length-om2: 80m
sfp-link-length-om3: 300m

结果显示,该模块在 EEPROM 中“伪装”成了 Intel 品牌的光纤模块(LC 接口,850nm 波长,多模光纤距离参数)。这并不罕见,因为 SFP+ 模块存在兼容性列表(Q-list)问题,第三方模块常通过修改 EEPROM 来欺骗交换机,使其认为模块是兼容的。作者购买的是“Intel 兼容”版本,因为找不到“MikroTik 兼容”版本,且研究认为 Intel 兼容版通常能正常工作。

4. 结果验证 尽管无法直接读取温度,但作者通过两个指标验证了更换模块的成功:

  • 链路稳定性:更换模块已过去两周,期间未再出现链路震荡,尽管上周经历高温天气。
  • CPU 温度对比:对比交换机 nigel 在更换模块前后两周的 CPU 温度,发现 6 月底更换后,CPU 温度下降了约 5°C。虽然新模块的热耦合特性(将热量传导至 SFP+ 插槽和交换机 CPU 的比例)可能与旧模块不同,但这结合链路稳定性的提升,足以证明此次升级是成功的。

关键要点

  • 10GBASE-T SFP+ 模块的散热痛点:早期基于 Marvell 芯片的 10GBASE-T SFP+ 模块普遍存在过热问题,可能导致链路震荡(Flapping)和设备宕机。
  • Broadcom 芯片的优势:基于 Broadcom 芯片(如 BCM84891)的新一代模块通常具有更低的功耗和更好的热性能,是解决过热问题的有效替代方案。
  • 兼容性陷阱与 EEPROM 欺骗
    • 交换机厂商(如 MikroTik)通常有严格的模块兼容性列表。
    • 第三方模块(如 10Gtek)常通过修改 EEPROM 信息(Vendor Name, Part Number)来伪装成其他品牌(如 Intel、MikroTik)以绕过兼容性检查。
    • 这种伪装可能导致模块报告错误的物理层参数(如将电口模块报告为光纤模块),但这通常不影响其基本电气功能。
  • 监控数据的局限性:不同芯片组或不同“伪装”身份的模块,其 SNMP OID 支持情况可能不同。作者遇到的新模块未提供温度数据,导致无法通过原有监控体系直接观测温度。
  • 间接验证有效性:当直接监控数据缺失时,可以通过链路稳定性(无震荡)和系统整体热环境变化(如 CPU 温度下降)来间接评估硬件更换的效果。

意义与影响

  • 家庭/小型企业网络优化的实用指南:对于追求万兆内网但受限于铜缆布线的用户,本文提供了从 Marvell 转向 Broadcom 芯片模块的具体路径,解决了常见的过热稳定性问题。
  • SFP+ 模块生态的复杂性:揭示了 SFP+ 模块市场中“兼容性列表”与“第三方模块”之间的博弈。用户需理解 EEPROM 欺骗是行业常态,只要功能正常,不必过分纠结于模块报告的厂商信息是否真实。
  • 监控系统的局限性:提醒网络管理员,硬件更换可能导致监控指标(如温度 OID)的变化,需要重新评估监控策略,或接受通过间接指标(如系统负载、链路状态)来评估硬件健康度。
  • 能效与散热管理:在紧凑的设备(如家用交换机)中,低功耗芯片不仅能提升自身稳定性,还能改善整个系统的散热环境,降低对主动冷却(如空调)的依赖,符合绿色计算的趋势。
查看原文 →gilesthomas.com