← 返回信息流
AI 资讯Hacker News·4 小时前

客厅智能电视正成为AI数据抓取经济的关键节点

原标题:The Smart TV in Your LivingRoom Is a Node in the AIScraping Economy

速览

随着AI模型对海量数据的需求激增,家庭智能电视正从单纯的娱乐设备转变为数据采集网络的关键节点。这一趋势引发了关于用户隐私、数据所有权以及AI训练伦理的广泛讨论。

AI 深度解读

客厅里的智能电视:AI 数据抓取经济中的关键节点

背景

在 Include Security 的工作日常中,我们与人工智能(AI)紧密相连:无论是破解、使用还是训练 AI 模型,这已成为我们生活的常态。

目前,公众对围绕数据中心建设以增强 AI 能力的社区级反对声音已相当熟悉。然而,你可能并不知晓的是,存在一种分布式的努力,旨在利用你家中的设备来训练 AI。

本文旨在探讨 Bright Data 公司如何通过其住宅代理网络(residential proxy network),协助现代 AI 模型从互联网上抓取并训练数据。Bright Data 是一家数据采集公司,它出售对其所谓“全球最大的住宅代理网络”的访问权限,该网络包含超过 4 亿个家庭 IP 地址,其客户通过该网络路由网页抓取流量。

该网络的供应来源是一个 SDK:一段嵌入在消费者应用中的软件。在获得用户同意后,它会将用户的手机或智能电视转化为这些出口节点之一。我们将记录普通用户应了解的关于该公司 SDK 在其系统(如手机和智能电视)上所做的工作,探索其 SDK 的工作原理、已搭载该 SDK 的平台,以及为何联网电视(Connected TV, CTV)是旨在抓取互联网数据进行训练的 AI 模型的终极代理。

核心内容

为什么现在这个问题至关重要?

AI 公司高度依赖网络抓取的内容,用于预训练、检索、智能体(Agent)定位以及搜索。然而,现代网页无法直接从数据中心进行抓取。Cloudflare、DataDome、HUMAN 等服务商会对来自已知云 IP 的请求进行限速或屏蔽。

解决方案是住宅代理(Residential Proxies)。通过 Comcast 或 T-Mobile 订阅者连接路由的抓取任务,其请求到达目标站点时,IP 地址归属于付费的住宅用户。Krebs 在 2025 年 10 月报道指出:“来自 Aisuru 和其他来源的大量代理正在推动与各种 AI 项目相关的大规模数据 Harvesting(采集)工作。”自 2019 年以来的学术测量显示,这些网络被滥用的情况极为普遍。美国联邦调查局(FBI)今年早些时候也发布了正式警告。

现有的新闻报道大多聚焦于非法的住宅代理供应:僵尸网络(如 Aisuru、Kimwolf)、特洛伊木马化的应用(HUMAN Security 披露的 PROXYLIB)以及预感染的物联网硬件(Google/Mandiant 查封的 IPIDEA)。这些是恶意行为者。

相比之下,合法的供应端受到的审查却少得多。如今,Bright Data 自称是全球最大的住宅代理网络,通过嵌入在合作伙伴应用中的同意 SDK 来源,宣传其拥有“1.5 亿+ IP”。本研究记录了该 SDK 的工作原理、搭载平台,以及为何联网电视是理想的住宅代理。

为什么联网电视(CTV)是理想的代理?

联网电视(即智能电视)是近乎完美的住宅代理。与手机相比:

  • 电视不会出现 1% 的电量警告。
  • 不会在 WiFi 网络之间跳跃。
  • 不会因为用户睡觉而锁定屏幕。

尽管一些合作伙伴出版商在其隐私政策中披露了与 Bright Data 的关系(例如 PlayWorks),但对于电视而言,隐私政策披露并非正确的控制面。通过遥控器箭头键导航阅读法律文件非常困难,且应用内的同意对话框无法传达这样一个事实:一位付费的 Bright Data 客户即将通过用户的家庭互联网路由其抓取流量。

Petflix(The Verge 报道过的一个 Roku 应用)为例,其代表案例显示:其选择加入屏幕写道:“为了免费享受更少的广告,您允许 Bright Data 偶尔使用您设备的空闲资源和 IP 地址从互联网下载公共网页数据。Bright Data 仅将您的 IP 地址用于批准的业务相关用例。除了您的 IP 地址外,不会访问或收集任何个人信息。完毕。”

Petflix 的对话框声称是“偶尔”,但 SDK 的可公开查询配置中设置了 max_bw_monthly_wifi: 200,000,000,000 字节——即默认每月 WiFi 流量预算为 200 GB

Bright Data 的合作伙伴名单

Bright Data 公开了一个合作伙伴清单端点(partner manifest endpoint)。该端点无需认证,任何人都可以获取。通过公共来源高置信度识别出的名单包括:

  • PlayWorks
  • CloudTV
  • Longvision

其他名称(如 desoline, free_time, ott_studio 等)存在但较难从公共来源识别。bright_screensaversbright_videosbrightdata 是 Bright Data 自己的应用。

关于合作伙伴列表的说明:

  • 被列入 Bright Data 的配置仅意味着集成可能在某个时间点存在,并不直接证明特定出版商当前发布的应用在生产环境中包含该 SDK。需要对每个命名的出版商进行逐应用验证。
  • 该列表直接证明:Bright Data 通过无需认证的公共端点分发此名单。
  • 至少三家专注于 CTV 的实体(PlayWorks、CloudTV、Longvision)将其用户的设备货币化为住宅代理出口节点。特别是 PlayWorks,其自身营销材料报告称,其 CTV 分发覆盖主要电视平台和 ISP,触达数亿家庭。

Bright Data SDK 如何将用户设备转化为住宅代理出口节点?

Bright Data SDK 是一个公开记录的商业产品,通过 Bright Data 的 SDK 集成文档提供给出版商(网页端有 JavaScript 变体)。以下发现基于对发货 iOS 框架的反编译以及对运行该 SDK 的合作伙伴应用 30 天运行时流量的仪器分析。

SDK 作为 iOS 框架(brdsdk.framework)嵌入在合作伙伴应用中。

1. 无需认证的配置获取

每次启动时,SDK 调用以下端点: GET https://clientsdk.bright-sdk.com/sdk_config_ios.json?appid=<bundle>&ver=<sdk-version>&uuid=sdk-ios-<32hex>

该端点在实质上无需认证。服务器仅根据两个查询参数进行门控:appid(应用包 ID,可在合作伙伴应用的 App Store 列表中找到)和 ver(SDK 版本字符串)。提供这些参数以及任何随机生成的 UUID,服务器就会返回与真实设备相同的响应:功能标志、空闲检测阈值(电池百分比、CPU/内存上限、WiFi 与蜂窝网络规则)、按国家/地区的带宽层级以及上述合作伙伴清单。

2. 对等隧道(Peer Tunnel)

获取配置后,SDK 打开一个持久化的 WebSocket 连接到: wss://proxyjs.brdtnet.com:443

该主机名解析为 AWS Global Accelerator IP(截至撰写时为 3.33.193.183, 15.197.193.114)。TLS 证书的 CN 为 *.luminatinet.com——这是 Luminati Networks 的域名,即 Bright Data 在 2018 年之前的公司名称。虽然 Bright Data 在 2018 年公开宣布更名,但活跃的 SDK 基础设施仍运行在旧证书上。这是一个有用的检测支点:当前面向客户的代理服务位于 brightdata.com 品牌域名上,因此网络上任何 luminatinet.combrdtnet.com 的流量 specifically 是对等隧道平面,而非客户侧的 Bright Data 使用。服务器自称为 uWebSockets: 20

对等端点无需认证即可升级。服务器接受任何 TLS 有效的 WebSocket 升级,并立即向连接的客户端推送一个应用层帧,回显客户端的公共 IP。随后握手展开:

  • Server → client: tunnel_init 建立会话,返回客户端的公共 IP。
  • Server → client: cid_set 服务器为客户端分配一个会话跟踪标识符,格式为 <IP>-<token>/ls<N>c<M>p443_<IP>_<counter>

关键要点

  • AI 数据依赖与代理需求:现代 AI 训练严重依赖网络数据,但由于 Cloudflare 等防护机制,数据中心 IP 难以直接抓取,迫使 AI 公司转向住宅代理。
  • 合法与非法供应的界限:虽然非法僵尸网络(如 Aisuru)常被报道,
查看原文 →blog.includesecurity.com