← 返回信息流
AI 资讯爱范儿·7 天前

科大讯飞发布首款40克AI眼镜,主打沉浸式翻译与多模态降噪

原标题:讯飞首款 AI 眼镜,用 40 克撬动 AI 工作流

速览

科大讯飞在澳门发布旗下首款AI眼镜,整机重量控制在40克,通过树脂镜片全贴合工艺实现轻量化。该产品以翻译为切入点,首发唇动识别降噪技术,利用视觉与听觉多模态融合,在嘈杂环境中显著提升语音识别准确率。此举旨在通过无感交互体验,推动AI眼镜从硬件竞争转向AI工作流能力的深度应用。

AI 深度解读

背景

2026 年上半年,AI 眼镜市场呈现“百镜齐放”的繁荣景象,华为、阿里千问、Rokid、雷鸟、小米等科技巨头,甚至老板电器、京东方等传统硬件厂商纷纷入局。尽管硬件参数(如重量、摄像头清晰度、显示屏素质)成为主要竞争维度,但行业面临严峻的用户留存危机。主流电商平台数据显示,AI 眼镜退货率普遍高达 30%,直播渠道甚至达到 40%-50%。用户往往因新鲜感下单,但在度过尝鲜期后,因缺乏持续使用的理由而选择退货。

在此背景下,科大讯飞发布了旗下首款 AI 眼镜。该产品并未在像素或全彩大屏等硬件参数上盲目内卷,而是将核心能力押注于“翻译”这一高频刚需场景,并试图以此为契机,构建从硬件感知到 AI 工作流的完整闭环,解决用户“戴上之后到底能帮我干什么”的核心痛点。

核心内容

讯飞首款 AI 眼镜以 40 克的极致轻量化为工程基础,通过多模态技术解决高噪场景下的翻译痛点,并依托 GlassClaw Agent 构建端到端的 AI 工作流,旨在将眼镜从单一的翻译工具升级为“眼前的超级 AI 助理”。

1. 极致轻量化与系统工程突破 在带显示屏的智能眼镜阵营中,讯飞 AI 眼镜以 40 克的重量实现了行业领先。对比 Meta Ray-Ban(49 克,无屏)、Rokid Glasses(49 克,带屏)及华为 AI 眼镜(35.5 克,无屏),讯飞在保留显示功能的同时做到了最轻。这一成绩源于对亚洲用户佩戴舒适阈值的精准把握(45 克为压迫感分水岭,40 克为舒适阈值)。团队通过替代传统玻璃镜片为树脂镜片,解决了全贴合工艺中的气泡与良率难题,单镜片减重 30%-40%;同时结合定制微型光机、低功耗芯片及算法-硬件深度耦合,实现了轻量化与续航的平衡。

2. 唇动识别降噪:多模态感知的核心突破 针对展会、酒会等 80-90 分贝的高噪场景,讯飞首发了“唇动识别降噪”技术。该系统利用前置摄像头锁定说话人嘴唇,配合 5+1 麦克风矩阵(5 颗气导+1 颗骨传导),通过视觉-音频融合算法,在多人混声中精准分离目标语音。这一技术源自讯飞在大型会议系统及汽车智能座舱中的多年积累,实现了“看谁翻谁”的效果,使高噪场景下的识别准确率提升 50% 以上,确保了翻译输入端的清晰度。

3. 端到端翻译与星火 X2 模型加持 在翻译能力上,眼镜支持 122 种语言实时互译,涵盖同声传译、面对面翻译、通话翻译及线上同传四种模式。不同于传统 ASR→MT→TTS 的串行架构,讯飞采用了端到端语音同传大模型,跳过文本中间步骤,实现“语音进、语音出”,首字响应时间压缩至 2 秒以内。云端由基于华为昇腾训练的 293B 参数 MoE 架构星火 X2 大模型提供支持。特别是在通话翻译场景中,眼镜可通过蓝牙挂载手机,实现音色克隆式的实时互译,并自动生成结构化会议纪要。

4. GlassClaw Agent 构建 AI 工作流 讯飞并未止步于翻译,而是通过 GlassClaw 智能体(Agent)将眼镜打造为“超级计算机”。该架构支持端-边-云三级协同:端侧负责环境感知,边缘侧做决策,云端星火 X2 处理复杂推理。用户可通过语音指令唤醒 Agent,完成调取通讯录、检索电脑资料、生成并发送邮件纪要、同步日历等跨端任务。此外,智能提词器功能升级为语义跟随模式,配合充电胶囊遥控器,实现了更自然的交互体验。

关键要点

  • 市场痛点与切入点:针对 AI 眼镜高退货率(30%-50%)和缺乏持续使用理由的现状,讯飞选择以“翻译”为入口,利用其在翻译机、同传领域积累的 100 万台销量和 42 万场会议经验,解决“物理中断”带来的交流尴尬。
  • 硬件工程极限:整机重量控制在 40 克,是亚洲用户长时间佩戴的“舒适阈值”。通过跑通全贴合树脂镜片工艺、采用 0.15CC 微型光机及低功耗芯片,实现了带屏智能眼镜的行业最轻重量。
  • 多模态降噪技术:首发“唇动识别降噪”,利用摄像头锁定唇部动作辅助麦克风阵列,在 80-90 分贝噪音环境下提升 50% 以上的识别准确率,解决商务场景下的听不清问题。
  • 端到端大模型架构:采用端到端语音同传模型,结合星火 X2(293B 参数 MoE 架构),将首字响应时间压至 2 秒内,实现低延迟、低语义损失的实时互译。
  • Agent 工作流闭环:通过 GlassClaw 和 AstronClaw 架构,打通“听、译、记、执行”全链路。支持第三方 Agent(OpenClaw)接入,实现从语音指令到跨设备任务执行(如发邮件、同步日历)的自动化工作流。
  • 竞争路径差异化:区别于 Meta Ray-Ban “做最好的眼镜,让 AI 成为加分项”的路径,讯飞选择“做更深的 AI 工作流,让眼镜成为新的电脑”,强调硬件工程与 AI 全栈能力的双重壁垒。

意义与影响

讯飞首款 AI 眼镜的发布,标志着 AI 硬件竞争从单纯的“参数内卷”转向“场景深耕”与“工作流整合”的下半场。

首先,它验证了“翻译”作为 AI 眼镜核心入口的可行性。通过解决高噪场景下的听译痛点,讯飞展示了硬件工程能力(轻量化、多模态降噪)与 AI 算法能力(端到端模型)结合的价值,证明了只有当 AI 能无缝融入物理世界交互时,用户才愿意长期佩戴。

其次,该产品重新定义了 AI 眼镜的角色定位。王玮指出,眼镜不是手机的配件,而是“架在鼻梁上的独立主机”。通过 GlassClaw Agent 构建的端-边-云协同架构,讯飞试图将眼镜打造为连接物理世界与数字世界的天然桥梁,实现从信息获取到任务执行的完整闭环。

最后,这一路径对行业具有示范意义。在 AI Pin 翻车、智能吊坠遇冷的背景下,讯飞选择了一条更难但更扎实的路:不追求炫技,而是通过全栈技术能力,将 AI 揉进高度细分的真实场景(如商务洽谈、跨国通话),让 AI 老老实实充当“牛马”处理琐碎任务。这种以用户体验和工作流效率为核心的竞争维度,可能成为未来 AI 硬件能否真正普及的关键分水岭。

查看原文 →ifanr.com