← 返回信息流
AI 资讯Hacker News·3 天前

研究揭示读唇时人们看到的内容

原标题:Study reveals what people see when they read lips

速览

新研究通过分析大脑活动,揭示了人们读唇时看到的视觉信息。研究发现,大脑会结合多种视觉线索来解读唇语。这一成果有助于理解语言处理机制,并可能改进辅助听力技术。

AI 深度解读

背景

堪萨斯大学(University of Kansas)的一项新研究利用网络科学(network science)来探究人们为何在唇读时会犯错。该研究由该校言语-语言-听力教授 Michael Vitevitch 主导,他与合作者创建了一个包含约 20,000 个英语单词的视觉地图,旨在理解为什么某些单词比其他单词更难通过唇读识别。研究结果发表在《美国声学学会杂志》(Journal of the Acoustical Society of America)上,相关发现有望改进唇读训练,并提升人工智能读取唇语、提供转录及其他数字服务的能力。

核心内容

Vitevitch 表示:“我们在这项研究中考察的是人们如何基本地读唇语、他们的准确度如何,以及更具体地说,他们犯了哪些类型的错误。”他指出,以往的许多研究只关注人们的准确率,而没有深入分析错误本身的特征。“从你所犯的错误中能学到很多东西,这正是我们采用的方法。”

以往关于唇读错误的研究大多由口语研究者进行,他们聚焦于音素(phoneme,即语言中的声音单位),并考察参与者猜出的词与实际发音词的接近程度。Vitevitch 则采取了不同的视角。“我们专注于视觉特征,”他说,“我们不是看人们猜对了单词的多少个音,而是看他们猜对了多少个视觉特征——我们称之为‘视素’(viseme,音素的视觉对应物)。我们关注的是仅从嘴唇、下巴和嘴巴获得的信息,不使用听觉声音。你只是试图从看到的东西中获取信息。”

他进一步解释:“当一个词被说出时,它的样子是怎样的?我们不在乎它听起来像什么;我们在乎它被说出来时看起来是什么样。有时单词听起来相似,看起来也相似,比如‘kit’、‘cat’和‘cut’。另一些时候单词听起来不同,但看起来仍然相似,比如‘vet’、‘fit’和‘fuzz’。在这两种情况下,如果你只看我的脸,你无法区分它们。”

通过分析单词地图,研究人员得出以下结论:

  • 人们更容易将一个词误认为是另一个更常用的词。
  • 在口语中,英语中约有三分之一的单词看起来至少与另一个单词相似。
  • 如果一个单词有许多视觉上的相似词,那么它始终更难被唇读。
  • 唇读错误并非随机发生——当视觉上相似的单词在视觉网络中占据同一区域时,错误更可能发生。

Vitevitch 说:“一个令人惊讶的发现是,人们并不擅长读唇语。我们以为自己很擅长,但实际上并非如此。大多数错误显示,你只差一两个视觉特征——一两个视素。你得到了相当多的信息,但可能不足以准确判断。”

研究人员的视觉地图让他们能够理解单词在整个景观中的分布。在地图中,看起来相似的单词彼此靠近,视觉上不相似的单词则相距较远。“某些区域变得比预期更密集,”Vitevitch 说,“这个景观以我们未曾预料的方式拉伸和压缩。这种拉伸和压缩对你唇读时的准确度有影响:它是否给你带来了更多的竞争对手?还是让事物之间的距离更远,使它们在感知上更易区分?”

关键要点

  • 错误分析比单纯准确率更有价值:以往研究只关注人们猜对了多少,而本研究通过分析错误特征(如差几个视素)揭示了唇读的认知机制。
  • 视觉特征(视素)是核心:研究聚焦于单词在视觉上的形状,而非发音相似性,发现许多单词虽然发音不同,但看起来几乎一样(如“vet”、“fit”和“fuzz”)。
  • 约三分之一的英语单词有视觉相似词:这意味着唇读时,每三个词中就有一个可能与其他词混淆。
  • 常用词更容易被误认:人们倾向于将目标词误认为是更常用的词,这可能是因为大脑优先激活高频词汇。
  • 视觉网络中的“压缩”区域增加误判:某些视觉相似词聚集在同一个区域,导致该区域内的单词辨认难度大增。
  • 人类唇读能力并不高:大多数错误仅差一两个视素,但这一差距足以造成误解。

意义与影响

这项研究对唇读训练和人工智能应用都有重要启示。Vitevitch 表示,团队希望将研究延伸至唇读训练领域。“思路是,如果你追踪人们随时间推移所犯的错误,这些错误应该逐渐向目标词收缩。人们不再远离目标,而是开始捕捉所需信息,做出更准确的猜测。”

另一个应用方向是自动转录系统的训练。“Zoom 这类系统已经能较好地进行语音转录,”Vitevitch 说,“如果它们不仅使用音频,还使用说话者面部的视觉信息,能否做得更好?计算机非常擅长发现模式,有时这些模式与人类使用的模式相同。我们或许可以训练计算机以更接近人类的方式行事。”

Vitevitch 表示,团队将继续以不同方式跟进这项工作:“我们正在继续探索人们如何做到这一点,可能走向机器学习应用,并寻找方法来帮助那些需要理解语音辅助的人。”

该研究的合作者包括堪萨斯大学研究生 Maia Flynn、Reid Kelly 以及加州州立大学弗雷斯诺分校的 Lorin Lachs。

查看原文 →news.ku.edu