康奈尔大学的研究人员发明了一种耳机,可以通过观察脸颊的轮廓来连续跟踪完整的面部表情,然后可以将表情转换成表情符号或无声的语音命令。
“这种设备比任何现有的可佩戴在耳朵上的跟踪面部表情的技术更简单、更不显眼,也更有能力,”康奈尔大学科幻实验室(Cornell's SciFi Lab)主任张成表示,他也是这项研究成果的作者之一。
借助这款名为C-Face的耳挂设备,用户无需面对屏幕,就可以在线向他人发送消息。
张成表示,“在以前旨在识别面部表情的可穿戴技术中,大多数解决方案都需要在脸上安装传感器......即使安装许多仪器,其识别能力也很有限”。
该设备由两个微型RGB相机(用于捕捉红色、绿色和波段光)组成,位于耳朵下方,带有耳机或耳塞。摄像机记录面部肌肉运动引起的面部轮廓变化。
两款原型设备,可以清楚地看到两个摄像头
(图源:Cheng Zhang, Cornell University)
研究人员表示,面部轮廓对面部表情的信息量很大,当我们做出面部表情时,面部肌肉会伸展和收缩,它们推拉皮肤,影响附近面部肌肉的张力。这种效果会导致脸颊轮廓(轮廓)从耳朵的角度发生变化。
一旦图像被捕获,可以使用计算机视觉和深度学习模型对其进行重建。该模型将脸颊图像转换成42个面部特征点或标志,代表嘴、眼睛和眉毛的形状和位置,这些特征受表情变化的影响最大。
这些由42个特征点所表达的重构面部表情也可以被翻译成8个表情符号,包括“自然”、“愤怒”和“亲吻”。还可以作为控制音乐设备的命令,通过表情变化就能实现“播放”、“下一首”和“音量加”等功能。
由于疫情限制,研究人员只能在九名参与者身上测试该设备,其中还包括两名研究作者。他们将这款耳机的性能与最先进的计算机视觉库进行了比较,该库从正面摄像头捕获的全脸图像中提取面部标志,最后发现平均误差小于0.8毫米。
实验结果显示,表情识别的准确率超过88%,无声语音的准确率接近85%。
这一技术对于某些场景,比如在图书馆或其他共享工作空间中很是受用,不过研究人员也表示,这样的话使用者就不能看到对方的面部表情。
不过,这一技术目前还存在一些难题,两个摄像机的功耗过高,对这一设备的续航带来了较大影响,研究人员表示下一步将考法功耗更低的传感技术。