Audio To Expression 是一种设备上的 AI 模型,它仅通过麦克风音频输入即可生成合理的面部肌肉运动,无需任何面部跟踪硬件即可提供估计的面部表情。
2015 年推出的早期 Oculus Lipsync SDK 仅提供唇部运动功能,而 Meta 的 Audio To Expression 是其官方替代品,还提供脸颊、眼睑和眉毛运动功能。值得注意的是,Meta 声称 Audio To Expression 使用的 CPU 比 Oculus Lipsync 更少。
Audio To Expression 支持 Quest 2、Quest 3 和 Quest 3S。它在技术上也支持 Quest Pro,不过这款耳机有面部跟踪传感器,开发人员可以利用这些传感器来呈现佩戴者的真实面部表情,而不仅仅是估计。
在下面的视频中,可以看到在相同输入的情况下,Audio To Expression 和旧版 Oculus Lipsync SDK 之间的明显差异。
除了提高非 Pro Quest 用户在社交 VR 和多人游戏中驱动的角色的真实感之外,Audio To Expression 还可用于 NPC 面部,这对于无法使用面部捕捉技术的小型工作室和独立开发商非常有用。
Meta 自己的 Meta Avatars 目前还不支持 Audio To Expression(它们仍然使用 Oculus Lipsync SDK),但它们确实具有模拟眼球运动的功能,其中开发人员根据视觉显著性水平标记场景中的每个虚拟对象,以及偶尔的眨眼以增加真实感,因此它们不仅限于嘴唇运动。
来源:uploadvr