本视频打字输入系统基于TouchInsight,它能检测来自任何表面上所有十个手指的触摸输入,并完全基于视觉的手部跟踪。
仅通过头戴式摄像头可靠地检测触摸输入一直是一项长期的挑战。相机细节、手部自遮挡以及头部和手指的快速移动为触摸事件的确切位置带来了相当大的不确定性。
以前关于触摸输入解码的研究主要针对“用户错误”。但是,在基于摄像头的触摸估计中,此错误变得非常严重。
因此,现有方法无法实现稳健交互所需的性能。本视频中,提出了一个实时管道,它完全基于以自我为中心的手部跟踪,检测来自任何物理表面上所有十个手指的触摸输入。TouchInsight 包括一个神经网络,用于预测触摸事件的时刻、手指的接触和触摸位置。
TouchInsight 通过二元高斯分布来表示位置,以解决由于感知不准确而导致的不确定性,通过上下文先验来解决这些问题,以准确推断预期的用户输入。首先离线评估了方法,发现它定位了平均误差为 6.3 毫米的输入事件,并准确检测触摸事件 (F1=0.99) 并识别使用的手指 (F1=0.96)。然后,在在线评估中,展示了的方法对灵巧触摸输入的核心应用(双手文本输入)的有效性。在研究测试中,参与者每分钟打字 37.0 个单词,平均未更正错误率为 2.9%。
为了实现TouchInsight框架,现在可以在独立移动 MR 头戴式设备 (Quest 3) 上运行虚拟键盘上,并提供了一个基于纯视觉的十指文本输入系统。(目前还处于技术交流中,未公开给用户使用)