概述
今天的感知系统擅长于检测和标记个人互联网照片或视频中的物体。相反,第一人称或“以自我为中心”的感知需要理解持续的感觉数据(图像、视频、音频和运动),因为它流到一个人的可穿戴的头戴设备。它要求将多模态数据与物理环境、社会背景和人与物交互的3D理解相结合。此外,尽管今天的用户积极地拍摄照片——有意地将照片框起来以传递信息或捕捉记忆——可穿戴相机收集的图像却缺乏这种管理,这给试图理解它们的算法带来了更大的挑战。在这些对比的推动下,Facebook的人工智能组织了来自世界各地的13所大学和学术研究机构,开始了一个雄心勃勃的长期项目,名为“以自我为中心的现场4D感知”(Ego4D)。该项目旨在促进公司内外以自我为中心的研究。
基准
通过与这些大学和Facebook Reality Labs Research (FRL)的合作,Facebook AI发布了五个人工智能基准,这些基准是为学者、研究人员和开发人员共同开发的,以推动构建未来更有用的人工智能助手和家庭机器人所需的基础人工智能技术。
标准包括:
1、情景记忆:给定一个以自我为中心的视频和一个问题,情景记忆任务需要定位答案可以在用户过去的视频中看到的地方
2、手和物体:手和物体任务捕捉相机佩戴者如何通过使用或操纵物体来改变物体的状态
3、视听记录:视听记录基准由四个任务组成:1)在视场中定位和跟踪说话人,2)主动说话人检测,3)记录说话人的活动,4)转录讲话内容
4、社交互动:社交基准关注会话互动的多模式理解
5、预测:预测基准包括四项任务:1)运动预测,2)手部运动预测,3)短期物体交互预测,4)长期动作预测
Ego4D数据集
这一领域的进展需要大量的第一人称数据,这些数据具有在现实世界中有用的规模、多样性和复杂性。作为Ego4D的一部分,我们的大学合作伙伴收集了数千小时的第一人称无脚本视频数据,超过700名研究参与者捕捉了世界各地的数百个日常生活场景。参与者的年龄、人口结构和性别各不相同,跨越9个不同的国家,使用现成的头戴式摄像机设备。这些数据将在今年晚些时候提供给公共研究界。
作为这项工作的补充,来自Facebook Reality Labs的研究人员使用Vuzix Blade Glasses在我们的研究实验室的分阶段环境中收集了额外的400小时完全同意的第一人称视频数据。
以第一人称视角理解世界的人工智能可以开启沉浸式体验的新时代,因为AR眼镜和VR头显等设备在日常生活中变得与智能手机一样有用。想象一下,您的 AR 设备在鼓课期间准确显示如何握住鼓棒,指导您完成食谱,帮助您找到丢失的钥匙,或者将记忆作为全息图在您面前重现。
Facebook 首席研究科学家克里斯汀·格劳曼 (Kristen Grauman)表示:为了构建这些新技术,我们需要像我们一样从第一人称的角度教人工智能理解世界并与之互动——在研究界通常称为以自我为中心的感知。然而,今天的计算机视觉 (CV) 系统通常从以第三人称视角拍摄的数百万张照片和视频中学习,其中相机只是动作的旁观者。“下一代人工智能系统将需要从完全不同类型的数据中学习——从动作中心而不是边线展示世界的视频。
脸书人工智能宣布了Ego4D,这是一个雄心勃勃的长期项目,旨在解决以自我为中心的感知的研究挑战。我们召集了一个由来自9个国家的13所大学和实验室组成的联盟,他们在野外收集了超过2200小时的第一人称视频,700多名参与者参与了他们的日常生活。这极大地增加了研究社区可公开获得的以自我为中心的数据的规模,以小时为单位比任何其他数据集都要多20倍。Facebook通过向每一所参与的大学捐赠学术礼物来资助该项目。
通过与该联盟和 Facebook Reality Labs Research (FRL Research) 的合作,Facebook AI 还开发了五个以第一人称视觉体验为中心的基准挑战,这将推动未来 AI 助手向现实世界应用的发展。Ego4D 的五个基准是:
- 情景记忆:什么时候发生的?(例如,“我把钥匙放哪儿了?”)
- 预测:我接下来可能会做什么?(例如,“等等,你已经在这个食谱中加了盐。”)
- 手和物体操作:我在做什么?(例如,“教我如何打鼓。”)
- 视听分类:谁说了什么?(例如,“课堂上的主要话题是什么?”)
- 社交互动:谁在与谁互动?(例如,“帮助我在这家嘈杂的餐厅更好地听到那个人和我说话的声音。”)
这些基准测试将促进对开发更智能的 AI 助手所必需的构建块的研究,这些助手不仅可以在现实世界中理解和交互,还可以在元宇宙中进行理解和交互,在那里物理现实、AR 和 VR 都聚集在一个空间中。
这些数据集将于今年11月向签署Ego4D数据使用协议的研究人员公开。每个大学团队都有责任遵守他们自己的研究政策。该过程包括制定一项符合机构研究伦理委员会和/或审查委员会标准的研究方案,包括从参与者获得知情同意和/或视频发布的过程。
作为这项工作的补充,来自FRL的研究人员使用Vuzix Blade®智能眼镜在我们研究实验室的分阶段环境中收集了额外的400小时第一人称视频数据,并获得了被拍摄人员的书面同意。该数据也将公布。
通过我们对开放科学和研究的承诺,我们希望人工智能领域能够更快地推动以自我为中心的感知的进步。
为什么自我中心的感知是困难的
假设你要第一次坐过山车。除了肾上腺素激增,也许还有一些尖叫(希望是快乐的),从骑手的角度看,这个旅程与在地面上完全不同。
虽然人们很容易理解第一人称和第三人称视角,但今天的人工智能并不具备这种理解水平。把简历系统绑在过山车上,它很可能根本不知道自己在看什么,即使它是在观看从地面上观看的几十万张过山车图片或视频。
格劳曼说:“要让人工智能系统像我们这样与世界互动,人工智能领域需要进化成一种全新的第一人称感知模式。”“这意味着在实时运动、互动和多感官观察的背景下,教人工智能通过人眼理解日常生活活动。”
Ego4D项目的重点是为研究人员提供必要的工具和基准,以催化研究和推动以自我为中心的感知的前沿。
利用现实世界的数据集
历史证明,基准和数据集是人工智能行业创新的关键催化剂。毕竟,今天的CV系统,可以识别图像中的任何物体,是建立在数据集和基准之上的,例如MNIST、COCO和ImageNet,这些为研究人员提供了一个研究现实世界图像的试验台。
但以自我为中心的认知是一个全新的领域。我们不能用昨天的工具创造明天的创新。Ego4D前所未有的规模和多样性对于引领下一代智能人工智能系统至关重要。
为了建立这一史无前例的数据集,我们的每一所合作大学的团队都向研究参与者分发了现成的头戴式摄像机和其他可穿戴传感器,以便他们能够以第一人称、无脚本的方式拍摄他们日常生活的视频。他们专注于让参与者从日常场景中捕捉视频,如杂货店购物、做饭、玩游戏时聊天以及与家人和朋友参加其他小组活动。该视频集合捕捉了相机佩戴者在特定环境中选择注视什么,相机佩戴者用他们的手和面前的物体做什么,以及相机佩戴者如何从自我中心的角度与他人互动。到目前为止,该系列的特色在于,佩戴相机的人可以与数百个不同的物体进行数百项活动和互动。
在Ego4D的数据集中,参与者生活在英国、意大利、印度、日本、沙特阿拉伯、新加坡、哥伦比亚、卢旺达和美国,他们的年龄、职业和性别各不相同,都是自我确认的。与现有数据集相比,Ego4D数据集提供了更加多样化的场景、人物和活动,增加了针对不同背景、种族、职业和年龄人群训练的模型的适用性。
我们认为全球代表性对自我中心研究至关重要,因为自我中心的视觉体验在文化和地理环境中会有显著差异。例如,在未来,如果有人在烹饪时戴着AR眼镜,并要求人工智能助手指导他们烹饪咖喱,引线下的人工智能系统应该能够识别出,烹饪咖喱通常在不同地区看起来是不同的。
建立智能的自我中心感知
“与数据收集同等重要的是确定正确的研究基准或任务,”格劳曼说。“这个项目的一个重要里程碑是提炼出以自我为中心的智能感知,在这里我们回忆过去,预测未来,并与人和物体互动。”Ego4D的五个具有挑战性的新基准为研究人员提供了一个共同的目标,为视觉和社会环境的真实感知建立基础研究。
构建这些基准需要对我们的以自我为中心的数据集进行严格的注释。在这项大规模的标注工作中,Facebook的人工智能利用了训练有素的第三方标注员,为我们五个基准任务的算法进行训练和评估所需的数据进行标注。这意味着使用Facebook的Human-AI loop (Halo)注释平台,为此我们为这种类型的注释任务编写了特定的指导方针,并对工具本身进行了微调。我们收集了各种各样的标签类型,如密集的文本叙述,描述相机佩戴者的活动,对物体和动作的空间和时间注释,以及多模态语音转录。总共,我们转录了数千小时的视频,收集了数百万条注释,抽样标准涵盖了我们联盟中所有合作伙伴的视频数据,以确保结果数据集的多样性。因此,一旦Ego4D数据集在今年晚些时候发布,研究人员就可以很容易地使用它在我们的基准上构建和测试他们的模型。
以下是这些基准的细分,这些基准可能构成更有用的人工智能助手、机器人和其他未来创新的基础:
情景记忆:什么时候发生了什么?人工智能可以回答自由提问,并通过检索过去以自我为中心的视频中的关键时刻来扩展你的个人记忆。为此,模型必须在过去的视频帧中定位对查询的响应,并在相关时进一步提供环境中的3D空间方向。所以,如果你准备让你的父母和你的孩子呆在一起,你可以问你的人工智能助手或家庭机器人问题,比如“我把我孩子最喜欢的泰迪熊放在哪里了?”
预测:我接下来要做什么?人工智能可以理解佩戴者的行为如何影响世界的未来状态,比如这个人可能会移动到哪里,他们可能会触摸什么物体,或者他们接下来可能会进行什么活动。预测行动不仅需要认识到已经发生的事情,还需要展望未来,预测下一步行动。这将使未来的人工智能系统能够即时提供有用的指导。例如,当你准备拿盐瓶时,你的人工智能助手会向你的设备发送通知,说:“等等,你已经加盐了。”
手-对象交互:我在做什么,怎么做?学习手如何与物体互动对于指导和指导日常任务是至关重要的。人工智能必须检测第一人称人与物体的交互,识别物体的握持,并检测物体的状态变化。这种推动力也是由机器人学习驱动的,机器人可以通过视频中观察到的人的经验来间接获得经验。所以,当你在烹饪食谱时,你的人工智能助手可以指导你需要哪些配料,首先需要做什么,了解你已经做了什么,并指导你在每一捏和冲刺中。
视听日记:谁在什么时候说了什么?人类通过声音来了解世界,识别谁在什么时候说了什么。未来的人工智能也可以。如果你在一个很重要的课堂上,但因为孩子的保姆在同时发短信问你问题而心不在焉,之后你可以问:“教授把试卷交回来后,今天课堂上的讨论主要是什么?”
社会互动:我们如何互动?除了识别视觉和声音线索,理解社交互动是任何智能人工智能助手的核心。一个具有社交智能的人工智能会知道谁在和谁说话,谁在关注谁。所以,下次你在一个晚宴上,一个人工智能助手可以帮助你更好地关注在嘈杂的桌子对面和你说话的人在说什么。
下一个是“Ego4D”和”超越
我们刚刚开始触及自我中心知觉的表面。通过Ego4D项目,Facebook AI、FRL和大学联盟为学者和行业专家打造了一条全新的道路,以构建更智能、更互动、更灵活的计算机视觉系统。我们看到,在不远的将来,我们今天所做的研究可能会对我们的生活、工作和娱乐方式产生积极的影响。
随着人工智能对人们正常生活方式的深入理解,它可以开始以前所未有的方式将体验融入背景并个性化。
格劳曼说:“Ego4D让人工智能有可能获取植根于物理和社会世界的知识,通过生活在其中的人的第一人称视角收集信息。”“人工智能不仅将开始更好地了解周围的世界,有朝一日它可能在个人层面实现个性化——它可能知道你最喜欢的咖啡杯,或为你的下一次家庭旅行指导行程。”我们正在积极研究助手启发的研究原型,可以做到这一点。”“
通过Ego4D的基准和数据集训练支持的人工智能驱动功能,助手可以以独特和有意义的方式提供价值。通过增强记忆,AI助理可以帮助你回忆起关键的信息从最近的一次与你的同事交谈或者找到你的女儿去年离开了她自行车头盔,并提供实时补充技能指导你通过构建新的宜家家具或为您的宴会后新的食谱。我们相信,从这一工作体系中获得的价值和空间的持续进步将推动我们朝着这一未来现实前进。
今年晚些时候,大学联盟将出于许可协议允许的目的发布这些数据。
明年初,研究人员应该关注Ego4D研究挑战,该挑战邀请世界各地的人工智能专家来教机器理解我们日常生活活动的第一人称视角。
如果你正在参加2021年计算机视觉国际会议,请注册我们的以自我为中心的感知、交互和计算的全天研讨会10月17日,在那里你可以了解更多,问问题,并分享反馈。
Ego4D倡议的学术联盟包括以下主要研究人员(也称为主要研究人员):CV Jawahar (IIIT海德拉巴),David Crandall(印第安纳大学),Dima Damen(布里斯托尔大学),Giovanni Maria Farinella(卡塔尼亚大学),海州Li(新加坡国立大学),Kristen Grauman (Facebook AI), Bernard Ghanem (KAUST), Jitendra Malik (Facebook AI), Kris Kitani (CMU和CMU非洲),Aude Oliva(麻省理工学院),Hyun Soo Park(明尼苏达大学),Jim Rehg(佐治亚理工大学),Yoichi Sato(东京大学),Jianbo Shi(宾夕法尼亚大学),Antonio Torralba(麻省理工学院),Mike Zheng Shou(新加坡国立大学)和Pablo Arbelaez(洛杉矶安第斯大学)。