- 今天,我们将介绍 SceneScript,这是一种用于重建环境和表示物理空间布局的新方法。
- SceneScript 使用 Aria Synthetic Environments 数据集进行模拟训练,该数据集可用于学术用途。
想象一下,一副时尚、轻巧的眼镜将情境化 AI 与显示屏相结合,可以在需要时无缝访问实时信息,并在您日常生活中主动为您提供帮助。为了让这样一副增强现实 (AR) 眼镜成为现实,系统必须能够理解物理环境的布局以及世界是如何在 3D 中塑造的。这种理解将使AR眼镜能够根据你和你的个人环境定制内容,比如将数字叠加与你的物理空间无缝融合,或者为你提供转弯方向,帮助你导航不熟悉的位置。
但是,构建这些 3D 场景表示是一项复杂的任务。当前的 MR 头显(如 Meta Quest 3)基于来自摄像头或 3D 传感器的原始视觉数据创建物理空间的虚拟表示。这些原始数据被转换为一系列形状,用于描述环境的不同特征,如墙壁、天花板和门。通常,这些系统依靠预定义的规则将原始数据转换为形状。然而,这种启发式方法往往会导致错误,尤其是在具有独特或不规则几何形状的空间中。
SceneScript 简介
今天,Reality Labs Research 宣布推出 SceneScript,这是一种生成场景布局并使用语言表示场景的新方法。
SceneScript 不是使用硬编码规则将原始视觉数据转换为房间建筑元素的近似值,而是经过训练,可以使用端到端机器学习直接推断房间的几何形状。
这导致物理场景的表示是紧凑的,将内存需求减少到只有几个字节;完整,产生清晰的几何图形,类似于可缩放的矢量图形;重要的是,可解释,这意味着我们可以轻松阅读和编辑这些表示。
如何训练 SceneScript?
像 Llama 这样的大型语言模型 (LLM) 使用一种称为下一个标记预测的技术进行操作,其中 AI 模型根据句子中的下一个单词来预测句子中的下一个单词。例如,如果您输入单词“猫坐在…”上,模型将预测下一个单词可能是“垫子”或“地板”。
SceneScript 利用了与 LLM 相同的下一个令牌预测概念。但是,SceneScript 模型不是预测通用语言标记,而是预测下一个体系结构标记,例如“墙”或“门”。
通过向网络提供大量训练数据,SceneScript 模型学习如何将视觉数据编码为场景的基本表示形式,然后将其解码为描述房间布局的语言。这允许 SceneScript 从视觉数据中解释和重建复杂的环境,并创建文本描述,以有效地描述它所分析的场景的结构。
然而,该团队需要大量数据来训练网络,并教它物理空间的典型布局方式,并且他们需要确保保护隐私。
这带来了独特的挑战。
在仿真中训练 SceneScript
虽然 LLM 依赖于大量训练数据,这些数据通常来自网络上一系列公开可用的文本源,但对于训练端到端模型所需的规模的物理空间,尚不存在这样的信息存储库。因此,Reality Labs Research 团队必须找到另一种解决方案。
SceneScript 团队没有依赖来自物理环境的数据,而是创建了一个室内环境的合成数据集,称为 Aria Synthetic Environments。该数据集包含 100,000 个完全独特的内部环境,每个环境都使用 SceneScript 语言进行描述,并配有遍历每个场景的模拟视频。
通过每个场景渲染的视频使用与 Project Aria 相同的传感器特性进行模拟,Project Aria 是 Reality Labs Research 用于加速 AI 和 ML 研究的眼镜。这种方法允许在隐私保护条件下对 SceneScript 模型进行完全模拟训练。然后,可以使用Project Aria眼镜的物理世界镜头对模型进行验证,从而确认模型泛化到实际环境的能力。
去年,我们向学术研究人员提供了Aria Synthetic Environments数据集,我们希望这将有助于加速这一令人兴奋的研究领域的公共研究。
扩展 SceneScript 以描述对象、状态和复杂几何图形
SceneScript 的另一个优势是它的可扩展性。
只需在描述Aria Synthetic Environments数据集中门的场景语言中添加一些附加参数,就可以训练网络以准确预测物理环境中门的打开或关闭程度。
此外,通过向建筑语言添加新功能,可以准确预测对象的位置,并进一步将这些对象分解为它们的组成部分。
例如,沙发可以在 SceneScript 语言中表示为一组几何形状,包括靠垫、腿和扶手。设计师最终可以使用这种细节水平来创建真正针对各种物理环境定制的 AR 内容。
加速 AR,推动 LLM 向前发展,并推动 AI 和 ML 研究的最新进展
正如卡内基梅隆大学在 2022 年所展示的那样,SceneScript 可以解锁 MR 头显和未来 AR 眼镜的关键用例,例如生成为视障人士提供分步导航所需的地图。
SceneScript 还为 LLM 提供了推理物理空间所需的词汇表。这最终可以释放下一代数字助理的潜力,为他们提供回答复杂空间查询所需的物理世界上下文。例如,有了对物理空间进行推理的能力,我们可以向聊天助手提出问题,比如“这张桌子能放进我的卧室吗?”或者“粉刷这个房间需要多少盆油漆?”无需找到卷尺,记下测量值,并尽最大努力用一些餐巾纸上的数学运算来估计答案,可以访问 SceneScript 的聊天助手可以在几分之一秒内得出答案。
我们相信,SceneScript代表了通往真正的AR眼镜道路上的一个重要里程碑,它将连接物理世界和数字世界。随着我们在 Reality Labs Research 深入研究这一潜力,我们对这种开创性方法将如何帮助塑造 AI 和 ML 研究的未来的前景感到兴奋。
来源:meta