脸书认为, 人工智能的应用不能仅限于要虚拟助手提供一些语音或是文字等死背硬记的功能, 不只应该理解人类的语言, 还要能与环境互动, 如此才能对人类日常生活有所帮助. FAIR团队使用360度摄影机捕捉了包含曼哈顿的地狱厨房及东村等5个纽约街区街景信息. 这些街区的特性便是方方正正, 具典型四角街道交叉的网格布局, 并让AI仿真一个人看地图并透过讯息为另一个人指路的情境.
这个任务的目的是要AI向导指引AI旅客到特定的地点, AI旅客使用360度摄影机取得的街道图像, 而AI向导则使用标有像是餐厅, 旅馆等地标的2D俯视地图, AI向导要在两方地图不能共享的情况, 以自然语言指引AI旅客, 当AI旅客到达目的地则实验结束, 到达正确的地方则为成功, 抵达错误的地方则失败, 过程不限制通讯以及AI旅客移动的数量.
研究团队让AI学习了人类游戏玩家的沟通方式, 因此不会出现Google地图导航, 「前往下一个街区, 然后右转进入餐厅」这类精心安排的语句结构. 而研究团队之所以要在实际环境中实验, FAIR提到, 与实际城市的街区相比, 仿真环境通常不那么混乱且更具可预测性, 因此难以捕捉到真实的应用情境.
Talk the Walk的最终目的, 是要帮助计算机能够清晰的与人类互相沟通. FAIR团队还采用了新型态的专注机制MASC, 让AI向导将AI旅客的讯息, 翻译成2D的俯视地图, 并预测AI旅客的位置. 专注机制通常被用在深度学习, 以仿真人类关注自己的学习注意力一样. MASC根据AI旅客向左移动或是向右移动等移动状态, 转译成地图的地标, 透过语意理解将导航的地图相关联.
Talk the Walk实现了更多自然语言相互传达理解的具体成果, 例如AI旅客并不会仅描述前方有餐厅, 而是会多提供向前移动方式的讯息. AI向导指引AI旅客到达正确位置的成功率达87.07% , 而人类只有76.74, FAIR提到这是可预期的结果, 因为自然语言有其缺点, 含糊与不确定性会降低沟通的效率, AI向导与AI旅客之间的自然语言沟通, 是经过一段时间训练微调后, 仅产生与任务有关 的词语, 沟通效率才有提升.