臉書認為, 人工智慧的應用不能僅限於要虛擬助手提供一些語音或是文字等死背硬記的功能, 不只應該理解人類的語言, 還要能與環境互動, 如此才能對人類日常生活有所幫助. FAIR團隊使用360度攝影機捕捉了包含曼哈頓的地獄廚房及東村等5個紐約街區街景資訊. 這些街區的特性便是方方正正, 具典型四角街道交叉的網格布局, 並讓AI模擬一個人看地圖並透過訊息為另一個人指路的情境.
這個任務的目的是要AI嚮導指引AI旅客到特定的地點, AI旅客使用360度攝影機取得的街道映像, 而AI嚮導則使用標有像是餐廳, 旅館等地標的2D俯視地圖, AI嚮導要在兩方地圖不能共用的情況, 以自然語言指引AI旅客, 當AI旅客到達目的地則實驗結束, 到達正確的地方則為成功, 抵達錯誤的地方則失敗, 過程不限制通訊以及AI旅客移動的數量.
研究團隊讓AI學習了人類遊戲玩家的溝通方式, 因此不會出現Google地圖導航, 「前往下一個街區, 然後右轉進入餐廳」這類精心安排的語句結構. 而研究團隊之所以要在實際環境中實驗, FAIR提到, 與實際城市的街區相比, 模擬環境通常不那麼混亂且更具可預測性, 因此難以捕捉到真實的應用情境.
Talk the Walk的最終目的, 是要幫助計算機能夠清晰的與人類互相溝通. FAIR團隊還採用了新型態的專註機制MASC, 讓AI嚮導將AI旅客的訊息, 翻譯成2D的俯視地圖, 並預測AI旅客的位置. 專註機制通常被用在深度學習, 以模擬人類關注自己的學習注意力一樣. MASC根據AI旅客向左移動或是向右移動等移動狀態, 轉譯成地圖的地標, 透過語意理解將導航的地圖相關聯.
Talk the Walk實現了更多自然語言相互傳達理解的具體成果, 例如AI旅客並不會僅描述前方有餐廳, 而是會多提供向前移動方式的訊息. AI嚮導指引AI旅客到達正確位置的成功率達87.07% , 而人類只有76.74, FAIR提到這是可預期的結果, 因為自然語言有其缺點, 含糊與不確定性會降低溝通的效率, AI嚮導與AI旅客之間的自然語言溝通, 是經過一段時間訓練微調後, 僅產生與任務有關 的詞語, 溝通效率才有提升.