Selon Facebook, l'application de l'intelligence artificielle ne peut se limiter à l'assistant virtuel pour fournir certaines fonctions comme la voix ou le texte, non seulement pour comprendre le langage humain, mais aussi pour interagir avec l'environnement. L'équipe FAIR a utilisé un appareil photo à 360 degrés pour capturer des informations sur le paysage de rue de cinq quartiers de New York, dont Hell's Kitchen et East Village à Manhattan. Une situation dans laquelle on regarde une carte et dirige une autre personne à travers un message.
Le but de cette tâche est de guider la direction des passagers AI AI à un endroit précis, les passagers en utilisant rue AI caméra à 360 degrés est obtenu, mais en utilisant AI Wizard étiquetés comme des restaurants, des hôtels et d'autres repères sur la carte de vue en plan 2D, guide à l'AI les cartes ne peuvent être partagés les deux cas, le guide des visiteurs en langage naturel AI, les passagers AI atteignent leur destination lorsque l'expérience est terminée, arriver au bon endroit a réussi, est arrivé au mauvais endroit est un échec, le processus ne limite pas le nombre de communication AI et le mouvement des passagers .
L'équipe de recherche a demandé à l'IA d'apprendre comment les joueurs humains communiquaient, donc il n'y aurait pas de structure de déclaration élaborée comme Google Maps Navigation, "Allez au bloc suivant, puis tournez à droite dans le restaurant." L'équipe de recherche était dans le monde réel. Dans l'expérience du milieu, FAIR a mentionné que, comparé au bloc de ville réel, l'environnement de simulation est généralement moins chaotique et plus prévisible, il est donc difficile de capturer le contexte réel de l'application.
L'objectif ultime de Talk the Walk est d'aider l'ordinateur à communiquer clairement avec les humains et à adopter un nouveau mécanisme d'état d'esprit, MASC, qui permet à l'assistant IA de traduire les informations des voyageurs AI en une carte 2D et de prédire L'emplacement du voyageur IA Le mécanisme de mise au point est généralement utilisé dans l'apprentissage en profondeur pour simuler l'attention des êtres humains à leur propre apprentissage.MASC traduit en points de repère de la carte en fonction de l'état mobile des passagers AI se déplaçant vers la gauche ou vers la droite. La compréhension sémantique associe la carte de la navigation.
Talk the Walk permet d'obtenir des résultats plus concrets de la communication en langage naturel: par exemple, les voyageurs d'IA décriront non seulement le restaurant en face, mais fourniront davantage d'informations sur la marche à suivre. Le taux est de 87,07%, alors que les humains n'en ont que 76,74. FAIR a mentionné que c'est un résultat prévisible car le langage naturel a ses limites, son imprécision et son incertitude réduiront l'efficacité de la communication et la communication en langage naturel entre les guides AI et AI. Après une période d'apprentissage et de mise au point, seuls les mots liés à la tâche sont générés et l'efficacité de la communication est améliorée.