Segundo o Facebook, a aplicação da inteligência artificial não pode se limitar ao assistente virtual para fornecer algumas funções como voz ou texto, não só para entender a linguagem humana, mas também para interagir com o ambiente, para que possa ser utilizado para o cotidiano humano. A equipe FAIR usou uma câmera de 360 graus para capturar informações sobre a paisagem de cinco bairros de Nova York, incluindo Hell's Kitchen e East Village, em Manhattan. As características desses bairros são quadradas, com um típico layout de grade de cruzamento de quatro cantos. Uma situação em que se olha para um mapa e direciona outra pessoa através de uma mensagem.
O objetivo desta tarefa é guiar a orientação de passageiros AI AI para um local específico, os passageiros que utilizam AI câmera rua 360 graus é obtido, mas usando AI Assistente rotulado como restaurantes, hotéis e outros marcos em 2D vista do plano mapa, guia para a AI os mapas não podem ser compartilhados ambos os casos, os visitantes linguagem natural guia AI, AI passageiros chegar a seus destinos quando o experimento é longo, chegar ao lugar certo foi bem sucedida, chegou no lugar errado é um fracasso, o processo não limitar o número de comunicação AI e movimento de passageiros .
A equipa de investigação estudou AI humana deixar os jogadores de comunicação, por isso não há Google Maps Navigation, "Desça um quarteirão e vire à direita para o restaurante," a estrutura declaração de tal orquestrada. E a razão para a equipe em um ambiente real No experimento intermediário, o FAIR mencionou que, em comparação com o bloco da cidade real, o ambiente de simulação é geralmente menos caótico e mais previsível, por isso é difícil capturar o contexto real da aplicação.
O objetivo final do Talk the Walk é ajudar o computador a se comunicar claramente com os humanos.A equipe FAIR também adotou um novo mecanismo de estado de espírito, o MASC, que permite ao AI Wizard traduzir as informações dos viajantes da AI em um mapa 2D e prever A localização do viajante AI O mecanismo de foco é geralmente usado em aprendizagem profunda para simular a atenção dos seres humanos para sua própria aprendizagem.Macc se traduz em pontos de referência mapa de acordo com o estado de movimento de passageiros AI movendo para a esquerda ou para a direita. A compreensão semântica associa o mapa da navegação.
Talk the Walk alcança resultados mais concretos de comunicação em linguagem natural.Por exemplo, os viajantes de AI não apenas descreverão o restaurante na frente, mas fornecerão mais informações sobre o caminho a seguir.O guia do AI guia o sucesso dos viajantes de AI para o local correto. A taxa é de 87,07%, enquanto os seres humanos têm apenas 76,74. A FAIR mencionou que este é um resultado previsível, porque a linguagem natural tem suas deficiências, imprecisão e incerteza reduzem a eficiência da comunicação e a comunicação em linguagem natural entre os guias da IA e os viajantes da IA. Após um período de treinamento e ajuste, somente as palavras relacionadas à tarefa são geradas e a eficiência da comunicação é melhorada.