EPFL equipe de pesquisa para encontrar maneiras de manter ai de evitar comandos humanos@goodchinabrand.com

As máquinas de ai executam ações específicas, observam resultados e então ajustam o comportamento adequadamente. Os resultados novos são observados e o comportamento é ajustado outra vez e aprendido da repetição. Mas esse processo é susceptível de sair do controle. O ai sempre tenta evitar a intervenção humana, disse Rachid Guerraoui, um professor do Instituto Federal de tecnologia em Lausanne (EPFL) Distributed programação laboratório (Distributed Programming Laboratory). Os engenheiros de ai são, portanto, obrigados a evitar máquinas de eventualmente aprender a burlar os comandos humanos. De acordo com ScienceDaily, a equipe de pesquisa EPFL, que se especializa nesta edição, descobriu como obter operadores para controlar 1 grupos de robôs ai e publicar um relatório em uma reunião do sistema de processamento de informações neurais (mamilos) realizada na Califórnia. A sua investigação contribuiu significativamente para o desenvolvimento de automóveis automotrizes e de veículos aéreos não tripulados que lhes permitam correr em grande quantidade e com segurança. Aprendizagem aprimorada (aprendizagem de reforço) é um dos métodos de aprendizagem da máquina. Nesta abordagem de aprendizagem para a psicologia comportamental, ai é recompensado por executar certos comportamentos corretamente. Por exemplo, um robô pode marcar um jogo de caixas corretamente, e mover-se para trás da casa para começ uma contagem. Mas se chover lá fora, o robô vai interromper o robô quando ele se move para fora da casa, para que o robô, eventualmente, aprender a ficar em casa e empilhe as caixas, a fim de obter mais pontos. O verdadeiro desafio, diz Guerraoui, não é interromper os movimentos do robô, mas escrever programas que permitam a intervenção humana não mudar o seu processo de aprendizagem ou induzi-lo a otimizar o seu comportamento e evitar ser interrompido por seres humanos. Em 2016, pesquisadores da DeepMind do Google e do Instituto de futuros humanos da Universidade de Oxford (futuro da humanidade Cato) desenvolveram conjuntamente um acordo de aprendizado para evitar que a máquina fosse interrompida e se tornasse incontrolável. Por exemplo, no exemplo acima, se chover fora, a Pontuação do robô será ponderada, dando ao robô um maior incentivo para recuperar a caixa fora. Guerraoui diz que a solução é simples porque apenas 1 robôs precisam ser processados. Entretanto, mais frequentemente o ai é usado nas aplicações que envolvem dúzias das máquinas, tais como o Self-Driving ou os zangões não tripulados. Alexandre Maurer, co-autor do estudo, disse que complicaria as coisas porque as máquinas aprendem umas com as outras, especialmente quando interrompidas. Hadrien Hendrikx, outro pesquisador conjunto, citou dois carros automotrizes como um exemplo de como os dois veículos não poderiam dar lugar um para o outro em uma estrada estreita. Eles são obrigados a alcançar seus destinos o mais rapidamente possível, sem violar as regulamentações de tráfego, e os funcionários do veículo pode assumir o controle a qualquer momento. Se o primeiro motorista de carro muitas vezes freios, o segundo veículo se adapta ao seu comportamento de cada vez, e, eventualmente, torna-se confuso sobre quando a frear, ou talvez muito perto ou muito lento para chegar ao primeiro carro. EPFL pesquisadores querem abordar essa complexidade através de uma interrupção de segurança (interruptibilidade seguro). Esta abordagem permite que as pessoas a interromper o processo de aprendizagem ai, quando necessário, garantindo que o comportamento disruptivo não muda a forma como ai aprende. As outras obras-primas do estudo, El Mahdi El mhamdi, dizem que adicionam um mecanismo de esquecimento ao algoritmo de aprendizado, essencialmente removendo parte da memória do ai. Em outras palavras, os pesquisadores mudaram o sistema de aprendizado e recompensa ai para que não fosse afetado por interrupções, já que os pais puniram 1 das crianças sem afetar o processo de aprendizado de outras crianças na família. Maurer disse que a equipe estudou algoritmos existentes e descobriu que não importa quão complexo o sistema ai é, o número de robôs envolvidos ou o tipo de interrupção, o método de interrupção de segurança é aplicável. E ele pode ser usado com finalizadores (terminador) e ainda ter o mesmo resultado. Atualmente, máquinas autônomas usando aprendizado intensivo são incomuns. El mhamdi disse que as conseqüências do erro foram muito pequenas eo sistema funcionou muito bem.