Equipo de investigación de la EPFL para encontrar maneras de evitar que la AI Evite los comandos humanos@goodchinabrand.com

Las máquinas AI realizan acciones específicas, observan los resultados y luego ajustan el comportamiento en consecuencia. Los nuevos resultados se observan y el comportamiento se ajusta otra vez y se aprende de la repetición. Pero es probable que este proceso se salga de control. La AI siempre trata de evitar la intervención humana, dijo Rachid Guerraoui, profesor del laboratorio de programación distribuida del Instituto Federal de tecnología de Lausana (EPFL). Por lo tanto, los ingenieros de AI están obligados a evitar que las máquinas eventualmente aprendan a eludir los comandos humanos. Según ScienceDaily, el equipo de investigación de la EPFL, que se especializa en este número, ha averiguado cómo hacer que los operadores controlen 1 grupos de robots AI y publicar un informe en una reunión del sistema de procesamiento de información neural (pellizcos) que se celebró en California. Su investigación ha hecho una contribución significativa al desarrollo de automóviles automotrices y vehículos aéreos no tripulados para permitirles correr en grandes cantidades y con seguridad. El aprendizaje mejorado (refuerzo de aprendizaje) es uno de los métodos de aprendizaje de la máquina. En este enfoque de aprendizaje de la psicología del comportamiento, AI es recompensado por realizar ciertos comportamientos correctamente. Por ejemplo, un robot puede anotar un conjunto de cajas correctamente, y volver de la casa para obtener una puntuación. Pero si llueve afuera, el robot interrumpe al robot cuando se mueve hacia el exterior de la casa, por lo que el robot eventualmente aprenderá a permanecer en el interior y apilar las cajas con el fin de obtener más puntos. El verdadero desafío, dice Guerraoui, no es interrumpir los movimientos del robot, sino escribir programas que permitan a la intervención humana no cambiar su proceso de aprendizaje o inducirlo a optimizar su comportamiento y evitar ser detenido por los humanos. En 2016, investigadores del DeepMind de Google y del Instituto de futuros humanos de la Universidad de Oxford (Future of Humanity Cato) desarrollaron conjuntamente un acuerdo de aprendizaje para evitar que la máquina se interrumpa y se vuelva incontrolable. Por ejemplo, en el ejemplo anterior, si llueve afuera, la puntuación del robot se ponderará, dándole al robot un mayor incentivo para recuperar la caja afuera. Guerraoui dice que la solución es simple porque sólo 1 robots necesitan ser procesados. Sin embargo, cuanto más a menudo la AI se utiliza en aplicaciones que implican docenas de máquinas, tales como Auto-conducción o drones no tripulados. Alexandre Maurer, coautor del estudio, dijo que complicaría las cosas porque las máquinas aprenden unas de otras, sobre todo cuando se interrumpen. Hadrien Hendrikx, otro investigador conjunto, citó dos coches automotrices como ejemplo de cómo los dos vehículos no podían dar paso el uno al otro en un camino estrecho. Están obligados a llegar a sus destinos lo antes posible sin violar las normas de tráfico, y el personal en el vehículo puede tomar el control en cualquier momento. Si el primer conductor de coche a menudo frena, el segundo vehículo se adapta a su comportamiento cada vez, y eventualmente se confunde acerca de Cuándo frenar, o quizás demasiado cerca o demasiado lento para llegar al primer coche. Los investigadores de la EPFL quieren abordar esta complejidad a través de una interrupción de seguridad (Safe interrumpibilidad). Este enfoque permite que las personas interrumpan el proceso de aprendizaje de AI cuando sea necesario, al tiempo que aseguran que el comportamiento disruptivo no cambia la forma en que la AI aprende. Las otras obras maestras del estudio, el Mahdi el mhamdi, dicen que añaden un mecanismo de olvido al algoritmo de aprendizaje, esencialmente eliminando parte de la memoria de la AI. En otras palabras, los investigadores cambiaron el sistema de aprendizaje y recompensa de AI para que no fuera afectado por interrupciones, ya que los padres castigaron a 1 de los niños sin afectar el proceso de aprendizaje de otros niños en la familia. Maurer dijo que el equipo estudió los algoritmos existentes y descubrió que no importa cuán complejo sea el sistema AI, el número de robots involucrados o el tipo de interrupción, el método de interrupción de seguridad es aplicable. Y se puede utilizar con finalizadores (Terminator), y aún así tener el mismo resultado. Actualmente, las máquinas autónomas que utilizan el aprendizaje intensivo son poco comunes. El mhamdi dijo que las consecuencias del error eran muy pequeñas y el sistema funcionó muy bien.