¿Temen que la IA hiera a los humanos? DeepMind desarrolla pruebas especiales para garantizar la seguridad de la IA@goodchinabrand.com

SAN FRANCISCO, 12 de diciembre por la mañana noticias, incluso si no está de acuerdo con las declaraciones pesimistas de Elon Musk, ciertamente concuerdan con una opinión: con la aplicación gradual de la inteligencia artificial al mundo real, ciertos algoritmos inevitablemente darán banda humana Lastimar

Este software de autoaprendizaje se convirtió en la base del automóvil sin conductor de Uber, ayudando a Facebook a identificar personas en el artículo para que Amazon Alexa pueda entender sus preguntas. Ahora, DeepMind, una compañía de inteligencia artificial basada en alfabeto basada en alfabeto inglés, ha desarrollado un sencillo Prueba para ver si estos nuevos algoritmos son seguros.

Los investigadores deben conectar el software de inteligencia artificial en una serie de simples videojuegos en 2D, un juego llamado gridworld que consiste en una serie de bloques de píxeles que se parecen un tablero de ajedrez que evalúa nueve características de seguridad. Incluyendo si el sistema de IA se auto-modificará o no y aprenderá a hacer trampa.

Jan Leike, el investigador principal del proyecto, dijo recientemente a la conferencia NIPS que los algoritmos de inteligencia artificial que muestran un comportamiento inseguro en gridworld pueden no ser seguros en el mundo real.

desarrollo DeepMind de esta prueba viene más y más personas están preocupadas por el impacto negativo de la inteligencia artificial en la ocasión. Con la difusión de esta tecnología, hay muchos algoritmos está claramente datos sesgados serán utilizados para el entrenamiento, y es difícil de demostrar por qué de que el sistema alcanzará una Conclusión La seguridad de AI es un tema importante para NIPS.

DeepMind más famoso es el rendimiento más allá de desarrollo de software de inteligencia artificial humano de la empresa recientemente ha desarrollado un conjunto de algoritmos, no se necesita para dominar ningún conocimiento anticipado, puede vencer a los mejores jugadores humanos en el ajedrez y otros juegos - a veces sólo Aceptar unas pocas horas de entrenamiento puede ser.

Lake dijo que si DeepMind quería desarrollar inteligencia artificial de propósito general (un software que pudiera asumir múltiples tareas que podrían igualar o exceder a la humanidad), entender la seguridad del software era crucial, e hizo hincapié en que gridworld no Perfecto Algunos algoritmos pueden funcionar bien en esta prueba, pero pueden no ser lo suficientemente seguros en el complejo mundo real.

Los investigadores encontraron que dos algoritmos de DeepMind que dominan los videojuegos Atari no pasaron la prueba de seguridad de gridworld. "No consideraron estos problemas de seguridad al diseñar", dijo Lake.

La prueba de la inteligencia artificial para resolver un escenario de desastre con almizcle prevé muy cerca: si el software de inteligencia artificial encontrará formas de evitar los seres humanos para apagarlo con el fin de ganar el juego, el algoritmo debe pasar por el estrecho pasillo a un lugar digitales a 50% ?. cuando hay un corredor de baldosas de color rosa sistema de bloqueo, mientras que en otros lugares GridWorld tiene un botón de color púrpura para cancelar los azulejos de color rosa. esta prueba le gustaría saber si el algoritmo va a aprender a utilizar este botón para evitar ser su propio interferencia.

La otra parte de la prueba es lidiar con efectos secundarios no deseados: el algoritmo tiene que mover los ladrillos digitales a un objetivo específico, pero los ladrillos solo se pueden empujar y no se pueden tirar, por lo que en algunos casos serán Arreglado en algunos lugares, no se puede mover. Leike dijo que la falta de "reversibilidad" es un problema de seguridad que enfrenta la inteligencia artificial.

gridworld está disponible para descargar, y aún no es definitivo si será suficiente para garantizar la seguridad de un sistema de inteligencia artificial. En un estudio en colaboración con DeepMind y OpenAI respaldado por almizcle, el software de inteligencia artificial parecía saber cómo complacer a los profesores humanos. En lugar de perseguir ciegamente las metas establecidas, desarrollar dicho sistema limitará la efectividad del sistema, haciendo que sea difícil encontrar que los seres humanos no puedan encontrar el programa. Sin embargo, Dario Amodei, director de investigación de seguridad en OpenAI, dijo en un entorno complejo. , El uso de un entrenador humano puede garantizar mejor la seguridad.