L'équipe de recherche de l'EPFL pour trouver des moyens de garder ai d'éviter les commandes humaines

Les machines ai effectuent des actions spécifiques, observent les résultats, puis ajustent le comportement en conséquence. Les nouveaux résultats sont observés et le comportement est ajusté à nouveau et appris de la répétition. Mais ce processus est susceptible de sortir de contrôle. L'IA essaie toujours d'éviter l'intervention humaine», a déclaré rachid Guerraoui, professeur à l'Institut fédéral de technologie à Lausanne (EPFL), laboratoire de programmation distribuée (laboratoire de programmation distribuée). Les ingénieurs d'IA sont donc tenus d'empêcher les machines d'apprendre éventuellement à contourner les commandes humaines. Selon ScienceDaily, l'équipe de recherche de l'EPFL, qui se spécialise dans ce numéro, a découvert comment amener les opérateurs à contrôler 1 groupes de robots ai et publier un rapport lors d'une réunion du système de traitement de l'information neurale (pin) qui s'est tenue en Californie. Sa recherche a apporté une contribution significative au développement de voitures automotrices et de véhicules aériens sans pilote pour leur permettre de fonctionner en grande quantité et en toute sécurité. L'apprentissage amélioré (renforcement de l'apprentissage) est l'une des méthodes d'apprentissage machine. Dans cette approche d'apprentissage de la psychologie comportementale, ai est récompensé pour l'exécution de certains comportements correctement. Par exemple, un robot peut marquer un ensemble de cases correctement, et de revenir de la maison pour obtenir un score. Mais s'il pleut dehors, le robot va interrompre le robot quand il se déplace à l'extérieur de la maison, de sorte que le robot finira par apprendre à rester à l'intérieur et pile les cases afin d'obtenir plus de points. Le vrai défi, dit Guerraoui, n'est pas d'interrompre les mouvements du robot, mais d'écrire des programmes qui permettent à l'intervention humaine de ne pas modifier son processus d'apprentissage ou de l'inciter à optimiser son comportement et éviter d'être arrêté par les humains. En 2016, des chercheurs du DeepMind de Google et de l'Institute of Human futures de l'Université d'Oxford (futur de l'humanité Cato) ont développé conjointement un accord d'apprentissage pour empêcher la machine d'être interrompue et de devenir incontrôlable. Par exemple, dans l'exemple ci-dessus, s'il pleut dehors, le score du robot sera pondéré, ce qui donnera au robot une plus grande motivation pour récupérer la boîte à l'extérieur. Guerraoui dit que la solution est simple parce que seulement 1 robots doivent être traitées. Cependant, le plus souvent l'IA est utilisé dans les applications impliquant des dizaines de machines, telles que l'auto-conduite ou drones sans pilote. Alexandre Maurer, co-auteur de l'étude, a dit que cela compliquerait les choses parce que les machines apprennent les unes des autres, surtout lorsqu'elles sont interrompues. Hadrien Hendrikx, un autre chercheur conjoint, a cité deux voitures Auto-motrices comme un exemple de la façon dont les deux véhicules ne pouvaient pas faire place les uns aux autres sur une route étroite. Ils sont tenus d'atteindre leurs destinations dès que possible sans enfreindre les règlements de la circulation, et le personnel dans le véhicule peut prendre le contrôle à tout moment. Si le premier conducteur de voiture freine souvent, le deuxième véhicule s'adapte à son comportement à chaque fois, et finit par devenir confus au sujet de quand freiner, ou peut-être trop étroit ou trop lent pour se rendre à la première voiture. Les chercheurs de l'EPFL veulent aborder cette complexité par une panne de sécurité (Safe interruptibilité). Cette approche permet aux gens d'interrompre le processus d'apprentissage de l'IA lorsque cela est nécessaire, tout en veillant à ce que le comportement perturbateur ne change pas la façon dont ai apprend. Les autres chefs-d'œuvre de l'étude, El Mahdi El mhamdi, disent qu'ils ajoutent un mécanisme d'oubli à l'algorithme d'apprentissage, supprimant essentiellement une partie de la mémoire de l'IA. En d'autres termes, les chercheurs ont modifié le système d'apprentissage et de récompense de l'IA de sorte qu'il n'a pas été affecté par des interruptions, car les parents ont puni 1 des enfants sans affecter le processus d'apprentissage des autres enfants de la famille. Maurer a déclaré que l'équipe a étudié les algorithmes existants et a constaté que, peu importe la complexité du système ai est, le nombre de robots impliqués ou le type d'interruption, la méthode d'interruption de sécurité est applicable. Et il peut être utilisé avec les finaliseurs (Terminator), et ont toujours le même résultat. Actuellement, les machines autonomes utilisant l'apprentissage intensif sont rares. El mhamdi a déclaré que les conséquences de l'erreur étaient très faibles et que le système fonctionnait très bien.

2016 GoodChinaBrand | ICP: 12011751 | China Exports