Un pas vers des pilotes automatiques sûrs et fiables pour voler
Les images à télécharger sur le site Web du bureau MIT News sont mises à la disposition des entités non commerciales, de la presse et du grand public sous une licence Creative Commons Attribution Non-Commercial No Derivatives. Vous ne pouvez pas modifier les images fournies, sauf pour les recadrer à leur taille. Une ligne de crédit doit être utilisée lors de la reproduction d'images ; si aucune n'est fournie ci-dessous, créditez les images à « MIT ».
Image précédente Image suivante
Dans le film « Top Gun : Maverick », Maverick, interprété par Tom Cruise, est chargé de former de jeunes pilotes pour accomplir une mission apparemment impossible : faire voler leurs jets au plus profond d'un canyon rocheux, en restant si près du sol qu'ils ne peuvent pas être détectés. par radar, puis sortez rapidement du canyon sous un angle extrême, en évitant les parois rocheuses. Alerte spoiler : avec l'aide de Maverick, ces pilotes humains accomplissent leur mission.
Une machine, en revanche, aurait du mal à accomplir la même tâche palpitante. Pour un avion autonome, par exemple, le chemin le plus direct vers la cible est en conflit avec ce que la machine doit faire pour éviter d'entrer en collision avec les parois du canyon ou de ne pas être détectée. De nombreuses méthodes d’IA existantes ne sont pas en mesure de surmonter ce conflit, connu sous le nom de problème de stabilisation-évitement, et ne pourraient pas atteindre leur objectif en toute sécurité.
Les chercheurs du MIT ont développé une nouvelle technique capable de résoudre des problèmes complexes de stabilisation et d’évitement mieux que d’autres méthodes. Leur approche d'apprentissage automatique correspond ou dépasse la sécurité des méthodes existantes tout en offrant une stabilité décuplée, ce qui signifie que l'agent atteint et reste stable dans sa région cible.
Dans une expérience qui rendrait Maverick fier, leur technique a permis de piloter efficacement un avion à réaction simulé dans un couloir étroit sans s'écraser au sol.
« Il s’agit d’un problème difficile et de longue date. Beaucoup de gens l'ont étudié mais ne savaient pas comment gérer une dynamique aussi complexe et de grande dimension », explique Chuchu Fan, professeur adjoint Wilson d'aéronautique et d'astronautique, membre du Laboratoire des systèmes d'information et de décision (LIDS). ), et auteur principal d'un nouvel article sur cette technique.
Fan est rejoint par l'auteur principal Oswin So, un étudiant diplômé. L'article sera présenté lors de la conférence Robotics: Science and Systems.
Le défi stabiliser-éviter
De nombreuses approches s'attaquent à des problèmes complexes de stabilisation et d'évitement en simplifiant le système afin de pouvoir le résoudre avec des mathématiques simples, mais les résultats simplifiés ne résistent souvent pas à la dynamique du monde réel.
Des techniques plus efficaces utilisent l'apprentissage par renforcement, une méthode d'apprentissage automatique dans laquelle un agent apprend par essais et erreurs avec une récompense pour un comportement qui le rapproche d'un objectif. Mais il y a en réalité deux objectifs ici – rester stable et éviter les obstacles – et trouver le bon équilibre est fastidieux.
Les chercheurs du MIT ont divisé le problème en deux étapes. Premièrement, ils recadrent le problème de stabilisation-évitement comme un problème d’optimisation sous contrainte. Dans cette configuration, la résolution de l'optimisation permet à l'agent d'atteindre et de stabiliser son objectif, ce qui signifie qu'il reste dans une certaine région. En appliquant des contraintes, ils garantissent que l'agent évite les obstacles, explique So.
Ensuite, pour la deuxième étape, ils reformulent ce problème d’optimisation contrainte en une représentation mathématique connue sous le nom de forme épigraphe et le résolvent à l’aide d’un algorithme d’apprentissage par renforcement profond. La forme épigraphe leur permet de contourner les difficultés rencontrées par les autres méthodes lors de l’utilisation de l’apprentissage par renforcement.
« Mais l'apprentissage par renforcement profond n'est pas conçu pour résoudre la forme épigraphique d'un problème d'optimisation, nous ne pouvons donc pas simplement l'intégrer à notre problème. Nous avons dû dériver les expressions mathématiques qui fonctionnent pour notre système. Une fois que nous avons obtenu ces nouvelles dérivations, nous les avons combinées avec des astuces d’ingénierie existantes utilisées par d’autres méthodes », explique So.