Quand l’intelligence artificielle se prend au jeu


Publié le: 30 novembre 2017 par Atos

Avec le projet GuessWhat?!, une équipe d’Inria a montré la pertinence de dynamiser par le jeu l’apprentissage du langage naturel, un des problèmes clefs de l’intelligence artificielle. Une approche prometteuse que détaille Philippe Preux, responsable de l’équipe projet SequeL d’Inria et du CRIStAL (UMR CNRS), et professeur à l’Université de Lille 3.

À quelle problématique d’intelligence artificielle s’intéresse le projet GuessWhat?!

À l’origine de l’intelligence artificielle, il y a le rêve de créer des machines capables de se comporter comme les humains, donc de reproduire nos capacités les plus fondamentales. Parmi celles-ci figure le langage naturel, c’est-à-dire pouvoir comprendre et s’exprimer comme tout un chacun. C’est cette aptitude qu’évalue le fameux test de Turing. Et puis il y a la vision, en particulier la capacité à analyser le contenu des images, ce qui est naturel pour nous mais très complexe pour la machine. Comme tout le champ de l’IA, ces problématiques anciennes connaissent depuis quelques années des progrès spectaculaires notamment grâce à l’explosion des capacités de calcul. Désormais, il existe des systèmes, dits « end-to-end », capables d’enchaîner plusieurs tâches élémentaires. Pourtant, la partie dialogue, quand il y en a une, est souvent insatisfaisante et le postulat de GuessWhat?! est que cela tient à la méthode d’apprentissage employée.

Quelle est cette méthode d’apprentissage et quelle serait l’alternative ?

Les systèmes de dialogue se fondent en général sur un apprentissage dit supervisé, c’est-à-dire nourri par une base d’exemples réels desquels la machine saura déduire la réponse la plus probable. Cette approche suppose donc que toute phrase d’une conversation découle uniquement de celles qui la précèdent. Mais cela méconnaît l’influence du contexte ou la nécessité de parfois passer du coq à l’âne pour cerner un problème. Or, il existe une autre méthode qui apporte davantage d’adaptabilité et de créativité : l’apprentissage par renforcement. D’abord ignorant et désordonné, le système procède par essais successifs et apprend peu à peu de ses erreurs pour se rapprocher de son objectif. Cette approche étant en revanche très gourmande en temps de calcul, la tendance actuelle est d’utiliser une stratégie hybride avec, pour commencer, une phase d’apprentissage supervisé assez légère, de façon à orienter le système dans la bonne direction, puis un apprentissage par renforcement. Cela permet d’ancrer le système dans le réel tout en lui conservant une grande flexibilité. C’est ainsi qu’a été programmée AlphaGo, l’intelligence artificielle de Google DeepMind qui a battu le champion du monde de go en mai dernier. En revanche, sa dernière évolution, AlphaGo Zero, élimine de façon impressionnante cette première phase d’assimilation d’exemples.

« GuessWhat?! a obtenu la rare distinction d’être publié en 2017 lors de trois conférences de référence dans leurs domaines, CVPR pour la vision, IJCAI pour l’intelligence artificielle et NIPS pour l’apprentissage. »

L’idée de GuessWhat?! était donc d’utiliser l’apprentissage par renforcement pour un système de dialogue…

Exactement. Le pari consistait à supposer qu’il était possible d’apprendre le langage naturel de cette façon et ainsi d’obtenir un agent conversationnel beaucoup moins « mécanique », capable par exemple d’intégrer de nouveaux mots. Une originalité supplémentaire a été de se placer dans le cadre d’un système end-to-end qui donnait un objectif au dialogue : identifier un objet dans une image. L’apprentissage a ainsi pris la forme d’un jeu opposant deux agents. Le premier choisit l’objet mystère et répond aux questions du second qui doit trouver ce dont il s’agit. Leurs échanges s’effectuent en langage naturel si bien que, partie après partie, tous deux améliorent leur compréhension et leur façon de s’exprimer. En outre, celui qui cherche doit améliorer sa stratégie pour poser le moins de questions possibles. Pour cela, il va être amené à manipuler des concepts : la couleur de l’objet, sa position dans l’image… On poursuit ainsi deux objectifs en un.

Quels résultats avez-vous obtenus ?

Ils sont très positifs puisque l’objet est identifié dans 58 % des parties contre 90 % lorsque le jeu oppose des adversaires humains. Ce sont les meilleurs à ce jour dans ce type d’application et ils sont amenés à encore s’améliorer puisque le système continue de progresser. Signe du grand intérêt de ce travail, il a obtenu la rare distinction d’être publié en 2017 lors de trois conférences de référence dans leurs domaines, CVPR pour la vision, IJCAI pour l’intelligence artificielle et NIPS pour l’apprentissage. L’amorçage supervisé initial puis le renforcement par le jeu s’appuient sur un ensemble de données qui comporte quelques 134 000 objets dans plus de 66 000 images, et plus de 155 000 parties jouées par des humains, soit environ 800 000 questions/réponses. Ces volumes peuvent paraître importants mais ils sont infimes par rapport à ceux dont disposent par exemple les GAFA pour leurs propres projets d’intelligence artificielle.

« La possibilité d’employer des méthodes d’apprentissage fondées sur les données constitue un changement majeur pour l’intelligence artificielle. »

En quoi ce projet est-il représentatif des avancées actuelles de l’intelligence artificielle ?

La possibilité d’employer des méthodes d’apprentissage fondées sur les données constitue un changement majeur pour l’intelligence artificielle. Auparavant, on cherchait à résoudre les problèmes en les abordant de la façon dont nous pensions que procédait le cerveau humain ; maintenant, on programme les systèmes pour qu’ils sachent exploiter les données qui leur permettront d’atteindre leur objectif, sans préjuger du chemin qu’ils emprunteront. Ceci est évidemment rendu possible par l’explosion des moyens de calcul, tout comme la méthode appliquée par GuessWhat?! qui consiste à opposer un agent à lui-même. Au début des années 1990, un programme a appris a joué au backgammon de cette manière et, à l’époque, ce fut une révélation car cela permit de faire émerger des stratégies inconnues. Les interactions peuvent être moins pertinentes que lorsque l’un des joueurs est humain mais elles sont infiniment plus nombreuses, rapides et économiques. Et cela permet d’avancer à pas de géants.

Quelles applications peut-on imaginer pour ce programme et l’approche qu’il valide ?

Avec ce type de méthode, on peut envisager à relativement court terme des systèmes capables de dialoguer avec des humains de façon beaucoup plus dynamique et pertinente, que ce soit à l’écrit, par chat, ou à l’oral, via un serveur vocal. On peut par exemple imaginer une logique similaire de cheminement par questions/réponses pour les systèmes d’assistance lorsqu’ils diagnostiquent un problème. Ce principe pourrait aussi s’appliquer à de la vidéo afin de générer automatiquement des commentaires, de l’audiodescription pour les malvoyants ou une traduction simultanée. Plus généralement, l’apprentissage par renforcement possède un champ d’applications immense, les puissances de calcul actuelles ayant fait tomber une barrière importante qui limitait son usage. Et on voit désormais de très grandes entreprises investir massivement dans ce domaine.

Partager


Qui est Atos

Partenaire de Confiance de votre Transformation Digitale


Suivre ou contacter Groupe