Alpha Zéro

La technique évolue il est intéressant d’en avoir une vue d’ensemble, voici un article l’explicitant., pour les accrocs de technologie et les curieux…

Il n’en demeure pas moins de privilégier le jeu entre joueurs, et en tant que club d’accompagner les adhérents et de décliner le jeu sous toutes ses formes.

Bonne lecture à vous. source: opportunités-technos.com

Les IA jouent désormais aux échecs entre elles. Visiblement désœuvrés depuis la victoire d’AlphaGo en mai 2017, les programmeurs de DeepMind, la filiale IA de Google, ont continué à développer le réseau neuronal de leur intelligence artificielle sur les trois jeux de stratégies complexes que sont les échecs, le shogi (échecs chinois) et le go. Leur nouveau champion toutes catégories est Alpha Zéro et il enthousiasme la communauté des joueurs. Certains vont même jusqu’à dire qu’il a un style de jeu intuitif et personnel.

Nouvelle étape dans la programmation par les données.

Le machine learning est une branche de la recherche en intelligence artificielle et désigne la capacité pour un programme d’apprendre seul, par les données, grâce à des structures logicielles de réseau neuronal.

Souvenez-vous, en mai 2017, AlphaGo avait battu le champion du monde de go, jeu largement plus complexe que les échecs.

Mais les chercheurs avaient continué leurs développements et créé AlphaGo Zero, le même genre de logiciel mais basé sur l’apprentissage automatique. Celui-ci était devenu le nouveau champion du monde. C’était la consécration pour les programmes de machine learning. Plus personne ne pouvait leur résister et une nouvelle avalanche d’articles sur la toute-puissance de l’IA et ses menaces.

Le machine learning est une branche de la recherche en intelligence artificielle et désigne la capacité pour un programme d’apprendre seul, par les données, grâce à des structures logicielles de réseau neuronal.

D’où l’idée de la filiale de Google de développer une version généraliste de la dernière IA utilisée pour le go, qu’ils renommèrent pour l’occasion Alpha Zero.

Chose faite en décembre dernier avec l’apparition d’Alpha Zero. Aujourd’hui, le modèle est validé suite à la publication d’un article dans Nature.

L’IA qui avait appris toute seule

Dans le cadre de cette IA, c’est donc l’apprentissage automatique qui est exploré.

Les programmeurs ne lui ont ainsi fourni que deux éléments : la règle de chaque jeu et la possibilité de jouer contre elle-même. Alors que les IA classiques sont entraînées sous la supervision d’humains, celle-ci a tout appris toute seule à partir de millions de parties.

Au départ, elle jouait de manière absolument aléatoire. Mais, au fur et à mesure des victoires et des défaites, son réseau neuronal a engrangé les stratégies pour gagner. Dans le jargon de la programmation IA, on appelle cela de la programmation par renforcement.

Pour faire simple, une récompense est attribuée au logiciel lorsqu’elle gagne et elle est donc encouragée à aller dans cette direction.

chess ia

Courbe d’apprentissage d’Alpha Zero face à StockFish. En environ 200 000 parties, elle atteint son niveau. A partir de 400 000, Alpha Zéro gagne systématiquement ou presque. Source : Google Deepmind.

Pas de manuel ici donc, ni de maître à penser, contrairement à Stockfish et Deep Blue, les précédents champions du monde échiquéen, qui sont fondés sur des milliers de règles façonnées à la main par d’excellents joueurs humains.

Autre point très intéressant, en ce qui concerne la prise de décision, AlphaZero n’a pas besoin de traiter autant de données que StockFish.

Alors que pour décider de son mouvement, StockFish examine 60 millions de coups, Alpha Zéro se contente d’en examiner 60 000. Et pourtant il gagne…

Un style de jeu non conventionnel

Ce que notent les observateurs, c’est qu’au-delà du fait qu’Alpha Zéro batte à plat de couture les IA championnes du monde, elle développe un style de jeu peu conventionnel.

Aux échecs par exemple, elle vise surtout le contrôle du plateau et la menace du roi adverse. Elle n’hésite pas à sacrifier des pièces tôt dans la partie, si cela lui donne un avantage important sur le long terme.

Ce genre de choix est largement en opposition avec la théorie des échecs modernes où des valeurs sont attribués aux pièces et où le fait de posséder plus de matériel que son adversaire est réputé vous donner l’avantage.

Ainsi l’IA impose son style de jeu à l’adversaire. Matthew Sadler, grand maître britannique du jeu d’échecs, notait :

« C’est impressionnant, elle parvient à imposer son style de jeu dans un très large spectre d’ouvertures et de situations. […] Les moteurs classiques sont très forts et font très peu d’erreurs évidentes, mais dérapent face à des situations sans solution concrète et calculable. […] C’est exactement dans ce genre de situations que l’intuition des joueurs humains peut faire la différence. Alpha Zéro y excelle. »

A regarder les parties commentées sur Youtube, il est d’ailleurs notoire qu’Alpha Zéro n’aime pas les nuls et peut se mettre en danger alors que tout joueur expérimenté conclurait que la partie n’a pas d’issue. C’est ce que commente la chaine Blitzstream.

Natasha Regan, autre figure du jeu d’échecs, ajoutait qu’« il est fascinant de voir à quel point les analyses d’Alpha Zéro diffèrent de celles des moteurs traditionnels et de celles des grands maîtres. Alpha Zéro pourrait devenir un puissant outil d’apprentissage pour toute la communauté. »

L’IA, source de connaissance

Et si les IA pouvaient être créatives et sources d’enseignement pour les humains ? Voilà une idée bien loin des craintes sur la destruction d’emploi et la domination de l’espèce par sa créature…

Remettons cependant les choses à leur place. Ces trois jeux, pour complexes qu’ils soient, sont des systèmes au nombre de coups fini et où toute l’information est potentiellement disponible. De plus, la finalité est aisément exprimable. Pas de gris ici, c’est noir ou c’est blanc, vous avez gagné, vous avez perdu ou c’est un nul.

En revanche, conservons cette idée : les algorithmes de machine learning peuvent être source de nouvelles connaissances.

Une piste qui enthousiasme la communauté scientifique qui fait travailler de plus en plus d’IA sur des problèmes de recherche complexes comme la fusion nucléaire ou l’analyse du génome.