Il y a un peu moins de deux mois, la filiale de Google battait sa propre intelligence artificielle AlphaGo avec une nouvelle version AlphaGo Zero. Comme nous l'avions alors expliqué, elle utilisait de l'apprentissage par renforcement et non plus supervisé. Pour résumer, l'IA ne connaît au début que les règles et elle va ensuite jouer des millions de parties contre elle-même pour « apprendre ».
Dans une publication scientifique, DeepMind présente une nouvelle version plus générale baptisée AlphaZero. Avec un seul algorithme, elle « peut atteindre, tabula rasa, des performances surhumaines dans de nombreux domaines difficiles ». En ne connaissant que les règles et en jouant des millions de parties contre elle-même, AlphaZero « a atteint en 24 heures un niveau de jeu surhumain aux échecs et shogi (échecs japonais), ainsi qu'au jeu de Go ».
DeepMind ouvre ainsi de nouveaux horizons à son intelligence artificielle, mais nous sommes toujours très (très) loin d'une IA forte. De plus, elle est toujours développée par des humains et se cantonne à des tâches très limitées (quelques jeux de société pour le moment).
Commentaires (8)
#1
AlphaZero a battu Stockfish, un des meilleurs programmes d’échecs sur 100 parties, ce qui est incroyable parce que jusque là on croyait que les algorithmes d’évaluation conçus par des humains étaient bien plus adaptés que ceux utilisés par AlphaGo et compagnie.
Notez que la configuration matérielle utilisée sur les deux machines n’est pas comparable (processeur(s) pour Stockfish, matériel spécialisé pour AlphaZero)
AlphaZero analysait 1000 fois moins de positions par seconde de Stockfish, et donc on pourrait dire qu’il a acquis une meilleure « compréhension » du jeu que les programmes actuels (qui sont basés sur les connaissances et idées humaines).
#2
Je vois pas ce qu’il y a d’incroyable, c’est plutôt évident comme résultat. Quand on brute force toutes les possibilités de raisonnements, on fini par trouver mieux que ce qu’a pu faire un humain, c’est inévitable.
Par contre on sait pas quelle puissance a été mise en jeu pour l’apprentissage. Ils parlent quand même de 41 millions de parties pour l’apprentissage final, donc sans compter celles de réglage. C’est vraiment bourrin comme méthode !
Et tout ça bien sur avec un carcan de règles très précises et exhaustives écritent par des humains, rendant l’intérêt concret de cette “prouesse” assez difficile à voir… Qu’ils arrivent à ne serait-ce que récolter du minerai efficacement dans SC2 (jeu à information partielle, donc sans règles exhaustives) et on en reparle de ces algo révolutionnaires !
#3
#4
#5
Le “brute force”, c’est plutôt la phase d’apprentissage (quand deepmind joue des milliards de parties avec lui-même).
Une fois que le réseau de neurone est entraîné, la prise de décision est sans doute assez rapide…
Pas besoin de passer dans toutes les combinaisons possibles, “deepmind juste sait”!
#6
#7
#8
Comme dit au dessus, ce n’est pas du brute force. Avant il fallait calculer un max de positions avec de la puissance de calcul, la plus besoin d’autant d’effort.
je joue régulièrement aux échecs et certaines parties jouées sont presques “humaines” , par exemple perdre un pion au début pour avoir l’avantage de l’activité pendant la partie.. Juste ouf