IA AlphaZero : DeepMind vise plus large que le jeu de Go

IA AlphaZero : DeepMind vise plus large que le jeu de Go

IA AlphaZero : DeepMind vise plus large que le jeu de Go

Il y a un peu moins de deux mois, la filiale de Google battait sa propre intelligence artificielle AlphaGo avec une nouvelle version AlphaGo Zero. Comme nous l'avions alors expliqué, elle utilisait de l'apprentissage par renforcement et non plus supervisé. Pour résumer, l'IA ne connaît au début que les règles et elle va ensuite jouer des millions de parties contre elle-même pour « apprendre ».

Dans une publication scientifique, DeepMind présente une nouvelle version plus générale baptisée AlphaZero. Avec un seul algorithme, elle « peut atteindre, tabula rasa, des performances surhumaines dans de nombreux domaines difficiles ». En ne connaissant que les règles et en jouant des millions de parties contre elle-même, AlphaZero « a atteint en 24 heures un niveau de jeu surhumain aux échecs et shogi (échecs japonais), ainsi qu'au jeu de Go ».

DeepMind ouvre ainsi de nouveaux horizons à son intelligence artificielle, mais nous sommes toujours très (très) loin d'une IA forte. De plus, elle est toujours développée par des humains et se cantonne à des tâches très limitées (quelques jeux de société pour le moment).

Commentaires (8)


AlphaZero a battu Stockfish, un des meilleurs programmes d’échecs sur 100 parties, ce qui est incroyable parce que jusque là on croyait que les algorithmes d’évaluation conçus par des humains étaient bien plus adaptés que ceux utilisés par AlphaGo et compagnie.

Notez que la configuration matérielle utilisée sur les deux machines n’est pas comparable (processeur(s) pour Stockfish, matériel spécialisé pour AlphaZero)

AlphaZero analysait 1000 fois moins de positions par seconde de Stockfish, et donc on pourrait dire qu’il a acquis une meilleure « compréhension » du jeu que les programmes actuels (qui sont basés sur les connaissances et idées humaines).


Je vois pas ce qu’il y a d’incroyable, c’est plutôt évident comme résultat. Quand on brute force toutes les possibilités de raisonnements, on fini par trouver mieux que ce qu’a pu faire un humain, c’est inévitable.



Par contre on sait pas quelle puissance a été mise en jeu pour l’apprentissage. Ils parlent quand même de 41 millions de parties pour l’apprentissage final, donc sans compter celles de réglage. C’est vraiment bourrin comme méthode !



Et tout ça bien sur avec un carcan de règles très précises et exhaustives écritent par des humains, rendant l’intérêt concret de cette “prouesse” assez difficile à voir… Qu’ils arrivent à ne serait-ce que récolter du minerai efficacement dans SC2 (jeu à information partielle, donc sans règles exhaustives) et on en reparle de ces algo révolutionnaires !








Bejarid a écrit :



Je vois pas ce qu’il y a d’incroyable, c’est plutôt évident comme résultat. Quand on brute force toutes les possibilités de raisonnements, on fini par trouver mieux que ce qu’a pu faire un humain, c’est inévitable.




Par contre on sait pas quelle puissance a été mise en jeu pour l'apprentissage. Ils parlent quand même de 41 millions de parties pour l'apprentissage final, donc sans compter celles de réglage. C'est vraiment bourrin comme méthode !      






Et tout ça bien sur avec un carcan de règles très précises et exhaustives écritent par des humains, rendant l’intérêt concret de cette "prouesse" assez difficile à voir... Qu'ils arrivent à ne serait-ce que récolter du minerai efficacement dans SC2 (jeu à information partielle, donc sans règles exhaustives) et on en reparle de ces algo révolutionnaires !







Je pense que tu n’as pas vraiment compris.



L’algorythme de Google (AlphaZero) nécessite justement 1000x moins de simulations par coups (et donc s’éloigne du bruteforce) relativement aux techniques basées sur l’études de parties humaines.



La phase d’apprentissage est logiquement également beaucoup plus rapide que les systèmes dominants jusqu’à présent.

 









wagaf a écrit :



L’algorythme de Google (AlphaZero) nécessite justement 1000x moins de simulations par coups (et donc s’éloigne du bruteforce) relativement aux techniques basées sur l’études de parties humaines.





Source exacte ? Car pour le coup, j’ai l’impression que c’est toi qui a mal compris le communiqué de DeepMind.



De ce que je sais, leur auto-apprentissage n’a pas battu l’apprentissage sourcé, il a battu un algo sans apprentissage (qui était jusqu’a maintenant le meilleur).



 Le “brute force”, c’est plutôt la phase d’apprentissage (quand deepmind joue des milliards de parties avec lui-même).



Une fois que le réseau de neurone est entraîné, la prise de décision est sans doute assez rapide…

 

Pas besoin de passer dans toutes les combinaisons possibles, “deepmind juste sait”!








Bejarid a écrit :



Je vois pas ce qu’il y a d’incroyable, c’est plutôt évident comme résultat. Quand on brute force toutes les possibilités de raisonnements, on fini par trouver mieux que ce qu’a pu faire un humain, c’est inévitable.



Tout en n’y connaissant rien à la programmation aux Échecs, intuitivement je pensais que les réseaux de neurones bien adaptés pour le traitement des formes ne le seraient pas au jeu d’Échecs qui est beaucoup plus tactique.



Jusqu’à présent, l’évaluation d’une position dans les programmes (go, échecs) était basée sur des théories faites par des humains (ex: 2 tours valent environ une dame; quand les pions sont alignés verticalement c’est faible; etc…). Maintenant, avec les réseaux de neurones, le programme « sait » (mieux que nous humains) quand une position est bonne ou pas, mais à ce que je sache il n’y a pas de système pour nous l’expliquer et l’enseigner. Donc demain si demain des systèmes nous disent « la meilleure option pour vous est de faire ça », on pourra juste y croire ou pas, mais pas connaître la raison du raisonnement.





Groupetto a écrit :



 Le “brute force”, c’est plutôt la phase d’apprentissage (quand deepmind joue des milliards de parties avec lui-même).



Une fois que le réseau de neurone est entraîné, la prise de décision est sans doute assez rapide…

 

Pas besoin de passer dans toutes les combinaisons possibles, “deepmind juste sait”!



Pour une position donnée, AlphaZero ne peut pas déterminer lequel des coups autorisés donne la meilleure position, il recherche plus loin dans les coups suivants en testant des parties aléatoires (algo de Monte Carlo), donc il a tout de même besoin d’effectuer de nombreuses évaluations. Le fait qu’il évalue beaucoup moins de positions (donc il teste moins de coups dans le futur) que les programmes classiques veut dire que sa fonction d’évaluation est vraiment meilleure.









Fabimaru a écrit :



Tout en n’y connaissant rien à la programmation aux Échecs, intuitivement je pensais que les réseaux de neurones bien adaptés pour le traitement des formes ne le seraient pas au jeu d’Échecs qui est beaucoup plus tactique.



 

L’auto-apprentissage est grosso-modo adapté à tous les cas où on peut clairement établir les règles, tel que les échecs ou le go. Par contre ce n’est pas le cas de la reconnaissance de forme, qui elle se fait par apprentissage supervisé. Même si les deux sont des réseaux de neurones, leur processus de création est opposé.







Fabimaru a écrit :



Donc demain si demain des systèmes nous disent « la meilleure option pour vous est de faire ça », on pourra juste y croire ou pas, mais pas connaître la raison du raisonnement.





Théoriquement il sera toujours possible de “lire” le réseau de neurone qui est derrière le raisonnement menant au résultat donné, le problème étant la complexité potentiellement monstrueuse et donc le temps irréaliste qu’une telle lecture impliquerait.

 





Fabimaru a écrit :



Le fait qu’il évalue beaucoup moins de positions (donc il teste moins de coups dans le futur) que les programmes classiques veut dire que sa fonction d’évaluation est vraiment meilleure.





Comme le dit bien Groupetto, l’évaluation du meilleur coup à faire pour s’ouvrir les meilleures perspectives est simplement décalé au moment de l’apprentissage, où les meilleurs évaluations sont stockées sous forme d’un réseau de neurone qui sera ensuite utilisé lors l’exécution.



Autrement dit, au lieu d’utiliser un algo “mathématique” pour déterminer au coup par coup quelle est la meilleure branche d’évènements à suivre, on se sert d’une “mémoire intelligente” qui ressort un résultat calculé précédemment, calcul qui lui n’a pas eu à prendre la tête avec les considérations de performance qu’un algo coup par coup aurait du (30 min entre deux coup, etc.).



Comme dit au dessus, ce n’est pas du brute force. Avant il fallait calculer un max de positions avec de la puissance de calcul, la plus besoin d’autant d’effort.

je joue régulièrement aux échecs et certaines parties jouées sont presques “humaines” , par exemple perdre un pion au début pour avoir l’avantage de l’activité pendant la partie.. Juste ouf


Fermer