Démonstration

À droite, un robot idiot (qui joue au hasard) ou un robot intelligent (qui connait déjà la stratégie gagnante) enseigne au robot qui apprend.

Le robot de gauche apprend en éliminant un choix qui s'est avéré perdant.

Accélération du rythme et des affichages possible pour faire des statistiques avec le curseur rapidité à plus de 10.

Ralentir à moins de 10 pour mieux voir les choix des robots et les différentes étapes.

Sur les torses des robots, on peut voir le nombre de parties que chacun gagne.

À la fin de l'apprentissage, le robot de gauche annonce en combien de parties il est devenu intelligent.

Ce qui est très intéressant pédagogiquement ici, c'est de se rendre compte que l'IA peut apprendre la stratégie gagnante en seulement 25 parties (en moyenne) si elle joue contre le robot intelligent (donc en perdant très souvent au début) alors qu'il lui faut 75 parties (en moyenne) si elle joue contre le robot idiot (donc en gagnant par hasard assez souvent au début).

Ce choix entre les deux robots de droite doit être fait en entrant dans le code du programme.

CONCLUSION : il faut se tromper pour apprendre mieux et plus rapidement (du moins pour cet algorithme ; ce n'est pas forcément généralisable à tous les problèmes d'apprentissage artificiel).