Apprentissage par comparaisons de paires : deux sont suffisantes, une non
1 : LPSM
(LPSM)
* : Auteur correspondant
CNRS : UMR8001
Je discuterai une méthode d'apprentissage d'apprentissage par renforcement ou d'urne aléatoire pour résoudre le problème suivant. Étant donné un jeu de type pierre/feuille/ciseaux, comment déterminer la stratégie gagnante. Une méthode où l'apprentissage est fait sur la base de deux comparaisons converge presque surement tandis qu'une méthode plus simple utilisant une seule comparaison ne converge pas toujours.