Optimisation de politique proximale
De Wikipedia, l'encyclopédie encyclopedia
L'optimisation de politique proximale (PPO en anglais dans la littérature) est un algorithme dans le domaine de l'apprentissage par renforcement qui entraîne la fonction de décision d'un agent informatique à accomplir des tâches difficiles. PPO a été développé par John Schulman en 2017 [1] et était devenu l'algorithme d'apprentissage par renforcement par défaut de la société américaine d'intelligence artificielle OpenAI[2]. En 2018, PPO a remporté de nombreux succès, tels que le contrôle d'un bras robotique, la victoire contre des joueurs professionnels de Dota 2 et d'excellentes performances sur les jeux Atari[3]. PPO est considérée comme l'état de l'art dans les méthodes d'apprentissage par renforcement car elle allie performance et compréhension[réf. nécessaire]. Par rapport à d'autres algorithmes, les trois principaux avantages de PPO sont la simplicité, la stabilité et l'efficacité d’échantillonnage[4].
1. |
Apposez le bandeau sur les autres pages à fusionner : |
Utilisez ce texte :
|
---|---|---|
2. |
Important : ajoutez une section dans Pages à fusionner en motivant votre proposition. |
Pour créer la section : |
3. |
Pensez à informer les contributeurs principaux de la page et les projets associés lorsque cela est possible. |
Utilisez ce texte :
|
Une proposition de fusion est en cours entre Optimisation de politique proximale et Optimisation de Politique proximale.
Les avis sur cette proposition sont rassemblés dans une section de Wikipédia:Pages à fusionner. Les modifications majeures apportées, entre-temps, aux articles doivent être commentées sur la même page.
Vous venez d’apposer le modèle {{à fusionner}}, suivez ces étapes :
PPO est classé comme une méthode à gradient de politique pour former le réseau de la politique d'un agent. Le réseau est la fonction que l'agent utilise pour prendre des décisions. Essentiellement, pour trouver la politique appropriée au problème, PPO effectue une petite modification de la politique de référence (proportionnelle à la taille du pas), afin que l'agent puisse atteindre de manière fiable la solution optimale. Un pas trop important risque d’orienter la politique dans la mauvaise direction, avec ainsi peu de chances de recouvrement; un pas trop petit réduit l’efficacité algorithmique globalement. Par conséquent, PPO implémente un écrêtage qui empêche la mise à jour de la politique d'un agent d'être trop grande ou trop petite[4].