Método Q-Learning aplicado a Procesos de Decisión de Markov

Ponente(s): Ruy Alberto López Ríos, Hugo Adán Cruz Suárez

El presente trabajo se encuentra relacionado con la teoría de Procesos de Decisión de Markov (PDMs). En una primera etapa se presenta el problema de control y se aborda la técnica básica de solución, la cual se denomina programación dinámica. Posteriormente, se observan las limitantes que presenta esta técnica para la solución del problema de control. De este modo se procede a estudiar métodos de aproximación basados en refuerzo por aprendizaje (Q-Learning). La aplicación de métodos por refuerzo de aprendizaje tiene ventaja sobre otras técnicas debido a la capacidad de manejar grandes dimensiones sobre el espacio de estados y acciones. Dicho procedimiento se ejemplifica en un PDM con espacio de estados y acciones finito.