En este capitulo veremos como aprenden los agentes en ambientes mucho menos benignos, los que no proporcionan ejemplos al agente, donde se empieza sin contar con un modelo del ambiente ni con una función de utilidad.
El objetivo en el aprendizaje por refuerzo es usar recompensas en el aprendizaje de una satisfecha función del agente.
La recompensa puede expresarse a través de una percepción y el agente deberá contar con elementos para darse cuenta de que la percepción es una recompensa y no otra entrada sensorial.
Un agente en un ambiente obtiene percepciones, los correlaciona con utilidades positivas o negativas y luego decide que acción emprender.
Para citar los principios del aprendizajes por refuerzo, consideramos a continuación las diversas variaciones de al tarea de aprendizaje:
El ambiente puede o no ser accesible: en un ambiente accesible los estados se identifican con determinadas preposiciones; en el ambiente inaccesible el agente debe mantener cierto estado interno para tratar de llevar un registro de lo que es el ambiente.
El agente puede empezar con cierto conocimiento del ambiente y de los efectos de sus acciones; o bien deberá aprender este modelo como información de utilidad.
Las recompensas pueden ser parte de la utilidad real que el agente se esfuerza por maximizar, o también pueden ser sugerencias de utilidad real.
El agente puede ser un aprendiz activo o aprendiz pasivo. El aprendiz pasivo se limita a observar como evoluciona el mundo y se esfuerza por aprender la utilidad que implica que un estado determinado; el aprendiz activo también debe actuar con base en la información aprendida y puede recurrir a su generador de problemas para que sugiera la exploración de las áreas desconocidas del ambiente.
El diseño general del agente define el tipo de información que deberá aprenderse. Los dos diseños principalmente estudiados son el diseño basado en modelos, utilizando un modelo M y una función de utilidad Uy el método carente de modelo, utilizando una función de valor-acción Q.
La utilidad de un estado es la suma esperada de recompensas recibidas entre el momento presente y el final de la secuencia.
Para aprender las utilidad es pueden utilizarse tres métodos:
EL método PMC (promedio de mínimo cuadrados) se utiliza toda la recompensa para actuación observada de un estado determinado como evidencia directa del aprendizaje de su utilidad. En PMC se emplea el modelo solo para escoger acciones.
En el método PDA(programación dinámica adaptativa) se emplea el algoritmo de la iteración de los valores o de políticas para calcular las utilidades exactas de los estados con base en un modelo estimado. En el método de PDA se emplean óptimamente las restricciones locales de las utilidades de los estados que imponen la estructura cercana al ambiente.
En el método DT(desviaciones temporales) se actualizan las estimaciones de utilidad para que coincidan con las de los estados sucesores, y se les puede considerar como una sencilla aproximación del Método PDA en el que no se necesita de un modelo para el proceso de aprendizaje. Utilizando el modelo para generar pseudo experiencias se puede lograr un aprendizaje mas rápido.
Los algoritmos genético permiten reforzar el aprendizaje utilizando el refuerzo para aumentar la cantidad de funciones con desempeño satisfactorio en una población de programas. Producen el efecto de la generalización mediante programas de mutación y cruzamiento mutuo.