Site hosted by Angelfire.com: Build your free website today!

Atrás Principal Arriba Siguiente

Parte VI

Aprendizaje por refuerzo                       

En este capitulo veremos como aprenden los agentes en ambientes mucho menos benignos, los que  no proporcionan ejemplos al agente, donde se empieza sin contar con un modelo del ambiente ni con una función de utilidad.

El objetivo en el aprendizaje por refuerzo es usar recompensas  en el aprendizaje de una satisfecha función del agente.

La recompensa  puede expresarse a través de una percepción y el agente deberá contar con elementos para darse cuenta de que la percepción es una recompensa y no otra entrada sensorial.

Un agente en un ambiente obtiene percepciones, los correlaciona  con utilidades positivas o negativas y luego decide que acción emprender.

Para citar los principios del aprendizajes por refuerzo, consideramos a continuación las  diversas variaciones de al tarea de aprendizaje:

El diseño general del agente define el tipo de información que deberá aprenderse. Los dos diseños principalmente estudiados son el diseño basado en modelos, utilizando un modelo M y una función de utilidad Uy el método carente de modelo, utilizando una función de valor-acción Q.

La utilidad de un estado es la suma esperada de recompensas recibidas entre el momento presente y el final de la secuencia.

Para aprender las utilidad es pueden utilizarse tres métodos:

Los algoritmos genético permiten reforzar el aprendizaje utilizando el refuerzo para aumentar la cantidad de funciones con desempeño satisfactorio en una población  de programas. Producen  el efecto de la generalización mediante programas de mutación y cruzamiento mutuo.