Los agentes con capacidad
para aprender, pueden dividirse en cuatro componentes conceptuales. El elemento de aprendizaje, que tiene a su
cargo realizar las mejoras para
modificar el desempeño. El elemento
de desempeño, quien recibe las
percepciones y decide las acciones por emprender. El elemento de
aprendizaje toma parte del conocimiento acerca de sí mismo y se retroalimenta
con información del comportamiento del agente, y decide cómo hay que modificar
el elemento del desempeño, para que en el futuro pueda mejorar su actuación.
El crítico informa al elemento
de aprendizaje su evaluación del desempeño del agente. El crítico utiliza un estándar fijo para juzgar tal
desempeño puesto que las percepciones en sí no aportan información alguna
sobre el éxito del agente. Un programa
necesita una norma de desempeño que le permita saber si lo que hizo es bueno.
La norma para juzgar el desempeño debe ser una medida fija que esté fuera del
agente.
El generador de problema tiene a u cargo proponer acciones que permitan obtener experiencias nuevas y que
aporten información. Además propone las acciones de exploración.
Otra función del elemento de aprendizaje es la de mejorar la eficiencia del elemento de
ejecución. Por ejemplo, sí el taxi tiene un viaje nuevo debe consultar un mapa y planear la mejor ruta, la
siguiente vez que le toque el mismo destino, la consulta al mapa debe ser de
menor tiempo. Esto se llama aprendizaje acelerado.
El diseño del elemento de
aprendizaje se ve influido por cuatro factores:
¨
El tipo de componentes del elemento de
ejecución que van a ser mejorados.
¨
El tipo de representación que será utilizado
para éstos componentes.
¨
El tipo de retroalimentación disponible.
¨
El tipo de información previa disponible.
Existen diversas formas de
construir el elemento de desempeño de un agente, entre sus componentes están:
1.
Una correlación directa entre condiciones del estado vigente y acciones.
2.
Un procedimiento para inferir características importantes del mundo a partir de la
secuencia de percepciones.
3.
Información acerca de cómo evoluciona el mundo.
4.
Información sobre los resultados de las posibles acciones que aprenda el agente.
5.
Información partiente que indique qué tan deseables son determinados estados
del mundo.
6.
Información acción valor para indicar l a deseabilidad de acciones particulares en
estados particulares.
7.
Metas que describan clases de estado cuyo logro permita maximizar la utilidad del agente.
Si se proporciona la
retroalimentación adecuada, es posible lograr el aprendizaje de cada uno de los
componentes anteriores.
La norma de desempeño define
un conjunto de percepciones diferenciadas y que se considera proporcionan
retroalimentación directa sobre la calidad de la conducta del agente.
Para representar éstos
componentes se puede utilizar; descripciones deterministícas, las oraciones
propositivas y las oraciones lógicas, las descripciones probabilisticas.
La retroalimentación dirá al agente cuál es el resultado
correcto.
Aquellas situaciones en las que es posible percibir tanto las entradas como las salidas da un componente, se denomina aprendizaje supervisado.
Durante el aprendizaje del componente condición – acción, el agente
recibe una evaluación de sus acciones, aunque sin informarle cuál habría sido
la acción correcta. Esto se llama aprendizaje por refuerzo.
Al aprendizaje que se
efectúa sin ninguna indicación sobre cuáles son las salidas correctas se lo
conoce como aprendizaje no supervisado.
El agente empieza sin contar
con conocimiento alguno sobre lo que desea aprender. Buena parte del
aprendizaje humano se lleva a cabo contando con una buena cantidad de conocimiento previo es de gran ayuda en el
aprendizaje.
Cada uno de los siete
componentes del elemento da desempeño puede representarse matemáticamente como
una función.
El aprendizaje en general puede considerarse como el aprendizaje de la
representación de una función.