Se describirán agentes capaces de mejorar su comportamiento mediante el estudio de sus propias experiencias.
El aprendizaje de una función a partir de ejemplos de sus entradas y salidas es conocido como aprendizaje inductivo. El cometido de una inferencia puramente inductiva (o inducción) es: dado un grupo de especificaciones de f, producir una función h que aproxime a h. A la función h se la conoce como hipótesis.
Un agente también puede realizar un aprendizaje gradual: en vez de aplicar el algoritmo de aprendizaje a todo el conjunto de ejemplos cada vez que necesario obtener una nueva predicción, el agente únicamente se concentra en actualizar sus antiguas hipótisis cada vez que surja un nuevo ejemplo.
Existen dos métodos para el aprendizaje de las oraciones lógicas:
Método del árbol de decisión: se emplea una representación restringida de las oraciones lógicas específicamente diseñadas para el aprendizaje.
Método del espacio de versión: más general pero también más eficiente.
El saber escoger al representación de la función deseada es posiblemente el problema más importante que debe resolver el diseñador de un agente de aprendizaje.
Los árboles de decisión como elementos de desempeño: Un árbol de decisión toma como entradas objetos o situaciones caracterizados mediante un conjunto de propiedades; el árbol entrega a la salida una secisión si o no. Los nodos internos del árbol corresponden a una prueba del valor de una de las propiedades y ramas del nodo son identificadas mediante los posibles valores de la prueba.
Expresividad de los árboles de decisión: Los árboles de decisión están limitados a tratar con un sólo objeto. Es decir, el lenguaje del árbol de decisión es en esencia propositivo, y en él toda la prueba de atributo es una proposición.
Inducir árboles de decisión a partir de ejemplos: aquí podemos mencionar La navaja de Occam que propone escoger aquella hipótesis más sencilla que corresponda a los ejemplos observados. La heurística sobre la ganancia de información nos permite encontrar un árbolde decisión sencillo.
Los árboles decisionales son un método de aprendizaje batch (de a tandas, no continuo) para clasificación, donde la raíz del árbol es un atributo, los enlaces son valores de atributo y los subárboles son, de nuevo, árboles decisionales. Cada hoja especifica la clase para los ejemplos que tienen los valores de atributo desde la raíz hasta la hoja.
La meta es construir un árbol decisional para clasificar ejemplos como casos positivos o negativos de un concepto usando aprendizaje supervisado de un conjunto de entrenamiento.
Se aplican métodos de búsqueda, donde estas ocurren en espacios de hipótesis y cuando se empiezan a eliminar hipótesis se llaman espacios de versión.
Hipótesis: Generalmente queremos un predicado meta Q y nos gustaría encontrar una expresión equivalente o definición del candidato que clasifique correctamente a los ejemplos. El espacio de hipótesis es el conjunto de todas las hipótesis que el algoritmo de aprendizaje es capaz de abarcar. La extensión del predicado meta es el conjunto de ejemplos que satisfacen la definición del candidato.
La búsqueda de la mejor hipótesis del momento en que hay que concretar una conducta (algoritmo “anytime”). La idea es la de mantener una sóla hipótesis y ajustarla conforme van llegando nuevos ejemplos, con el fin de consevar la congruencia.
La búsqueda del compromiso mínimo. Para el inicio de una búsqueda, rige que Espacio de versión = Espacio de hipótesis, donde el espacio de versión es el formado por el resto o saldo de hipótesis consistentes, entre las cuales estará quizás la que usaremos o ninguna, y el espacio de hipótesis en este caso es una disyunción larga (H1 v H2 v.....v Hn). Inicializar el conjunto S con las hipótesis que digan T, e inicializar el conjunto G con las hipótesis que digan F. Dado un espacio de hipótesis, inicializar los dos conjuntos límite segun si las hipótesis permitirían predecir lo que es Verdadero o Falso. Conjunto G: las hipótesis son las más generales y siguen siendo consistentes con los ejemplos, contiene lo que permitiría predecir lo verdadero, mientras que en el conjunto S: las hipótesis son las más especiales y siguen siendo consistentes con los ejemplos, contiene lo que permitiría predecir lo falso. Terminamos la búsqueda por alguno de estos tres motivos: Nos queda una sola hipótesis, que retornamos como única; El espacio de versión colapsa (vacío el conjunto S o el G); o se acaban los ejemplos.
El aprendiz aprende de ejemplos de un conjunto de entrenamiento.
La hipótesis del aprendiz es evaluada
experimentalmente en un conjunto de ejemplos a contrastar o
teóricamente con la distribución de probabilidad de los ejemplos.
El sesgo inductivo se refiere a las preferencias que muestra el aprendiz. Uno de los tipos de sesgo es el de reducir el espacio de hipótesis.
El aprendizaje perfecto no se puede garantir a partir de un conjunto finito de ejemplos de entrenamiento. Estos podrían no cubrir todas las posibilidades ni ser representativos.
La meta del aprendizaje PAC (probablemente aproximadamente correcto) es encontrar alguna hipótesis que resulte improbable (esto es, de probabilidad menor que la cota E) que tenga errores altos (esto es, mayores que la cota e).