Desde el punto de vista computacional se presenta un método para representar funciones utilizando redes formadas por sencillos elementos de cálculo aritmético, y como métodos para aprender tales representaciones a partir de ejemplos. Desde el punto de vista biológico, se propone un modelo matemático acerca del funcionamiento del cerebro.
Redes nueronales
Está constituida por nodos, o unidades, que están unidas mediante conexiones. A cada conexión se le asigna un peso numérico. Los pesos constituyen el principal recurso de memoria de largo plazo en las redes neurales, y el aprendizaje usualmente se realiza con la actualización de tales pesos.
Algunas unidades están conectadas al ambiente externo, y son designadas ya sea como unidades de entrada o unidades de salida. Los pesos son modificados de manera tal que la conducta de entrada/salida de la red esté más acorde con la del ambiente que produce las entradas.
La mayoría de las implantaciones de redes neuronales son realizadas en software y utilizan el control sincrónico para la actualización de todas las unidades de acuerdo con una secuencia fija. Si se desea construir una red neuronal para realizar una tarea determinada, primero hay que decidir cuanras unidades van a emplearse, que tipo de unidades es el adecuado y como van a conectarse las unidades para formar una red. Se procede a inicializar los pesos de la red y utilizan algoritmos de aprendizaje para realizar la tarea.
Los perceptores son redes de prealimentación con un sólo nivel de unidades y solamente pueden representar funciones linealmente separables. Si los datos son linealmente separables, puede utilizarse la regla del aprendizaje perceptrón para modificar los pesos de la red y acoplar con exactitud los datos.
Las redes de prealimentación de varios niveles permiten representar cualquier función, si se cuenta con una suficiente cantidad de unidades.
El algoritmo de aprendizaje de propagación posterior opera en redes de prealimentación de varias capas; utiliza la disminución de gradiente en el espacio de pesos para reducir al mínimo el error de salida. Converge a una solución óptima localmente y se le ha empleado con cierto éxito en diversas aplicaciones. Sin embargo, como en el caso de las técnicas de prealimentación, no hay garantía de que pueda encontrar una solución global. Además su convergencia es muy lenta.
Aprendizaje Bayesiano
Se considera que el problema de la construcción de hipótesis a partir de datos es un sub-problema del problema mas importante relacionado con la formulación de predicciones. Primero se calcula la probabilidad de cada una de las hipótesis con base en los datos. Luego a partir de esta son formuladas las predicciones con base en las probabilidades posteriores de la hipótesis en la ponderación de las predicciones.
La aproximación mas aún
cociste en utilizar la hipótesis mas probable, es decir una Hi mediante la cual
se obtenga el máximo. A esta hipótesis se la conoce como Maximun a posteriori
o hipótesis MAP.
Problemas de aprendizaje en las redes de
creencias
Es posible que sea conocido o desconocida la estructura de la red y las variables en dicha red pueden ser observables u ocultas:
Estructura conocida, completamente observable: en este caso, la única parte que puede aprenderse es el conjunto de las tablas de probabilidad condicional.
Estructura desconocida, completamente observable: el problema reside en la topologia de la red.
Estructura conocida, Variables ocultas: Este caso es similar al aprendizaje de redes neuronales.
Estructura desconocida, variables ocultas: Cuando algunas de als variables resultan inobservables, siempre o en ciertas ocasiones, se dificulta la aplicación de las técnicas de probabilidad anterior para recuperar la estructura ya que básicamente necesitan promediar todas las posibles combinaciones de valores de variables desconocidas
En el caso de una estructura fija y de variables ocultas, el aprendizaje de al red de creencia tiene una sorprendente semejanza con el aprendizaje de las redes neuronales. Aunque es posible emplear los métodos de disminución de gardiente, las redes de creencia tambien tiene la ventaja de poseer una bien estudiada semántica en cada uno de sus nodos. Lo anterior permite proporcionar conocimiento para acelerar el proceso de aprendizaje.