En los problemas de decisión secuencial la utilidad del agente depende de una secuencia de decisiones. Este tipo de problemas, que implican utilidades, incertidumbre y percepción, constituye una generalización de los problemas de búsqueda y planificación.
A partir del estado inicial, el agente deberá realizar una secuencia de acciones, y el ambiente termina cuando este llega a uno de los estados marcados como finales.
El modelo de transición sirve para referirse al conjunto de probabilidades relacionadas con las posibles transiciones entre estados después de producirse una determinada acción. La notación Mija representa la posibilidad de llegar al estado j si la acción a es ejecutada en el estado i.
La función de utilidad tiene que basarse en una secuencia de estados -una historia ambiental- y no en un solo estado.
En el caso determinista, con conocimiento del estado inicial y de los efectos de las acciones, el problema puede ser resuelto directamente mediante los algoritmos de búsqueda. En el caso más general, de tipo estocástico, el agente no puede saber exactamente en qué estado se encontrará después de una determinada secuencia de acciones.
En el caso de ambientes accesibles:
Las percepciones del agente en cada paso le permitirá identificar cuál es el estado en que se encuentra. La capacidad para calcular la acción óptima para cada uno de los estados definirá totalmente su conducta. Independientemente de cuál sea el resultado de una acción, el agente siempre sabrá qué es lo que debe hacer a continuación. El total de correlaciones entre estados y acciones se conoce como política. Con base en ésta, se puede calcular la utilidad esperada de los posibles ambientes.
En el caso de los ambientes inaccesibles:
La percepción no aporta suficiente información para determinar el estado o las probabilidades de la transición correspondiente. A este tipo de problemas se le conoce como problemas de decisión de Markov parcialmente observables o PDMPO. La forma adecuada de resolver los PDMPO consiste en calcular una distribución de probabilidad que abarque todos los estados posibles, tomando en cuenta todas las percepciones anteriores, y basar las decisiones en esta distribución.
Básicamente, el agente debe tomar en cuenta la información que pueda obtener, así como el estado al que llegará. Por lo tanto, los PDMPO consideran el valor de la información como un elemento del problema de la toma de decisión.
La iteración de valores sirve para calcular una política óptima. La idea fundamental consiste en calcular la utilidad de cada uno de los estados, U(estado),y con base en estas utilidades, seleccionar una acción óptima para cada uno de ellos.
Existen dos maneras de medir el desarrollo de la iteración de valores.
Es posible medir la calidad de una política utilizando la pérdida de política: la diferencia entre la utilidad esperada obtenida por un agente que utiliza la política y comparada con un agente que utilice la política óptima.
La iteración política funciona escogiendo una política, y luego calculando la utilidad de cada estado con base en dicha política. Luego actualiza la política correspondiente a cada estado utilizando las utilidades de los estados sucesores, lo que se repite hasta que se estabiliza la política . El paso en el cual los valores de la utilidad son definidos a partir de una determinada política conocida como determinación de valor.
El método completo para diseñar agentes para ambientes en los qué esta presente la incertidumbre, une las redes de creencia y de decisión con las técnicas empleadas en los problemas de decisión secuenciales.
El ciclo de decisión de un agente racional: en cada uno de los pasos, al procedimiento realizado por el agente se le conoce como ciclo de decisión. El primer paso consiste en definir el estado actual del mundo. En general, consideraremos la posesión de un conjunto de variables aleatorias Xt relacionadas con el estado actual del mundo; a estas se las conoce como variables de estado. Como en el calculo de situaciones, es importante diferenciar entre creencias relacionadas con un mundo cambiante y creencias cambiantes sobre un mundo determinado. Para ello es necesario contar con diversas proposiciones que se refieren a momentos distintos, y esto último, condicionando la probabilidad de una determinada proposición sobre una evidencia adicional.
El cálculo de la estimación del estado actual se realiza en dos fases:
Dada una distribución de probabilidad en el estado actual, es muy sencillo llevar a cabo los pasos faltantes en el ciclo de decisión, que implica la proyección de los posibles resultados de las acciones disponibles y escoger aquella que ofrezca la máxima utilidad esperada.
Contamos con el modelo del sensor, que sirve para describir cómo el ambiente genera los datos del sensor; y contamos con el modelo de acción, que describe los efectos de las acciones. El modelo de acción generaliza el modelo de transición utilizado antes en los problemas de decisión secuenciales.
El agente monitorea y predice pasivamente un ambiente cambiante, en el cual no actua. Este agente se ocupa de una secuencia de valores Xt, cada uno de los cuales está definido exclusivamente por el anterior: P(Xt| Xt-1). A esta secuencia se le conoce como modelo de evolución de estado o cadena de Markov.
Una red de creencia dinámica (RCD) está compuesta por una red de creencia con un nodo por cada estado y variable de sensor, durante cada capa temporal. Si t es el paso temporal actual, entonces tenemos evidencia para los nodos de percepción hasta el momento t. La tarea de la red consiste en calcular la distribución de probabilidad del estado para el momento t, también es importante saber como evolucionará el estado en el futuro, a esto se lo conoce como proyección probabilista.
El ciclo del proceso funciona de la siguiente manera:
Para convertir redes de creencia dinámicas en redes de decisión dinámicas RDD, basta con añadir nodos de utilidad y nodos de decisión correspondientes a las acciones. El problema de decisión implica calcular el valor Dt que maximice la utilidad esperada del agente a través de la secuencia de estado restante. En los ambientes inaccesibles, el agente ignora en qué estado se encuentra.
La RDD ofrece soluciones aproximadas a problemas de decisión de Markov parcialmente observables, en los que el grado de aproximación dependerá del grado de anticipación. Al evaluar una acción, hay que tomar en cuenta no sólo su efecto sobre el ambiente, sino también sobre el estado interno del agente a través de las percepciones que genera. Tales consideraciones permiten al agente ver el valor de mirar antes de saltar, a la búsqueda de claves pérdidas, así sucesivamente. También se limita el grado de proyección anticipada en las RDD con objeto de disminuir su complejidad. Lo anterior permitirá lograr una aproximación razonable a una acción racional.
Comentario: en general, las RDD representan soluciones potenciales a muchos de los problemas que se producen cuando sistemas de IA se trasladan de ambientes estáticos, accesibles y, sobre todo, sencillos, a otros ambientes dinámicos, inaccesibles y complejos, más cercanos al mundo real.