domingo, 23 de novembro de 2008

SPUDD: usando Diagramas de Decisão para resolver Processos Markovianos de Decisão fatorados.

------------------------------------------------------------------------------------------
Seminário do Grupo de Lógica, Inteligência Artificial
e Métodos Formais - LIAMF
Seminário Registrado na CPG do IME/USP
Página: http://www.ime.usp.br/~liamf/seminarios/index.html
-------------------------------------------------------------------------------------------

Título:

SPUDD: usando Diagramas de Decisão para resolver Processos Markovianos de
Decisão fatorados.

Palestrante: Karina Valdivia Delgado (estudante de doutorado IME)
Data: 24/11/2008, 14h30
Local: Sala 03B, IME-USP

Resumo:

Planejamento probabilístico é uma sub-área de planejamento da Inteligência
Artificial que usa Processos Markovianos de Decisão (MDPs) como modelo
matemático. MDPs fornecem um arcabouço matemático para modelar e resolver
problemas de decisão sequencial com incerteza em ambientes completamente
observáveis.

Um MDP modela a interação entre um agente e seu ambiente. A cada instante o
agente faz uma escolha de ações (com efeitos probabilísticos) e decide executar
uma ação que produzirá um estado futuro e uma recompensa. O objetivo do agente é
maximizar a recompensa ganha ao longo de uma sequência de escolhas de ações.

Uma das dificuldades para resolver um problema MDP é que frequentemente o
tamanho do espaço de estados é muito grande.  Resultados recentes têm
demonstrado que é possível resolver uma formulação fatorada de um MDP chamada de
MDP-fatorado numa maneira mais eficiente (com millões de estados) quando
comparados com soluções clássicas baseados em programação dinâmica e com o
espaço de estados enumerativo.

Nesta palestra mostraremos o algoritmo SPUDD em que os estados são agregados
implicitamente usando ADDs (diagramas de decisão algébricos) para representar a
função valor e as políticas, evitando assim  trabalhar com o espaço de estados
enumerativos.  SPUDD modifica o algoritmo clássico de iteração de valor usando
ADDs permitindo que o cálculo do valor esperado e  as maximizações sejam feitas
eficientemente.


--
 Marcelo Finger


Nenhum comentário: