Seminário do Grupo de Lógica, Inteligência Artificial
e Métodos Formais - LIAMF
Seminário Registrado na CPG do IME/USP
Página: http://www.ime.usp.br/~liamf/seminarios/index.html
-------------------------------------------------------------------------------------------
Título: Real-Time Dynamic Programming
Palestrante: Renato Schattan Pereira Coelho
Data: 01/12/2008, 14h30
Local: Sala 03B, IME-USP
Resumo:
O problema de tomada automática de decisão em geral envolve a questão de levar o
agente de um estado inicial a estados com alguma característica de nosso
interesse (estados meta) com o menor custo possível. Assim, queremos que o
agente seja capaz de, para cada estado do mundo, escolher uma ação que minimize
o custo esperado de se chegar a um estado meta, ou seja, queremos definir uma
política que mapeie estados às melhores ações que o agente deve executar.
Uma das abordagens que tem conseguido mais sucesso na resolução desses
problemas, tanto teoricamente quanto em competições de planejamento
probabilístico, é a de programação dinâmica com atualizações assíncronas dos
valores dos estados.
Neste seminário vamos apresentar o algoritmo Real-Time Dynamic Programming
(RTDP), e duas de suas extensões (LRTDP, FRTDP e BRTDP), cuja idéia básica é
fazer várias simulações da execução de uma política gulosa (como se o agente
estivesse treinando) e
atualizar os valores dos estado enquanto se faz a simulação. Por fim, vamos
falar brevemente sobre as alterações que devem ser feitas em um desses
algoritmos (LRTDP) para que ele resolva problemas em que as probabilidades de
transição de estados não são totalmente conhecidas.
e Métodos Formais - LIAMF
Seminário Registrado na CPG do IME/USP
Página: http://www.ime.usp.br/~liamf/seminarios/index.html
-------------------------------------------------------------------------------------------
Título: Real-Time Dynamic Programming
Palestrante: Renato Schattan Pereira Coelho
Data: 01/12/2008, 14h30
Local: Sala 03B, IME-USP
Resumo:
O problema de tomada automática de decisão em geral envolve a questão de levar o
agente de um estado inicial a estados com alguma característica de nosso
interesse (estados meta) com o menor custo possível. Assim, queremos que o
agente seja capaz de, para cada estado do mundo, escolher uma ação que minimize
o custo esperado de se chegar a um estado meta, ou seja, queremos definir uma
política que mapeie estados às melhores ações que o agente deve executar.
Uma das abordagens que tem conseguido mais sucesso na resolução desses
problemas, tanto teoricamente quanto em competições de planejamento
probabilístico, é a de programação dinâmica com atualizações assíncronas dos
valores dos estados.
Neste seminário vamos apresentar o algoritmo Real-Time Dynamic Programming
(RTDP), e duas de suas extensões (LRTDP, FRTDP e BRTDP), cuja idéia básica é
fazer várias simulações da execução de uma política gulosa (como se o agente
estivesse treinando) e
atualizar os valores dos estado enquanto se faz a simulação. Por fim, vamos
falar brevemente sobre as alterações que devem ser feitas em um desses
algoritmos (LRTDP) para que ele resolva problemas em que as probabilidades de
transição de estados não são totalmente conhecidas.
Nenhum comentário:
Postar um comentário