Dissertação - Aprendizado por Reforço Baseado em Modelo com Restrições e Estimativa de Incerteza

Autor: Álisson Henrique Kolling (Currículo Lattes)

Resumo

A estimativa da incerteza desempenha um papel importante na tomada de decisões para o aprendizado de máquina, particularmente em aplicações críticas para a segurança, como robótica e sistemas autônomos. O aprendizado por reforço baseado em modelo (MBRL) tem se mostrado promissor na melhoria da eficiência e adaptabilidade da amostra, mas quantificar com precisão a incerteza e, ao mesmo tempo, manter a eficiência computacional continua sendo um desafio. Este trabalho propõe a estrutura de Aprendizado por Reforço Baseado em Modelo e Ciente da Incerteza (MUARL), que integra o aprendizado profundo evidencial ao modelo dinâmico para estimar incertezas epistêmicas e aleatórias em uma única passagem direta. Ao incorporar essas estimativas a uma estratégia de planejamento de restrição dupla por meio de métodos Lagrangianos adaptativos, a abordagem aumenta a confiabilidade das políticas de controle em ambientes dinâmicos e imprevisíveis. O MUARL amplia a arquitetura TD-MPC2 com três contribuições principais: quantificação de incerteza evidêncial que fornece estimativa de incerteza de passagem única computacionalmente eficiente, adequada para planejamento baseado em amostragem; um objetivo de planejamento de restrição dupla que incorpora previsões de custo aprendidas e incerteza do modelo na pontuação da trajetória do Modelo Preditivo de Integral de Trajetória (MPPI); e mecanismos de aplicação de segurança no tempo de planejamento que operam no momento da decisão. A avaliação experimental em ambientes de referência sugere que o MUARL pode equilibrar efetivamente segurança e desempenho. Estudos de ablação confirmam que, nas experiências com carros de modelo dinâmico de uniciclo consideradas aqui, a estimativa de incerteza evidencial mostra uma detecção fora da distribuição aprimorada em comparação com fluxos normalizadores e redes de conjuntos estocásticos. Avaliações de benchmark em tarefas do Safety Gymnasium mostram que o MUARL alcança taxas de viabilidade de segurança mais altas em comparação com as linhas de base sem modelo e métodos alternativos baseados em modelo, mantendo um desempenho competitivo nas tarefas. Esses resultados indicam que o método proposto fornece sinais de incerteza úteis e melhora as métricas de segurança nos benchmarks estudados, fornecendo uma abordagem computacionalmente eficiente para a implantação de sistemas autônomos em domínios críticos para a segurança.

Palavras-chave: Aprendizado por reforço baseado em modeloEstimativa de incertezaAprendizado por reforçoRobótica