Dissertação - Da XAI Funcional à Interpretabilidade Mecanicista: Investigando os Circuitos da Arbitragem de Conhecimento em Modelos de IA Generativa

Autor: Karine de Oliveira Fonseca (Currículo Lattes)

Resumo

Os Modelos de Linguagem de Larga Escala (LLMs) demonstram uma capacidade sem precedentes de processar e gerar informação, mas sua natureza intrinsecamente opaca representa um risco significativo para aplicações críticas. A Inteligência Artificial Explicável (XAI) busca mitigar essa opacidade, contudo, as abordagens atuais frequentemente se limitam a uma análise funcional, sem decifrar os mecanismos computacionais internos que governam o comportamento do modelo. Esta dissertação ataca essa lacuna através da interpretabilidade mecanicista, investigando uma questão fundamental e ainda pouco explorada: como um LLM arbitra entre seu conhecimento factual interno (parametrizado) e a informação contextual externa, especialmente quando há um conflito entre eles. Para tal, foi conduzido um estudo experimental computacional utilizando a técnica de Rastreamento Causal (Causal Tracing). Através de um paradigma de "Conflito vs. Confirmação", o estudo mede a modulação na influência causal dos circuitos neuronais responsáveis por armazenar fatos específicos quando o modelo é exposto a contextos confirmatórios ou conflitantes. Os achados oferecem uma nova perspectiva dinâmica para o modelo teórico das MLPs (Perceptron de Múltiplas Camadas) como memórias chave-valor. Demonstra-se que a recuperação de conhecimento não é um processo estático, mas sim análogo e dependente de contexto: a influência causal do circuito é massivamente reforçada por um contexto confirmatório. Em contraste, um contexto conflitante não suprime a influência do circuito, mas desencadeia o mecanismo porposto nessa dissertação denominado Circuit Hijacking 'sequestro de circuito', no qual a informação externa é processada no mesmo substrato neural do conhecimento original. Esta visão dinâmica do processamento factual tem implicações teóricas para a compreensão de como os LLMs integram evidências e implicações práticas para a segurança de sistemas de Geração Aumentada por Recuperação (RAG).

TEXTO COMPLETO

Palavras-chave: Sequestro de Circuito; Interpretabilidade Mecanicista; Segurança em IA; Modelos de Linguagem de Larga Escala (LLM); Sobrescrita Contextual; Intervenção Causal; Geração Aumentada por Recuperação (RAG)