Dissertação - EN-MUTATE : predição do impacto de mutações pontuais em proteínas utilizando Ensemble Learning

Autor: Alex Dias Camargo (Currículo Lattes)

Resumo

A metodologia abordada nesta dissertação é baseada na combinação dos resultados de diferentes ferramentas de predição do impacto de mutações pontuais em proteínas, assumindo-se o pressuposto de Ensemble Learning na qual a capacidade de generalização de um conjunto é frequentemente mais forte do que uma decisão individual. O objetivo é predizer qual o impacto que uma mutação pode resultar em um mutante "in-silico". Para isso, foram adotadas ferramentas descritas na literatura como capazes de predizer os efeitos na estabilidade de uma proteína sobre mutações pontuais através da variação da energia livre G, ou seja, a diferença de energia livre entre uma proteína do tipo selvagem e o seu mutante. As primeiras versões da metodologia proposta, EN-MUTATE, realizaram o ensemble por meio de uma votação por pluralidade entre as ferramentas integradas. À vista disso, com a necessidade de se expandir as análises com o intuito de permitir uma metodologia baseada em modelos treinados através de diferentes classificadores, a abordagem proposta foi reestruturada e passou a abordar múltiplas opções de predição ensemble, o que acabou sendo agregado a ferramenta desenvolvida EN-MUTATEweb. Um fator relevante a ser mencionado sobre a viabilidade da sua utilização é a dificuldade de seleção de um determinado método a priori, tendo em vista que não há como se prever àquele que terá melhor desempenho para os dados de interesse. Do mesmo modo, o trabalho necessário para teste e comparação de múltiplas abordagens pode tornar o tempo de pesquisa demasiadamente alto para o especialista. De forma a mensurar a viabilidade de aplicação de ensemble learning ao problema de pesquisa, esta dissertação avaliou seus resultados com base em valores biológicos experimentais, sendo que os experimentos computacionais foram divididos em cinco abordagens com diferentes configurações. Por fim, para os principais conjuntos de dados adotados, a metodologia EN-MUTATE obteve em grande parte modelos mais acurados. Desse modo, as principais contribuições obtidas com o desenvolvimento desta dissertação atendem ao seu principal objetivo: definir uma metodologia cuja finalidade é adotar o conceito de Ensemble Learning para combinar em uma única abordagem os resultados de diferentes ferramentas de predição do impacto de mutações pontuais em proteínas, buscando, assim, a adoção de abordagens para produzir um resultado final em conjunto potencialmente melhor do que os individuais.

TEXTO COMPLETO DA DISSERTAÇÃO

Palavras-chave: Mutações pontuaisPredição de estabilidadeEnsemble learning