Dissertação - Comparação de ensemble de funções de escore em docagem molecular proteína-ligante

Autor: Maurício Dorneles Caldeira Balboni (Currículo Lattes)

Resumo

A inclusão de uma abordagem in silico na descoberta de novos medicamentos visa otimizar e reduzir os custos de um processo que costuma ser demorado e custoso. Estudos computacionais sobre as interações entre pequenas moléculas (ligantes) e proteínas-alvo (receptores) são de grande importância, principalmente nessa busca por novos fármacos. Esses estudos podem ser realizados utilizando algoritmos de docagem molecular que buscam encontrar a melhor conformação e posição que um ligante no sítio de ligação de um receptor. Nesse contexto, as funções de escore são funções matemáticas utilizadas com a finalidade de estimar aproximadamente a afinidade de ligação entre essas duas moléculas. O desenvolvimento de funções de escore cada vez mais precisas vem recebendo crescente destaque na literatura, destacando-se atualmente quatro categorias principais: baseadas em física Physics-based, empíricas, baseadas em conhecimento Knowledge-based e baseadas em aprendizado de máquina. O uso de ensemble é uma técnica que combina as previsões de vários modelos de aprendizado de máquina, e tem se mostrado fundamental para aprimorar o desempenho e a robustez em diversas aplicações. Com isto, o presente trabalho tem o objetivo de comparar a eficiência do uso dessas técnicas de ensemble learning em funções de escore para docagem molecular proteína-ligante. Para isso, é utilizado o PDBbind, o qual é um repositório de dados biológicos que armazena coleções de afinidade de ligações medidas de forma experimental para complexos proteína-ligante. São utilizadas as funções de escore KORP-PL, Vina, rb_score_GBT, rb_score_RF, ECIF-GBT, ECIF-RF, lin_F9, Convex-PL e rb_score_ET. Ao incorporar estas à um modelo de ensemble, podemos avaliar se a combinação desses métodos pode resultar em melhorias significativas na precisão das estimativa do escore de ligação. Neste trabalho foram utilizados os algoritmos XGboost e Random Forest como técnicas de ensemble assim como foi proposta uma função baseada em uma média ponderada pela correlação de cada função de escore. As métricas de avaliação utilizadas foram os valores de Root Mean Squared Error (RMSE) e Correlação de Pearson comparando o valor predito pelas funções de escore individuais e pelos modelos ensemble com o valor experimental disponível no PDBBind. Com base nos resultados gerados, é possível inferir que o ensemble apresentou o melhor desempenho nas métricas de avaliação, RMSE e correlação de Pearson, destacando-se especialmente quando utilizado o algoritmo Random Forest. O que evidencia a eficácia do ensemble como uma estratégia eficiente para aprimorar a precisão das predições quando comparado às funções de escore isoladas. Esses resultados demonstram a vantagem dos modelos que utiliza ensemble a fim de combinar predições individuais, proporcionando maior estabilidade nos resultados e capacidade de generalização, especialmente em aplicações complexas como a predição de afinidade molecular, onde a precisão é fundamental para acelerar o desenvolvimento de novos compostos e reduzir o tempo de experimentação.

TEXTO COMPLETO

Palavras-chave: Docagem molecularEnsembleBioinformáticaAprendizado de máquinaFunções de escore