Dissertação - Função de escore baseada em machine learning para docagem molecular proteína-ligante

Autor: Oscar Emilio Arrua Arce (Currículo Lattes)

Resumo

No desenho de fármacos, as scoring functions ou funções de escore são úteis para prever as afinidades de ligação dos complexos proteína-ligante. O constante aumento dos dados bioquímicos e biofísicos, juntamente com o trabalho experimental, permitiu que as funções de escore baseadas em machine learning apresentassem resultados promissores. O objetivo deste trabalho foi desenvolver uma função de escore baseada em machine learning para docagem molecular proteína-ligante. A metodologia aplicada nesta dissertação foi elaborada a partir dos trabalhos relacionados disponíveis na literatura, dos quais foram extraídos informações sobre coleções de complexos proteína-ligante que são utilizados como conjunto de treinamento; atributos das proteínas, dos ligantes e informações geradas das interações entre eles utilizadas como descritores; métodos de machine learning utilizados para treinar modelos, incluindo técnicas de seleção de atributos e otimização de parâmetros; e conjuntos de testes utilizados para avaliar as funções de escore. Para compilar o conjunto de treinamento, foram estudados: PDBbind refined set, PDBbind general set, CSAR-NRC HiQ e Decoys CSAR-NRC HiQ. Como grupos de atributos foram vistos: descritores geométricos, descritores do SFCscore, descritores e escore do AutoDock Vina, descritores relacionados à área de superfície acessível ao solvente, descritores do DeltaVinaRF20, descritores relacionados à sequência de aminoácidos, descritores relacionados à estrutura secundária de as proteínas, atributos dos ligantes gerados com o PaDEL Descriptor, descritores de interação proteína-ligante utilizados no NNscore 2.0 e descritores 2D/3D gerados com RDKit. Como métodos machine learning foram comparados o Random Forest e o Gaussian Process, além do LASSO para calcular os pesos dos atributos e o GridSearchCV como técnica para otimizar os parâmetros. A função de escore proposta foi avaliada com o benchmark CASF-2016 em relação a quatro métricas: Scoring Power, Ranking Power, Docking Power e Screening Power. No teste do Scoring Power, a função de escore proposta alcançou um coeficiente de correlação de Pearson entre as afinidades previstas e as afinidades medidas experimentalmente de 0.81 contra os 0.816 alcançados pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste do Ranking Power, a função de escore proposta atingiu um coeficiente de correlação de Spearman entre a classificação, com base nos valores de afinidade previstos e os valores medidos experimentalmente de 0.66 contra os 0.75 atingidos pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste do Docking Power, a função de escore proposta alcançou uma taxa de sucesso de 86% para identificar a melhor pose de união com RMSD abaixo de 2 Å da pose nativa, em comparação com 90.2% alcançados pela melhor função de escore no CASF-2016 (AutoDock Vina). No teste do Docking Power sem considerar a pose nativa, a função de escore proposta atingiu uma taxa de sucesso de 83.8% contra os 84.9% atingidos pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste de Forward Screening Power, a função de escore proposta obteve uma taxa de sucesso de 26.5% para identificar ligantes ativos entre moléculas aleatórias para uma proteína alvo no top 1% da classificação, em comparação com 42.1% obtida pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste de Reverse Screening Power, a função de escore proposta alcançou uma taxa de sucesso de 18.5% para identificar proteínas-alvo potenciais para um ligante específico no top 1% da classificação, obtendo a melhor pontuação no CASF-2016.

TEXTO COMPLETO

Palavras-chave: Engenharia de computaçãoBioinformáticaAprendizado computacionalFunção de escoreDocagem molecularSeleção de atributosOtimização de parâmetros