Dissertação - Seleção automática de índices internos de validação de agrupamento.

Autor: Caroline Tomasini (Currículo Lattes)

Resumo

A validação dos resultados de agrupamento é uma questão importante na área de aprendizado de máquina e é essencial para o sucesso das aplicações relacionadas a agrupamento de dados. No entanto, escolher o índice de validação adequado para avaliar os resultados de um algoritmo de agrupamento específico continua sendo um desafio. A qualidade das partições geradas por diferentes algoritmos de agrupamento pode ser avaliada utilizando diferentes índices com base em critérios externos ou internos. Um critério externo requer que o particionamento ideal seja conhecido a priori para a comparação com os resultados de agrupamento. Já o critério interno avalia os resultados de agrupamento considerando apenas as propriedades do conjunto de dados. Neste trabalho, é proposta uma metodologia para a escolha do índice interno de validação de agrupamento mais adequado, relacionando critérios externos e internos através de um modelo de regressão linear aplicado sobre os resultados de algoritmos de agrupamento particionais e baseados em densidade. Cada algoritmo foi aplicado sobre conjuntos de dados sintéticos que foram gerados para este fim, usando diferentes configurações. Os resultados de agrupamento foram avaliados por diferentes índices com base em critérios internos e externos que geraram a entrada para os modelos de regressão. A análise destes modelos permitiu a inferência do índice interno mais adequado para cada método de algoritmo de agrupamento. Por fim, foi realizada uma validação dos modelos encontrados utilizando conjuntos de dados reais e sintéticos utilizados em outros trabalhos da literatura.

TEXTO COMPLETO DA DISSERTAÇÃO

Palavras-chave: Critérios de validaçãoRegressão linear