Dissertação - Aprendizado de máquina para predição de sequelas de pacientes com diagnóstico de Covid-19

Autor: Christian Giménez Barañano (Currículo Lattes)

Resumo

A COVID-19, doença causada pelo vírus SARS CoV 2, impactou o mundo com intensidade sem precedentes, levando a um alto número de óbitos e a uma crise econômica global, além de mergulhar os sistemas de saúde em um estado de emergência contínua. Em resposta, esforços de pesquisa emergiram mundialmente para investigar múltiplos aspectos da doença, incluindo sua origem, mecanismos de transmissão, sintomas, desenvolvimento de vacinas e potenciais sequelas a longo prazo. Este trabalho propôs uma investigação com foco regional, voltada para a análise dos dados de pacientes diagnosticados com COVID-19 que foram atendidos pelo Hospital Universitário da Universidade Federal do Rio Grande (HU-FURG). O estudo examinou o tempo de internação inicial, analisando dados como vacinação, comorbidades pré-existentes, medicamentos utilizados, métodos de tratamento, idade do paciente, exames realizados e tempo de internação desses pacientes. E também os dados relacionados ao seu retorno ao hospital, como exames realizados, no qual relataram sintomas persistentes e que foram diagnosticados como sequelas da COVID-19. Os dados desses dois momentos do paciente no HU-FURG (internação e retorno pós recuperação) foram compilados e analisados, utilizando técnicas de Aprendizado de Máquina. De todos os dados disponíveis, foram retirados todos os que foram considerados irrelevantes ou que poderiam influenciar de forma equivocada o resultado final. Campos sem dados informados, ou com registro de dados idênticos (ocorrência única) foram removidos. Outros, com dados muito diferenciados, foram convertido s em faixas (como no caso da idade, convertidos em faixas como criança, adulto, etc). Após o tratamento inicial desses dados, foram submetidos à algoritmos de predição, visando prever qual desses algoritmos seria o mais adequado à obtenção do resultado final, considerando também que o volume de dados obtido da base do HU-FURG é consideravelmente pequena. Para a obtenção dos resultados, foi utilizada a técnica de aprendizado supervisionado. Primeiramente, dividindo a base inicial em duas partições, uma de treino e a segunda de teste. Após, foi utilizado o cross-validation, onde a base original foi dividida em 10 partições, e empregado o método k-fold. A conclusão foi que o algoritmo Naive Bayes é o mais adequado, produzindo os melhores resultados em relação aos demais algoritmos testados para este cenário. Os resultados desse estudo pretendem contribuir para uma compreensão mais profunda dos efeitos prolongados da COVID-19 e auxiliar no planejamento de cuidados a longo prazo para os pacientes afetados.

TEXTO COMPLETO

Palavras-chave: Mineração de dadosAprendizado computacionalCOVID-19AlgoritmosCiência de dadosHospital Universitário Dr. Miguel Riet Corrêa Junior