Dissertação - Um modelo para avaliação de similaridade de strings alfanuméricas resultantes do processo de reconhecimento óptico de caracteres

Autor: Larissa E Silva Gomes (Currículo Lattes)

Resumo

Devido a facilidade de armazenamento, acesso e transferência de arquivos, atualmente lida-se com uma grande quantidade de documentos de forma digitalizada fazendo com que a análise das informações armazenadas se torne uma necessidade. O processo de Reconhecimento Óptico de Caracteres(OCR) surge como ferramenta transformadora de imagens em texto computacionalmente tratáveis, mas ainda não demonstra desempenho totalmente satisfatório, principalmente devido à degradações sofridas pelos documentos antes e durante o processo de digitalização. Além disso, os resultados são ainda mais prejudicados quando se trata de palavras não comumente inerentes a um idioma, especialmente casos de códigos formados por letras, números e símbolos ---muito comuns em documentos industriais, números de série em geral, placas de carros, códigos de segurança ou referências posicionais. Neste trabalho apresenta-se um estudo sobre métricas de similaridade para algoritmos de busca aproximada em textos alfanuméricos sujeitos a distorções durante o processo de conversão por sistemas de OCR. Propõe-se então um modelo para análise de matching de strings com base no aprendizado do nível de confiança da conversão de cada caractere e as suas possibilidades mais prováveis de confusão, resultando em um algoritmo de busca aproximada com até 99.74% de confiança e 24.32% de melhora em relação a outros algoritmos de busca aproximada encontrados na literatura.

TEXTO COMPLETO

Palavras-chave: Ciência da computaçãoSimilaridadeReconhecimento de caracteres ópticosDocumentos digitalizados