Dissertação - Uma abordagem para form understanding baseada em multitarefas aplicada a documentação técnica de engenharia

Autor: Gabriel Lavoura dos Santos (Currículo Lattes)

Resumo

No âmbito da pesquisa e inovação, nos dias de hoje, muito ainda se discute a importância e necessidade de digitalização, compartilhamento, recuperação e armazenamento de grandes volumes de dados. Entretanto, mesmo com o intenso processo de digitalização vivenciado nos últimos vinte anos, grandes segmentos da indústria ainda dependem de documentos em papel para entrada e ingestão de dados. Como são os casos de documentos históricos, com cunho médico ou de engenharia. Um ser humano compreende um documento ao interpretar o conteúdo semântico de caracteres, palavras, parágrafos e componentes de layout. Para que um sistema computacional consiga entregar um resultado próximo a esse nível de abstração são necessários uma série de passos além de apenas reconhecer os caracteres. Por mais que apenas digitalizar represente um avanço importante, ainda entrega recursos em suma triviais quanto ao contexto e entendimento do documento. Logo, para obter resultados efetivos e um nível semântico adequado torna-se necessário cruzar diferentes técnicas de análise de geometria, espacialidade e utilizar-se de ambos atributos visuais e textuais. Nessa perspectiva, este trabalho tem como objetivo utilizar técnicas de extração de informação baseadas em aspectos espaciais e geométricos do documento digitalizado, assim como técnicas de aprendizado de máquina, para otimizar o processo de entendimento do documento (document understanding) e dos formulários (form understanding). Foi feito um dataset próprio a partir de documentos de engenharia interligados, chamados de databooks. Este dataset foi utilizado em experimentos quanto a classificação de entidade (semantic entity labeling) através do modelo LayoutLM. Dessa forma extraindo informações com semântica atrelada, em documentos de estruturas diversas, através de uma abordagem baseada em multitarefas.

TEXTO COMPLETO

Palavras-chave: Extração de informaçãoDocumentos impressosDocumentos digitalizadosEntendimento do documentoEntendimento dos formulários