Free Trial

Blog

Insights e ideias das mentes mais brilhantes em análise de dados.
EmilyVA
Alteryx
Alteryx

Documentos PDF contêm milhares de informações valiosas que gostaríamos de desbloquear usando o poder do Alteryx! E eles são tão onipresentes que parecem fáceis e simples de explorar. Mas quando a equipe do Alteryx Intelligence Suite decidiu projetar a nova ferramenta PDF para Texto, percebemos que o formato de documento portátil apresentava alguns fatores além do óbvio. Essa complexidade influenciou nossas escolhas ao desenvolver esse novo recurso. Assim, esperamos que você aproveite as vantagens ao máximo quando começar a utilizar a ferramenta! 

 

via GIPHY

 

Afinal, o que é um PDF? 

 

Basicamente, um PDF é um arquivo criado seguindo as regras do Portable Document Format. A definição de PDF foi introduzida pela Adobe em 1993, e lançada como um padrão aberto mantido pela International Organization of Standardization (ISO) em 2008. A versão atual do padrão ISO para PDFs tem quase 1000 páginas e, entre a versão original e a atual, ocorreram inúmeras mudanças e especificações intermediárias. Essas normas, entretanto, têm sido implementadas por diversos programas para criar PDFs que fazem escolhas distintas sobre como aplicar os requisitos. O resultado da evolução ao longo do tempo e a flexibilidade do modelo de 1000 páginas:  

 

Dois PDFs de aparência idêntica podem apresentar estruturas internas e conteúdos completamente diferentes. 

 

via GIPHY

 

Se alguma vez você já usou um editor de texto para abrir um arquivo e localizar informações específicas e outros dados com um leitor de PDF, talvez tenha vivenciado algo mais ou menos assim:  

 

via GIPHY

 

É importante lembrar que arquivos PDF podem conter alguns dos elementos a seguir: 

  • Gráficos de bitmap (fotos, digitalizações, imagens detalhadas pixel por pixel) 
  • Gráficos vetoriais (instruções para criar gráficos usando formas e linhas) 
  • Texto gravado como fluxos de conteúdo (instruções sobre onde e como extrair o conteúdo da página) 
  • Itens multimídia, links e outros componentes embutidos 
  • Fontes contidas no arquivo para permitir a transferência do documento 
  • Instruções sobre como e onde encaixar cada elemento na página 

 

image-20220817-175140 (1).png

 

Quando lidamos diretamente com textos, há uma série de abordagens para a criação de PDFs que dificultam a concepção de uma ferramenta adequada: 

 

Técnicas comuns para a criação de PDFs 

Implicações do armazenamento e extração de textos 

Tirar uma foto ou digitalizar um documento 

O texto é armazenado como gráficos de bitmap e exige o uso do recurso de reconhecimento ótico de caracteres (OCR) para extrair o conteúdo 

Usar o recurso de OCR para sobrepor o texto transparente sobre um documento digitalizado ou baseado em fotos  

O texto é exibido duas vezes no documento — uma como gráficos de bitmap, e outra como uma sobreposição oculta do conteúdo da mensagem para permitir copiar, colar e fazer pesquisas  

Reduzir o tamanho do PDF com a conversão de caracteres em fontes atípicas em gráficos vetoriais (desenhos de letras) em vez de incorporar a fonte completa no documento 

O texto é armazenado como gráficos vetoriais e exige o uso do recurso de OCR para extrair o conteúdo 

Combinar ilustrações de textos, diagramas e informações em uma única página 

O texto é armazenado como gráficos de bitmap, vetoriais e conteúdo de texto, por isso, a extração completa exige a leitura do documento e a aplicação do recurso de OCR no texto gravado nesses formatos 

Redigir um documento digital autêntico com o texto armazenado em forma de conteúdo 

A extração do texto recupera todo o conteúdo do documento! (A menos que existam palavras embutidas em imagens como logotipos, diagramas ou ilustrações.) 

 

via GIPHY

 

Introdução de PDFs no Alteryx: ferramentas originais 

 

Em 2020, o Alteryx Intelligence Suite foi lançado com recursos projetados para extrair dados de PDFs. Na versão original, primeiro convertemos todos os PDFs em imagens com a ferramenta Entrada de Imagem. Em seguida, aplicamos a função de OCR à imagem de cada página usando a ferramenta Imagem para Texto. Esse sistema é excelente porque sempre funciona, independentemente de como o PDF foi criado!  

 

image-20220817-201931 (1).png

 

No entanto, mesmo um modelo excepcional de OCR aplicado às imagens mais nítidas do texto apresenta cerca de 97% de precisão. O que também é ótimo! Mas se uma página contém centenas de caracteres, as inconsistências podem se acumular. (Além disso, mecanismos OCR podem ser lentos). Como existem alguns PDFs que podem ser lidos de forma direta e imediata (com quase 100% de acurácia na maioria dos casos), começamos a refletir sobre a possibilidade de incluir esse recurso no Alteryx. 

 

via GIPHY

 

Introdução de PDFs no Alteryx: a próxima geração 

 

Entra em cena: PDF para Texto! Nosso objetivo principal ao criar a ferramenta era apenas extrair o conteúdo de texto de documentos PDF. Assim, nos deparamos com a fatura abaixo: 

 

image-20220817-194408 (1).png

Essa é uma fatura real enviada por um de nossos fornecedores (embora as informações sejam anônimas para garantir a privacidade de todos). Nessa página, o conteúdo de texto nos fornece somente metade das informações apresentadas, enquanto o restante do documento é armazenado como um conteúdo gráfico. Dependendo do caso de uso, esse texto pode conter todas as informações relevantes, mas também pode ser que deixemos de analisar dados essenciais! 

 

via GIPHY

 

Com isso, descobrimos que era necessário fazer alguns ajustes: 

  • Oferecer aos usuários a opção de combinar conteúdo de textos com resultados de OCR obtidos do conteúdo gráfico de cada página. Durante o processo de desenvolvimento interno, apelidamos isso de "mágica", pois a solução exigiu reflexões inovadoras para funcionar com sucesso. Essa é a opção Ler conteúdo de texto e imagem, incluída na ferramenta PDF para Texto. O recurso apresenta resultados mais completos e precisos sobre o texto da página, mas consome mais tempo (cerca de 1 a 2 segundos por página, dependendo do documento e do hardware do computador). 

 

via GIPHY

 

  • Proporcionar aos usuários a opção Ler apenas conteúdo de texto quando todas as informações de interesse estiverem disponíveis nesse formato, e quando optarem por não utilizar o OCR em cada página. Esse processo pode ser muito mais rápido (cerca de 0,2 - 1 segundo por página, dependendo sempre do documento e do hardware do computador)! Mas também pode ser um tanto arriscado, porque você pode perder informações salvas como imagens sem saber!  

 

via GIPHY

 

  • Fornecer aos usuários uma margem de segurança para Ler apenas conteúdo do texto ao mesmo tempo em que avalia se há informações sendo perdidas por estarem na forma de conteúdo gráfico. Em particular: 
    • Gerar imagens dos gráficos da página resulta em um BLOB (objeto grande binário) na coluna de saída "Image" com o valor "pdf graphics". Você pode renderizar essa imagem ao conectar a ferramenta Imagem com a opção Obter imagem dos dados binários de um campo, e usá-la junto com a ferramenta Navegar para visualizar todos os detalhes. Ela exibe apenas as informações deixadas "para trás" com a extração do conteúdo de texto. image-20220826-223905 (1).png
    • A opção Pontuação de risco para texto codificado como gráfico vai mais além e aplica o recurso de OCR somente aos elementos gráficos de cada página. Ela conta o número de palavras e mostra o resultado na coluna "Graphic Text Word Count". Ela também atribui uma classificação de risco com base na contagem de palavras em cada página. 
      • Até 9 palavras (como por exemplo, em um logotipo): risco baixo 
      • 10 a 29 palavras: risco moderado 
      • 30 ou mais palavras: risco elevado 

 

Desenvolvemos esses parâmetros ao avaliar um conjunto significativo de documentos, mas você também pode calcular seu próprio critério de risco utilizando a contagem bruta de palavras e imagens dos gráficos nas páginas, e atribuir esses indicadores utilizando a ferramenta Fórmula. Você também usar as colunas com o grau de risco ou a contagem de palavras para filtrar páginas, e separá-las em diferentes fluxos para processamento.  

 

Utilizar a opção Ler apenas conteúdo do texto combinada com a opção Pontuação de risco para texto codificado como gráfico, não resulta em maior velocidade do que usar Ler conteúdo de texto e imagem, pois ambas fazem a leitura do conteúdo de texto e aplicam o recurso de OCR em cada página. Entretanto, essa combinação oferece aos usuários a oportunidade de explorar os riscos de aplicarem a opção Ler apenas conteúdo do texto sem a classificação de risco, em troca de ganhos de eficiência associados ao dispensar o recurso de OCR. 

 

via GIPHY

 

  • Também oferecemos aos usuários uma Pré-visualização da diferença dos resultados entre as opções  Ler apenas conteúdo do texto e Ler conteúdo de texto e imagem. Ao selecionar um único arquivo através do botão "Navegar" na janela de configuração da ferramenta PDF para Texto, a tela de pré-visualização abaixo exibirá o conteúdo que cada opção tem acesso. Como, por exemplo, no modelo a seguir. Podemos observar que para este arquivo, a maior parte do texto seria extraída com a opção Ler apenas conteúdo do texto (à direita), mas o texto embutido nas imagens das barras de ferramentas seria omitido (o que pode ser bom ou ruim, dependendo da forma como os dados serão usados posteriormente). 

 

image-20220829-195021 (1).png

 

  • Um bônus do modo Ler apenas conteúdo do texto: outros idiomas! O recurso de OCR usado na opção Ler conteúdo de texto e imagem, assim como na Pontuação de risco para texto codificado como gráfico, utiliza o idioma definido na configuração para refinar seus resultados. Entretanto, a extração do conteúdo do texto lê caracteres diretamente do PDF, e desde que consiga interpretar esses caracteres, tanto faz o idioma em que eles estão!   

 

via GIPHY

 

Conclusão 

 

Agradecemos por nos acompanhar nessa jornada pelo universo dos PDFs e as diversas funções disponíveis na ferramenta PDF para Texto! Estamos ansiosos para saber os resultados que você vai alcançar com esse novo recurso! 

Para encontrar recursos adicionais sobre as ferramentas do AIS, clique aqui: 

  1. Trilha de aprendizagem do Alteryx Intelligence Suite 
  2. Página de ajuda das ferramentas do Alteryx Intelligence Suite 

 

Rótulos