Documentos PDF contêm milhares de informações valiosas que gostaríamos de desbloquear usando o poder do Alteryx! E eles são tão onipresentes que parecem fáceis e simples de explorar. Mas quando a equipe do Alteryx Intelligence Suite decidiu projetar a nova ferramenta PDF para Texto, percebemos que o formato de documento portátil apresentava alguns fatores além do óbvio. Essa complexidade influenciou nossas escolhas ao desenvolver esse novo recurso. Assim, esperamos que você aproveite as vantagens ao máximo quando começar a utilizar a ferramenta!
Basicamente, um PDF é um arquivo criado seguindo as regras do Portable Document Format. A definição de PDF foi introduzida pela Adobe em 1993, e lançada como um padrão aberto mantido pela International Organization of Standardization (ISO) em 2008. A versão atual do padrão ISO para PDFs tem quase 1000 páginas e, entre a versão original e a atual, ocorreram inúmeras mudanças e especificações intermediárias. Essas normas, entretanto, têm sido implementadas por diversos programas para criar PDFs que fazem escolhas distintas sobre como aplicar os requisitos. O resultado da evolução ao longo do tempo e a flexibilidade do modelo de 1000 páginas:
Dois PDFs de aparência idêntica podem apresentar estruturas internas e conteúdos completamente diferentes.
Se alguma vez você já usou um editor de texto para abrir um arquivo e localizar informações específicas e outros dados com um leitor de PDF, talvez tenha vivenciado algo mais ou menos assim:
É importante lembrar que arquivos PDF podem conter alguns dos elementos a seguir:
Quando lidamos diretamente com textos, há uma série de abordagens para a criação de PDFs que dificultam a concepção de uma ferramenta adequada:
Técnicas comuns para a criação de PDFs |
Implicações do armazenamento e extração de textos |
Tirar uma foto ou digitalizar um documento |
O texto é armazenado como gráficos de bitmap e exige o uso do recurso de reconhecimento ótico de caracteres (OCR) para extrair o conteúdo |
Usar o recurso de OCR para sobrepor o texto transparente sobre um documento digitalizado ou baseado em fotos |
O texto é exibido duas vezes no documento — uma como gráficos de bitmap, e outra como uma sobreposição oculta do conteúdo da mensagem para permitir copiar, colar e fazer pesquisas |
Reduzir o tamanho do PDF com a conversão de caracteres em fontes atípicas em gráficos vetoriais (desenhos de letras) em vez de incorporar a fonte completa no documento |
O texto é armazenado como gráficos vetoriais e exige o uso do recurso de OCR para extrair o conteúdo |
Combinar ilustrações de textos, diagramas e informações em uma única página |
O texto é armazenado como gráficos de bitmap, vetoriais e conteúdo de texto, por isso, a extração completa exige a leitura do documento e a aplicação do recurso de OCR no texto gravado nesses formatos |
Redigir um documento digital autêntico com o texto armazenado em forma de conteúdo |
A extração do texto recupera todo o conteúdo do documento! (A menos que existam palavras embutidas em imagens como logotipos, diagramas ou ilustrações.) |
Em 2020, o Alteryx Intelligence Suite foi lançado com recursos projetados para extrair dados de PDFs. Na versão original, primeiro convertemos todos os PDFs em imagens com a ferramenta Entrada de Imagem. Em seguida, aplicamos a função de OCR à imagem de cada página usando a ferramenta Imagem para Texto. Esse sistema é excelente porque sempre funciona, independentemente de como o PDF foi criado!
No entanto, mesmo um modelo excepcional de OCR aplicado às imagens mais nítidas do texto apresenta cerca de 97% de precisão. O que também é ótimo! Mas se uma página contém centenas de caracteres, as inconsistências podem se acumular. (Além disso, mecanismos OCR podem ser lentos). Como existem alguns PDFs que podem ser lidos de forma direta e imediata (com quase 100% de acurácia na maioria dos casos), começamos a refletir sobre a possibilidade de incluir esse recurso no Alteryx.
Entra em cena: PDF para Texto! Nosso objetivo principal ao criar a ferramenta era apenas extrair o conteúdo de texto de documentos PDF. Assim, nos deparamos com a fatura abaixo:
Essa é uma fatura real enviada por um de nossos fornecedores (embora as informações sejam anônimas para garantir a privacidade de todos). Nessa página, o conteúdo de texto nos fornece somente metade das informações apresentadas, enquanto o restante do documento é armazenado como um conteúdo gráfico. Dependendo do caso de uso, esse texto pode conter todas as informações relevantes, mas também pode ser que deixemos de analisar dados essenciais!
Com isso, descobrimos que era necessário fazer alguns ajustes:
Desenvolvemos esses parâmetros ao avaliar um conjunto significativo de documentos, mas você também pode calcular seu próprio critério de risco utilizando a contagem bruta de palavras e imagens dos gráficos nas páginas, e atribuir esses indicadores utilizando a ferramenta Fórmula. Você também usar as colunas com o grau de risco ou a contagem de palavras para filtrar páginas, e separá-las em diferentes fluxos para processamento.
Utilizar a opção Ler apenas conteúdo do texto combinada com a opção Pontuação de risco para texto codificado como gráfico, não resulta em maior velocidade do que usar Ler conteúdo de texto e imagem, pois ambas fazem a leitura do conteúdo de texto e aplicam o recurso de OCR em cada página. Entretanto, essa combinação oferece aos usuários a oportunidade de explorar os riscos de aplicarem a opção Ler apenas conteúdo do texto sem a classificação de risco, em troca de ganhos de eficiência associados ao dispensar o recurso de OCR.
Agradecemos por nos acompanhar nessa jornada pelo universo dos PDFs e as diversas funções disponíveis na ferramenta PDF para Texto! Estamos ansiosos para saber os resultados que você vai alcançar com esse novo recurso!
Para encontrar recursos adicionais sobre as ferramentas do AIS, clique aqui:
Você deve ser um usuário registrado para adicionar um comentário aqui. Se você já estiver registrado, faça logon. Se você ainda não estiver registrado, registre-se e faça logon.