Free Trial

Base de conhecimento

O Alteryx pode analisar um documento do Word ou PDF?

Community_Admin
Alteryx
Alteryx
Created

Uma das principais razões pelas quais as pessoas adoram o Alteryx é que ele pode ler um número enorme de diferentes fontes de dados.  Uma limitação é que não é possível ler um documento do Word ou PDF sem uma pequena ajuda de outra fonte.  Por que alguém desejaria fazer isso? Bem, um excelente exemplo seria analisar uma pasta cheia de currículos para pesquisar por um texto específico. 

Por que o Alteryx não consegue lê-los de maneira nativa? Esses tipos de arquivo não são formatos de dados padrão, portanto, para lê-los, é preciso primeiro convertê-los em um arquivo de texto sem formatação.  Para a conversão, existe um programa gratuito de código aberto chamado DocToText. Esse programa pode ser executado na linha de comando para converter esses tipos de arquivo em texto sem formatação, os quais o Alteryx pode ler sem problemas.

Eu anexei um exemplo a esta postagem.  Esse fluxo de trabalho utiliza uma ferramenta frequentemente subutilizada, a ferramenta Executar comando.  Com a ajuda dessa ferramenta, podemos ler uma lista de arquivos de uma pasta específica, processar as informações em algo que o DocToText possa usar e, em seguida, utilizar a ferramenta Executar comando para converter todos os arquivos para texto sem formatação para utilização posterior.  Incluí no anexo tudo o que você vai precisar (incluindo uma estrutura de pasta que funciona bem com o módulo). 

Baixe e extraia o arquivo yxzp anexado, confira o módulo e conte-nos o que você acha! Este exemplo foi atualizado para a versão 10.0. Você observará que o pacote gerará alguns erros de dependência ao extraí-lo. Sem problemas, não haverá erro na execução.

Um agradecimento especial a Maureen Wolfson pelo aplicativo base e sugestão! Até a próxima!

~ Chad
Siga-me no Twitter! @AlteryxChad

Contribudores
Rótulos