Free Trial

Base de Connaissance

Apprenez auprès des experts.
TIPS de la semaine

Chaque semaine, découvrez de nouvelles astuces et bonnes pratiques pour devenir un expert !

Voir l'index

Est-ce qu'Alteryx peut analyser un document Word ou un PDF?

Community_Admin
Alteryx
Alteryx
Créé
Est-ce qu'Alteryx peut analyser un document Word ou un PDF?

Une des principales raisons pour lesquelles les gens aiment Alteryx, est la possibilité de lire un grand nombre de source de données différentes. Une limitation est qu'il ne peut pas lire dans un PDF ou un document Word sans l'aide d'une autre source. Pourquoi vouloir faire cela ? Un parfait exemple serait d'analyser un dossier rempli de CV à la recherche d'un texte spécifique.

Pourquoi Alteryx ne peut-il pas lire ces formats nativement ? Il ne s'agit pas de format standard, donc afin de les lire, nous devons d'abord les convertir en texte brut. Pour la conversion, il existe un programme gratuit, open source, appelé DocToText. Ce programme peut être exécuté à partir de la ligne de commande pour convertir ces types de fichiers en texte brut, lisible par Alteryx sans problème.

J'ai attaché un exemple à ce poste. Ce module utilise un outil souvent sous-utilisé, l'outil exécuter une commande. Avec l'aide de cet outil, nous pouvons lire dans une liste de fichiers à partir d'un dossier source spécifique, analyser les informations dans un format utilisable par DocToText, puis convertir les fichers en texte via l'outil exécutez une commande. J'ai inclus tout ce dont vous aurez besoin dans la pièce jointe (y compris un exemple de fichier PDF et l'exécutable).

Téléchargez et ouvrez le fichier yxzp ci-joint, consultez le module, et faites-nous savoir ce que vous pensez ! Vous remarquerez que le paquet produira des erreurs de dépendance de couple lors de l'ouverture. C'est normal! Il n'y aura pas d'erreur lors de l'exécution.

Un merci spécial à Maureen Wolfson pour l'application de base et les suggestions ! A bientôt !

~ Chad
Suivez-moi sur Twitter! @AlteryxChad


10,0
Pièces jointes
contributeurs
Étiquettes