Blog

EmilyVA · ‎11-28-2022

Les fichiers PDF contiennent des tonnes d'informations précieuses dont nous aimerions tirer parti en utilisant la puissance d'Alteryx ! Et ils sont tellement omniprésents qu'ils semblent familiers et faciles à utiliser. Mais lorsque notre équipe Alteryx Intelligence Suite s'est réunie pour concevoir le nouvel outil PDF vers texte, nous avons constaté que le format PDF (Portable Document Format) est plus complexe que ce que nous imaginions. Cette complexité a façonné nos choix de conception du nouvel outil. Nous espérons que la présentation de ce processus vous sera utile lorsque vous commencerez à utiliser cet outil !

via GIPHY

Mais qu'est-ce qu'un PDF ?

Un PDF est fondamentalement un fichier créé conformément aux règles du Portable Document Format. La spécification PDF a été introduite pour la première fois par Adobe en 1993, puis publiée en tant que norme ouverte gérée par l'Organisation internationale de normalisation (ISO) en 2008. La version actuelle de la norme ISO pour les PDF fait presque 1 000 pages, et il existe plusieurs spécifications ajoutées entre-temps. Ces normes ont, à leur tour, été implémentées par de multiples programmes de rédaction PDF qui ont fait différents choix dans la façon d'appliquer les spécifications. Résultat de cette évolution au fil du temps et de la flexibilité de la norme de 1 000 pages :

Deux PDF identiques peuvent avoir des structures internes et des contenus très différents.

via GIPHY

Si vous avez déjà essayé d'ouvrir un PDF avec un éditeur de texte pour explorer le texte et d'autres éléments que vous voyez avec un lecteur PDF, vous avez peut-être rencontré quelque chose de ce genre :

via GIPHY

Cela dit, tout fichier PDF peut contenir certains des éléments suivants :

Éléments graphiques Bitmap (photographies, numérisations, autres images spécifiées pixel par pixel)
Éléments graphiques vectoriels (instructions pour créer des représentations graphiques à l'aide de formes et de lignes)

Texte stocké en tant que flux de contenu (instructions sur l'emplacement et la manière de tracer du texte sur la page)
Objets multimédias, liens et autres contenus intégrés
Polices fournies avec le fichier pour les utiliser avec le document
Instructions pour savoir comment et où tracer ou intégrer chaque élément sur chaque page

image-20220817-175140 (1).png

Pour ce qui est du texte à proprement parler, les nombreuses approches pour créer des PDF nous ont compliqué davantage la conception d'un bon outil d'extraction de texte PDF :

Techniques courantes de création de PDF	Implications pour le stockage et l'extraction de texte
Prise d'une photo ou numérisation d'un document	Le texte est stocké sous forme d'éléments graphiques Bitmap et nécessite la reconnaissance optique des caractères (OCR) pour être extrait
Utilisation de l'OCR pour superposer du texte transparent sur un document numérisé ou une photo	Le texte apparaît deux fois dans le document : une fois sous forme d'éléments Bitmap dans l'image et une fois sous forme de contenu textuel invisible superposé pour prendre en charge le copier-coller et la recherche
Optimisation de la taille du PDF en convertissant les caractères d'une police spéciale en éléments graphiques vectoriels (dessins des lettres) au lieu d'incorporer la police dans le document	Le texte est stocké sous forme d'éléments graphiques vectoriels et nécessite l'OCR pour être extrait
Combinaison d'images de texte, de dessins de texte et de contenu textuel sur une seule page	Le texte est stocké sous forme d'éléments Bitmap, d'éléments graphiques vectoriels et de contenu texte. L'extraction de tous les mots nécessite donc à la fois la lecture du contenu textuel et l'application de l'OCR au texte stocké sous forme d'éléments Bitmap et vectoriels
Rédaction d'un document numérique « True PDF » avec tout le texte stocké en tant que contenu textuel	Hourra ! L'extraction du contenu textuel récupérera tout le texte du document (sauf si des mots sont intégrés dans des images comme des logos, ou encore des diagrammes).

via GIPHY

Intégration de PDF dans Alteryx : les outils d'origine

En 2020, Alteryx Intelligence Suite a été lancé avec des outils conçus pour extraire des données à partir de fichiers PDF. Dans notre approche initiale, nous convertissons d'abord tous les fichiers PDF en images avec Entrée d'image. Nous appliquons ensuite la fonction OCR à l'image de chaque page avec Image en texte. C'est génial, car cela fonctionne toujours, quelle que soit la façon de créer le PDF !

image-20220817-201931 (1).png

Cependant, même un excellent modèle OCR appliqué aux images de texte les plus nettes n'a qu'une précision d'environ 97 %. Ce qui est également très bien ! Mais si une page de texte contient des centaines de caractères, de petites inexactitudes peuvent s'accumuler (et les modèles OCR peuvent être un peu lents). Comme certains PDF contiennent du texte qui peut être lu directement (et rapidement, avec une précision à presque 100 % dans la plupart des cas), nous nous sommes demandé s'il y avait un moyen d'intégrer ce texte à Alteryx.

via GIPHY

Intégration de PDF dans Alteryx : la nouvelle génération

Entrée : PDF vers texte ! Notre objectif initial avec PDF vers texte était simplement d'extraire le contenu textuel des documents PDF. Nous avons ensuite obtenu la facture ci-dessous :

image-20220817-194408 (1).png

Il s'agit d'une vraie facture qu'Alteryx a reçue de l'un de nos fournisseurs (mais tous les noms et numéros ont été anonymisés pour des questions de confidentialité). Pour cette page, le contenu textuel seul nous permettra d'obtenir environ la moitié du texte présent, mais le reste du texte est stocké en tant que contenu graphique. Et dans certains cas, le contenu texte peut contenir tout ce dont nous avons besoin… ou peut-être pas.

via GIPHY

Nous avons donc constaté que nous devions prendre les mesures suivantes :

Donner aux utilisateurs la possibilité de combiner le contenu textuel avec les résultats OCR du contenu graphique de chaque page. Pendant le processus de développement, nous appelions cela de la « magie », car une grande réflexion créative a été nécessaire pour que la solution fonctionne. Il s'agit de l'option d'extraction de texte Lire le contenu du texte et de l'image dans PDF vers texte. Cette approche donne le résultat le plus complet et le plus précis pour le texte sur la page, mais est plus lente (environ 1-2 secondes par page selon le document et le matériel de votre ordinateur).

via GIPHY

Donner aux utilisateurs la possibilité de lire le contenu textuel uniquement lorsque tout le contenu qui les intéresse est disponible sous forme de contenu textuel et qu'ils ne souhaitent pas prendre le temps d'exécuter l'OCR sur chaque page. Cela peut être beaucoup plus rapide (environ 0,2-1 seconde par page, encore une fois selon le document et le matériel de votre ordinateur)… Mais aussi un peu plus... problématique ! Parce qu'il est difficile de savoir ce qu'on peut perdre dans le texte graphique !

via GIPHY

Donner aux utilisateurs des garde-fous qui leur permettront de lire le contenu textuel uniquement tout en évaluant leur perte de contenu critique présent sous forme de texte graphique. Plus précisément :
- Générer une image des éléments graphiques de la page permet de générer grand objet binaire dans la colonne Sortie d'image avec la valeur « Éléments graphiques PDF » de la colonne Option de sortie. Le rendu de cette image peut être effectué en connectant un outil Image avec l'option Obtenir l'image à partir des données binaires du champ et vous pouvez effectuer l'inspection visuelle à l'aide d'un outil Explorateur attaché à l'outil Image. Cela affiche uniquement ce qui est « perdu » par l'extraction du contenu textuel.

image-20220826-223905 (1).png

- L'Évaluation du risque pour le texte encodé sous forme d'élément graphique va plus loin et applique l'OCR uniquement aux éléments graphiques de chaque page. Cette fonction compte le nombre de mots de texte graphique et l'indique dans la colonne Nombre de mots de texte graphique. Elle attribue également un niveau de risque de texte graphique à chaque page en fonction de ce nombre de mots.
  - 9 mots de texte graphique ou moins (comme dans un logo) : risque faible
  - 10-29 mots : risque moyen
  - 30 mots ou plus : risque élevé

Nous avons développé ces seuils en analysant un ensemble représentatif de documents, mais vous pouvez étalonner vos propres niveaux de risque à l'aide du nombre de mots bruts et des images d'éléments graphiques de pages pour vos documents et attribuer ces niveaux de risque à l'aide d'un outil Formule. Vous pouvez également utiliser le niveau de risque ou le nombre de mots de texte graphique pour filtrer vos pages en aval dans différents workflows de traitement.

La combinaison de l'option Lire le contenu textuel uniquement avec l'option Évaluation du risque pour le texte encodé sous forme d'élément graphique n'est pas beaucoup plus rapide que l'option Lire le contenu du texte et de l'image, car ces deux options lisent du contenu textuel et appliquent l'OCR à chaque page. Cependant, cette combinaison offre aux utilisateurs la possibilité d'explorer les risques qu'ils prendraient s'ils exécutaient l'option Lire le contenu textuel uniquement et négligeaient l'évaluation du risque en échange d'un gain de temps en ne passant pas l'OCR.

via GIPHY

Nous offrons également aux utilisateurs la possibilité d'afficher un aperçu de ce que peut extraire l'option Lire le contenu textuel uniquement par rapport à l'option Lire le contenu du texte et de l'image. Lorsqu'un seul fichier est sélectionné à l'aide du bouton Parcourir dans la fenêtre de configuration de PDF vers texte, la fenêtre Aperçu ci-dessous affiche le contenu auquel chaque option d'extraction de texte peut accéder. Par exemple, dans l'exemple ci-dessous, nous pouvons voir que pour ce fichier, la majeure partie du texte serait extraite avec Lire le contenu textuel uniquement (à droite), mais que le texte incorporé dans les images des barres d'outils sera ignoré (pour le meilleur ou pour le pire, selon la façon dont les données seront utilisées en aval).

image-20220829-195021 (1).png

Un avantage du mode Lire le contenu textuel uniquement : plus de langues ! L'OCR employée dans Lire le contenu du texte et de l'image et Évaluation du risque pour le texte encodé sous forme d'élément graphique utilise les langues spécifiées dans la sélection Langue pour affiner ses résultats. Cependant, l'extraction du contenu textuel lit les caractères directement à partir du PDF, et tant qu'il est possible de lire ces caractères, indépendamment de leur langue !

via GIPHY

Conclusion

Merci de nous avoir suivis dans cette exploration des entrailles des fichiers PDF et des options proposées dans PDF vers texte ! Nous sommes impatients de découvrir ce que vous pouvez faire avec cet outil !

Pour trouver des ressources supplémentaires sur les outils AIS, cliquez ici :

Blog

TIPS de la semaine

Présentation : PDF vers texte

Mais qu'est-ce qu'un PDF ?

Intégration de PDF dans Alteryx : les outils d'origine

Intégration de PDF dans Alteryx : la nouvelle génération

Conclusion

Le Starter Kit Avancé des Sorties Excel 1

Re: Pense bête RegEx !

Pense bête RegEx !

Customer Managed Telemetry

Ressources utiles dans Alteryx Designer

Blog

TIPS de la semaine

Présentation : PDF vers texte

Mais qu'est-ce qu'un PDF ?

Intégration de PDF dans Alteryx : les outils d'origine

Intégration de PDF dans Alteryx : la nouvelle génération

Conclusion

Le Starter Kit Avancé des Sorties Excel 1

Re: Pense bête RegEx !

Pense bête RegEx !

Customer Managed Telemetry

Ressources utiles dans Alteryx Designer

Présentation : PDF vers texte

Mais qu'est-ce qu'un PDF ?

Intégration de PDF dans Alteryx : les outils d'origine

Intégration de PDF dans Alteryx : la nouvelle génération