Free Trial

Blog

Les analyses et les idées des plus grands esprits de l'analyse.
TIPS de la semaine

Chaque semaine, découvrez de nouvelles astuces et bonnes pratiques pour devenir un expert !

Voir l'index
EmilyVA
Alteryx
Alteryx

Les fichiers PDF contiennent des tonnes d'informations précieuses dont nous aimerions tirer parti en utilisant la puissance d'Alteryx ! Et ils sont tellement omniprésents qu'ils semblent familiers et faciles à utiliser. Mais lorsque notre équipe Alteryx Intelligence Suite s'est réunie pour concevoir le nouvel outil PDF vers texte, nous avons constaté que le format PDF (Portable Document Format) est plus complexe que ce que nous imaginions. Cette complexité a façonné nos choix de conception du nouvel outil. Nous espérons que la présentation de ce processus vous sera utile lorsque vous commencerez à utiliser cet outil ! 

 

via GIPHY

 

Mais qu'est-ce qu'un PDF ? 

 

Un PDF est fondamentalement un fichier créé conformément aux règles du Portable Document Format. La spécification PDF a été introduite pour la première fois par Adobe en 1993, puis publiée en tant que norme ouverte gérée par l'Organisation internationale de normalisation (ISO) en 2008. La version actuelle de la norme ISO pour les PDF fait presque 1 000 pages, et il existe plusieurs spécifications ajoutées entre-temps. Ces normes ont, à leur tour, été implémentées par de multiples programmes de rédaction PDF qui ont fait différents choix dans la façon d'appliquer les spécifications. Résultat de cette évolution au fil du temps et de la flexibilité de la norme de 1 000 pages :  

 

Deux PDF identiques peuvent avoir des structures internes et des contenus très différents. 

 

via GIPHY

 

Si vous avez déjà essayé d'ouvrir un PDF avec un éditeur de texte pour explorer le texte et d'autres éléments que vous voyez avec un lecteur PDF, vous avez peut-être rencontré quelque chose de ce genre : 

 

via GIPHY

 

Cela dit, tout fichier PDF peut contenir certains des éléments suivants : 

  • Éléments graphiques Bitmap (photographies, numérisations, autres images spécifiées pixel par pixel) 
  • Éléments graphiques vectoriels (instructions pour créer des représentations graphiques à l'aide de formes et de lignes) 
  • Texte stocké en tant que flux de contenu (instructions sur l'emplacement et la manière de tracer du texte sur la page) 
  • Objets multimédias, liens et autres contenus intégrés 
  • Polices fournies avec le fichier pour les utiliser avec le document 
  • Instructions pour savoir comment et où tracer ou intégrer chaque élément sur chaque page 

 

image-20220817-175140 (1).png

 

Pour ce qui est du texte à proprement parler, les nombreuses approches pour créer des PDF nous ont compliqué davantage la conception d'un bon outil d'extraction de texte PDF : 

 

Techniques courantes de création de PDF 

Implications pour le stockage et l'extraction de texte 

Prise d'une photo ou numérisation d'un document 

Le texte est stocké sous forme d'éléments graphiques Bitmap et nécessite la reconnaissance optique des caractères (OCR) pour être extrait 

Utilisation de l'OCR pour superposer du texte transparent sur un document numérisé ou une photo  

Le texte apparaît deux fois dans le document : une fois sous forme d'éléments Bitmap dans l'image et une fois sous forme de contenu textuel invisible superposé pour prendre en charge le copier-coller et la recherche  

Optimisation de la taille du PDF en convertissant les caractères d'une police spéciale en éléments graphiques vectoriels (dessins des lettres) au lieu d'incorporer la police dans le document 

Le texte est stocké sous forme d'éléments graphiques vectoriels et nécessite l'OCR pour être extrait 

Combinaison d'images de texte, de dessins de texte et de contenu textuel sur une seule page 

Le texte est stocké sous forme d'éléments Bitmap, d'éléments graphiques vectoriels et de contenu texte. L'extraction de tous les mots nécessite donc à la fois la lecture du contenu textuel et l'application de l'OCR au texte stocké sous forme d'éléments Bitmap et vectoriels 

Rédaction d'un document numérique « True PDF » avec tout le texte stocké en tant que contenu textuel 

Hourra ! L'extraction du contenu textuel récupérera tout le texte du document (sauf si des mots sont intégrés dans des images comme des logos, ou encore des diagrammes). 

 

via GIPHY

 

Intégration de PDF dans Alteryx : les outils d'origine 

 

En 2020, Alteryx Intelligence Suite a été lancé avec des outils conçus pour extraire des données à partir de fichiers PDF. Dans notre approche initiale, nous convertissons d'abord tous les fichiers PDF en images avec Entrée d'image. Nous appliquons ensuite la fonction OCR à l'image de chaque page avec Image en texte. C'est génial, car cela fonctionne toujours, quelle que soit la façon de créer le PDF !  

 

image-20220817-201931 (1).png

 

Cependant, même un excellent modèle OCR appliqué aux images de texte les plus nettes n'a qu'une précision d'environ 97 %. Ce qui est également très bien ! Mais si une page de texte contient des centaines de caractères, de petites inexactitudes peuvent s'accumuler (et les modèles OCR peuvent être un peu lents). Comme certains PDF contiennent du texte qui peut être lu directement (et rapidement, avec une précision à presque 100 % dans la plupart des cas), nous nous sommes demandé s'il y avait un moyen d'intégrer ce texte à Alteryx. 

 

via GIPHY

 

Intégration de PDF dans Alteryx : la nouvelle génération 

 

Entrée : PDF vers texte ! Notre objectif initial avec PDF vers texte était simplement d'extraire le contenu textuel des documents PDF. Nous avons ensuite obtenu la facture ci-dessous : 

 

image-20220817-194408 (1).png

 

Il s'agit d'une vraie facture qu'Alteryx a reçue de l'un de nos fournisseurs (mais tous les noms et numéros ont été anonymisés pour des questions de confidentialité). Pour cette page, le contenu textuel seul nous permettra d'obtenir environ la moitié du texte présent, mais le reste du texte est stocké en tant que contenu graphique. Et dans certains cas, le contenu texte peut contenir tout ce dont nous avons besoin… ou peut-être pas. 

 

via GIPHY

 

Nous avons donc constaté que nous devions prendre les mesures suivantes : 

  • Donner aux utilisateurs la possibilité de combiner le contenu textuel avec les résultats OCR du contenu graphique de chaque page. Pendant le processus de développement, nous appelions cela de la « magie », car une grande réflexion créative a été nécessaire pour que la solution fonctionne. Il s'agit de l'option d'extraction de texte Lire le contenu du texte et de l'image dans PDF vers texte. Cette approche donne le résultat le plus complet et le plus précis pour le texte sur la page, mais est plus lente (environ 1-2 secondes par page selon le document et le matériel de votre ordinateur). 

 

via GIPHY

 

  • Donner aux utilisateurs la possibilité de lire le contenu textuel uniquement lorsque tout le contenu qui les intéresse est disponible sous forme de contenu textuel et qu'ils ne souhaitent pas prendre le temps d'exécuter l'OCR sur chaque page. Cela peut être beaucoup plus rapide (environ 0,2-1 seconde par page, encore une fois selon le document et le matériel de votre ordinateur)… Mais aussi un peu plus... problématique ! Parce qu'il est difficile de savoir ce qu'on peut perdre dans le texte graphique ! 

 

via GIPHY

 

  • Donner aux utilisateurs des garde-fous qui leur permettront de lire le contenu textuel uniquement tout en évaluant leur perte de contenu critique présent sous forme de texte graphique. Plus précisément : 
    • Générer une image des éléments graphiques de la page permet de générer grand objet binaire dans la colonne Sortie d'image avec la valeur « Éléments graphiques PDF » de la colonne Option de sortie. Le rendu de cette image peut être effectué en connectant un outil Image avec l'option Obtenir l'image à partir des données binaires du champ et vous pouvez effectuer l'inspection visuelle à l'aide d'un outil Explorateur attaché à l'outil Image. Cela affiche uniquement ce qui est « perdu » par l'extraction du contenu textuel. 

 

image-20220826-223905 (1).png

 

    • L'Évaluation du risque pour le texte encodé sous forme d'élément graphique va plus loin et applique l'OCR uniquement aux éléments graphiques de chaque page. Cette fonction compte le nombre de mots de texte graphique et l'indique dans la colonne Nombre de mots de texte graphique. Elle attribue également un niveau de risque de texte graphique à chaque page en fonction de ce nombre de mots. 
      • 9 mots de texte graphique ou moins (comme dans un logo) : risque faible 
      • 10-29 mots : risque moyen 
      • 30 mots ou plus : risque élevé 

 

Nous avons développé ces seuils en analysant un ensemble représentatif de documents, mais vous pouvez étalonner vos propres niveaux de risque à l'aide du nombre de mots bruts et des images d'éléments graphiques de pages pour vos documents et attribuer ces niveaux de risque à l'aide d'un outil Formule. Vous pouvez également utiliser le niveau de risque ou le nombre de mots de texte graphique pour filtrer vos pages en aval dans différents workflows de traitement.  

 

La combinaison de l'option Lire le contenu textuel uniquement avec l'option Évaluation du risque pour le texte encodé sous forme d'élément graphique n'est pas beaucoup plus rapide que l'option Lire le contenu du texte et de l'image, car ces deux options lisent du contenu textuel et appliquent l'OCR à chaque page. Cependant, cette combinaison offre aux utilisateurs la possibilité d'explorer les risques qu'ils prendraient s'ils exécutaient l'option Lire le contenu textuel uniquement et négligeaient l'évaluation du risque en échange d'un gain de temps en ne passant pas l'OCR. 

 

via GIPHY

 

  • Nous offrons également aux utilisateurs la possibilité d'afficher un aperçu de ce que peut extraire l'option Lire le contenu textuel uniquement par rapport à l'option Lire le contenu du texte et de l'image. Lorsqu'un seul fichier est sélectionné à l'aide du bouton Parcourir dans la fenêtre de configuration de PDF vers texte, la fenêtre Aperçu ci-dessous affiche le contenu auquel chaque option d'extraction de texte peut accéder. Par exemple, dans l'exemple ci-dessous, nous pouvons voir que pour ce fichier, la majeure partie du texte serait extraite avec Lire le contenu textuel uniquement (à droite), mais que le texte incorporé dans les images des barres d'outils sera ignoré (pour le meilleur ou pour le pire, selon la façon dont les données seront utilisées en aval). 

 

image-20220829-195021 (1).png

 

  • Un avantage du mode Lire le contenu textuel uniquement : plus de langues ! L'OCR employée dans Lire le contenu du texte et de l'image et Évaluation du risque pour le texte encodé sous forme d'élément graphique utilise les langues spécifiées dans la sélection Langue pour affiner ses résultats. Cependant, l'extraction du contenu textuel lit les caractères directement à partir du PDF, et tant qu'il est possible de lire ces caractères, indépendamment de leur langue ! 

 

via GIPHY

 

Conclusion 

 

Merci de nous avoir suivis dans cette exploration des entrailles des fichiers PDF et des options proposées dans PDF vers texte ! Nous sommes impatients de découvrir ce que vous pouvez faire avec cet outil ! 
  
Pour trouver des ressources supplémentaires sur les outils AIS, cliquez ici : 

  1. Parcours d'apprentissage Alteryx Intelligence Suite 
  2. Page d'aide principale des outils Alteryx Intelligence Suite 

 

Étiquettes