Chaque semaine, découvrez de nouvelles astuces et bonnes pratiques pour devenir un expert !
Voir l'indexLes fichiers PDF contiennent des tonnes d'informations précieuses dont nous aimerions tirer parti en utilisant la puissance d'Alteryx ! Et ils sont tellement omniprésents qu'ils semblent familiers et faciles à utiliser. Mais lorsque notre équipe Alteryx Intelligence Suite s'est réunie pour concevoir le nouvel outil PDF vers texte, nous avons constaté que le format PDF (Portable Document Format) est plus complexe que ce que nous imaginions. Cette complexité a façonné nos choix de conception du nouvel outil. Nous espérons que la présentation de ce processus vous sera utile lorsque vous commencerez à utiliser cet outil !
Un PDF est fondamentalement un fichier créé conformément aux règles du Portable Document Format. La spécification PDF a été introduite pour la première fois par Adobe en 1993, puis publiée en tant que norme ouverte gérée par l'Organisation internationale de normalisation (ISO) en 2008. La version actuelle de la norme ISO pour les PDF fait presque 1 000 pages, et il existe plusieurs spécifications ajoutées entre-temps. Ces normes ont, à leur tour, été implémentées par de multiples programmes de rédaction PDF qui ont fait différents choix dans la façon d'appliquer les spécifications. Résultat de cette évolution au fil du temps et de la flexibilité de la norme de 1 000 pages :
Deux PDF identiques peuvent avoir des structures internes et des contenus très différents.
Si vous avez déjà essayé d'ouvrir un PDF avec un éditeur de texte pour explorer le texte et d'autres éléments que vous voyez avec un lecteur PDF, vous avez peut-être rencontré quelque chose de ce genre :
Cela dit, tout fichier PDF peut contenir certains des éléments suivants :
Pour ce qui est du texte à proprement parler, les nombreuses approches pour créer des PDF nous ont compliqué davantage la conception d'un bon outil d'extraction de texte PDF :
Techniques courantes de création de PDF |
Implications pour le stockage et l'extraction de texte |
Prise d'une photo ou numérisation d'un document |
Le texte est stocké sous forme d'éléments graphiques Bitmap et nécessite la reconnaissance optique des caractères (OCR) pour être extrait |
Utilisation de l'OCR pour superposer du texte transparent sur un document numérisé ou une photo |
Le texte apparaît deux fois dans le document : une fois sous forme d'éléments Bitmap dans l'image et une fois sous forme de contenu textuel invisible superposé pour prendre en charge le copier-coller et la recherche |
Optimisation de la taille du PDF en convertissant les caractères d'une police spéciale en éléments graphiques vectoriels (dessins des lettres) au lieu d'incorporer la police dans le document |
Le texte est stocké sous forme d'éléments graphiques vectoriels et nécessite l'OCR pour être extrait |
Combinaison d'images de texte, de dessins de texte et de contenu textuel sur une seule page |
Le texte est stocké sous forme d'éléments Bitmap, d'éléments graphiques vectoriels et de contenu texte. L'extraction de tous les mots nécessite donc à la fois la lecture du contenu textuel et l'application de l'OCR au texte stocké sous forme d'éléments Bitmap et vectoriels |
Rédaction d'un document numérique « True PDF » avec tout le texte stocké en tant que contenu textuel |
Hourra ! L'extraction du contenu textuel récupérera tout le texte du document (sauf si des mots sont intégrés dans des images comme des logos, ou encore des diagrammes). |
En 2020, Alteryx Intelligence Suite a été lancé avec des outils conçus pour extraire des données à partir de fichiers PDF. Dans notre approche initiale, nous convertissons d'abord tous les fichiers PDF en images avec Entrée d'image. Nous appliquons ensuite la fonction OCR à l'image de chaque page avec Image en texte. C'est génial, car cela fonctionne toujours, quelle que soit la façon de créer le PDF !
Cependant, même un excellent modèle OCR appliqué aux images de texte les plus nettes n'a qu'une précision d'environ 97 %. Ce qui est également très bien ! Mais si une page de texte contient des centaines de caractères, de petites inexactitudes peuvent s'accumuler (et les modèles OCR peuvent être un peu lents). Comme certains PDF contiennent du texte qui peut être lu directement (et rapidement, avec une précision à presque 100 % dans la plupart des cas), nous nous sommes demandé s'il y avait un moyen d'intégrer ce texte à Alteryx.
Entrée : PDF vers texte ! Notre objectif initial avec PDF vers texte était simplement d'extraire le contenu textuel des documents PDF. Nous avons ensuite obtenu la facture ci-dessous :
Il s'agit d'une vraie facture qu'Alteryx a reçue de l'un de nos fournisseurs (mais tous les noms et numéros ont été anonymisés pour des questions de confidentialité). Pour cette page, le contenu textuel seul nous permettra d'obtenir environ la moitié du texte présent, mais le reste du texte est stocké en tant que contenu graphique. Et dans certains cas, le contenu texte peut contenir tout ce dont nous avons besoin… ou peut-être pas.
Nous avons donc constaté que nous devions prendre les mesures suivantes :
Nous avons développé ces seuils en analysant un ensemble représentatif de documents, mais vous pouvez étalonner vos propres niveaux de risque à l'aide du nombre de mots bruts et des images d'éléments graphiques de pages pour vos documents et attribuer ces niveaux de risque à l'aide d'un outil Formule. Vous pouvez également utiliser le niveau de risque ou le nombre de mots de texte graphique pour filtrer vos pages en aval dans différents workflows de traitement.
La combinaison de l'option Lire le contenu textuel uniquement avec l'option Évaluation du risque pour le texte encodé sous forme d'élément graphique n'est pas beaucoup plus rapide que l'option Lire le contenu du texte et de l'image, car ces deux options lisent du contenu textuel et appliquent l'OCR à chaque page. Cependant, cette combinaison offre aux utilisateurs la possibilité d'explorer les risques qu'ils prendraient s'ils exécutaient l'option Lire le contenu textuel uniquement et négligeaient l'évaluation du risque en échange d'un gain de temps en ne passant pas l'OCR.
Merci de nous avoir suivis dans cette exploration des entrailles des fichiers PDF et des options proposées dans PDF vers texte ! Nous sommes impatients de découvrir ce que vous pouvez faire avec cet outil !
Pour trouver des ressources supplémentaires sur les outils AIS, cliquez ici :
Pour ajouter un commentaire ici, vous devez être inscrit. Si vous êtes déjà inscrit, connectez-vous. Dans le cas contraire, inscrivez-vous puis connectez-vous.