Blog

EmilyVA · ‎11-10-2022

Los PDF contienen mucha información valiosa que nos gustaría poner a tu disposición con el poder de Alteryx. Además, su uso es tan amplio que se sienten cómodos y fáciles de leer. No obstante, cuando el equipo de Alteryx Intelligence Suite se preparó para diseñar nuestra nueva herramienta PDF a texto, nos dimos cuenta de que había mucho más en el formato de documento portátil que lo que teníamos a simple vista. Esa complejidad determinó nuestras decisiones a medida que diseñábamos la nueva herramienta. Esperamos que revelar cómo fue ese proceso te sea interesante y útil para cuando comiences a utilizar la herramienta.

via GIPHY

¿Qué es un PDF?

Fundamentalmente, un PDF es un archivo creado siguiendo las reglas del formato de documento portátil. Adobe introdujo la especificación del PDF por primera vez en 1993 y la Organización Internacional de Normalización (ISO, por sus siglas en inglés) la lanzó como un estándar abierto administrado en 2008. La versión actual del estándar ISO para PDF tiene casi 1000 páginas y, entre la introducción original y el estándar actual, ha habido varias especificaciones intermedias. Estos estándares se han implementado, a su vez, a través de muchos programas diferentes de escritura en PDF en los que se tomaron diferentes decisiones en cuanto a cómo aplicar las especificaciones. El resultado de esta evolución con los años y la flexibilidad del estándar de 1000 páginas:

Dos PDF de aspecto idéntico pueden tener estructuras y contenidos internos muy diferentes.

via GIPHY

Si alguna vez has intentado abrir un PDF con un editor de texto para buscar el texto y otros elementos que ves con un visualizador de PDF, es posible que hayas experimentado algo como lo siguiente:

via GIPHY

Dicho esto, cualquier archivo PDF puede contener algunos de los siguientes elementos:

Gráficos en mapa de bits (fotografías, elementos escaneados u otras imágenes especificadas píxel por píxel)
Gráficos vectoriales (instrucciones para crear dibujos con formas y líneas)

Texto almacenado como secuencias de contenido (instrucciones sobre dónde y cómo dibujar texto en una página)
Recursos multimedia, enlaces y otros contenidos incrustados
Fuentes empaquetadas en el archivo para que puedan quedarse en el documento
Instrucciones sobre cómo y dónde dibujar o incrustar cada elemento en cada página

image-20220817-175140 (1).png

Cuando se trata específicamente de texto, hay un espectro de enfoques para crear PDF que hacen que sea más complicado para nosotros diseñar una buena herramienta de extracción de texto en PDF:

Técnicas comunes para la creación de PDF	Consecuencias para el almacenamiento y la extracción de texto
Tomar una foto o escanear un documento	El texto se almacena como gráficos en mapa de bits y requiere el reconocimiento óptico de caracteres (OCR, por sus siglas en inglés) para extraer texto
Usar el OCR para superponer texto transparente sobre un documento escaneado o basado en fotos	El texto aparece dos veces en el documento: una vez como gráficos en mapa de bits en la imagen y otra vez como una superposición de contenido de texto invisible para admitir acciones como copiar, pegar y buscar
Optimizar el tamaño del PDF mediante la conversión de caracteres en una fuente no típica en gráficos vectoriales (dibujos de las letras) en lugar de incrustar toda la fuente en el documento	El texto se almacena como gráficos vectoriales y requiere OCR para extraer texto
Combinar imágenes de texto, dibujos de texto y contenido de texto en una sola página	El texto se almacena como gráficos en mapa de bits, gráficos vectoriales y contenido de texto, por lo que extraer todas las palabras requiere tanto leer el contenido de texto como aplicar OCR al texto almacenado como gráficos en mapa de bits y gráficos vectoriales
Escribir un documento digital “True PDF” con todo el texto almacenado como contenido de texto	¡Genial! La extracción del contenido de texto recuperará todo el texto de este documento. (A menos que haya palabras incrustadas en imágenes como logotipos, diagramas o fotos).

via GIPHY

La llegada del PDF a Alteryx: las herramientas originales

En 2020, Alteryx Intelligence Suite se lanzó con herramientas diseñadas para extraer datos de archivos PDF. En nuestro enfoque original, primero convertíamos todos los PDF en imágenes utilizando Entrada de imagen. A continuación, aplicábamos el OCR a la imagen de cada página utilizando Imagen a texto. Esto era genial porque siempre funcionaba, independientemente de la variabilidad en cuanto a cómo se creó el PDF.

image-20220817-201931 (1).png

Sin embargo, incluso un excelente modelo de OCR aplicado a las imágenes de texto más prístinas solo tiene una exactitud aproximada del 97 %. ¡Lo que también es genial! No obstante, si una página de texto tiene cientos de caracteres, se pueden acumular pequeñas inexactitudes. (Además, los modelos de OCR pueden ser un poco lentos). Dado que al menos algunos PDF tienen contenido de texto que se puede leer de manera directa (y rápidamente, con una exactitud cercana al 100 %, en la mayoría de los casos.), empezamos a preguntarnos si podría haber una manera de llevar ese contenido de texto a Alteryx.

via GIPHY

La llegada del PDF a Alteryx: la siguiente generación

Introducción: ¡PDF a texto! Nuestro objetivo inicial con PDF a texto fue extraer el contenido del texto de los documentos PDF. Luego, nos encontramos con la siguiente factura:

image-20220817-194408 (1).png

Esta es una factura real que fue enviada por uno de nuestros proveedores a Alteryx (aunque todos los nombres y números se anonimizaron para garantizar la privacidad de todos). En esta página, el contenido de texto solo cubre aproximadamente la mitad de esta, pero el resto del texto se almacena como contenido gráfico. Y dependiendo del caso práctico, el contenido de texto puede contener todo lo que necesitamos, o… quizás no.

via GIPHY

Así que nos dimos cuenta de que necesitábamos hacer algunas cosas:

Otorgar a los usuarios la capacidad de combinar contenido de texto con los resultados de OCR del contenido gráfico de cada página. Llamamos a esto “magia” internamente durante el proceso de desarrollo, ya que tomó un poco de pensamiento creativo lograr que la solución funcionara. Esta es la opción de extracción de texto de Leer contenido de imagen y texto en PDF a texto. Proporciona el resultado más completo y exacto para el texto en la página, pero tarda un poco más (aproximadamente de 1 a 2 segundos por página, según el documento y el hardware de tu computadora).

via GIPHY

Brinda a los usuarios la capacidad de Leer solo contenido de texto para las ocasiones en que todo el contenido que les importa esté disponible como contenido de texto y no deseen tomarse el tiempo para ejecutar el OCR en cada página. Esto puede ser mucho más rápido (aproximadamente de 0,2 a 1 segundo por página, también según el documento y el hardware de la computadora). Pero también es un poco aterrador. ¡Porque es difícil saber lo que quizás te falte en el texto gráfico!

via GIPHY

Proporciona a los usuarios guías de protección que les permitirán experimentar con Leer solo contenido de texto mientras evalúan si podría faltar contenido importante presente como texto gráfico. Específicamente:
- Salida de imagen de gráficos de página genera una imagen de BLOB (objeto binario grande) en la columna Salida de imagen con el valor de columna Opción de salida “gráficos pdf”. Esta imagen se puede representar conectando una herramienta Imagen con la opción Obtener imagen de datos binarios en el campo e inspeccionándola visualmente con una herramienta Examinar conectada a la herramienta Imagen. Solo muestra lo que no se incluyó después de la extracción del contenido del texto.
- La Puntuación de riesgo para el texto codificado como gráficos va un paso más allá y aplica el OCR solo a los elementos gráficos de cada página. Cuenta el número de palabras de texto gráficas y las genera en la columna Recuento de palabras con texto gráfico. También asigna un nivel de riesgo de texto gráfico a cada página según ese recuento de palabras.
  - Nueve o menos palabras de texto gráfico (como las que se pueden encontrar en un logotipo): riesgo “bajo”
  - De 10 a 29 palabras: riesgo “medio”
  - 30 o más palabras: riesgo “alto”

Desarrollamos esos umbrales observando un conjunto representativo de documentos, pero puedes calibrar tus propios niveles de riesgo con los recuentos de palabras e imágenes de gráficos de páginas sin procesar para tus documentos y asignar esos niveles de riesgo con una herramienta Fórmula. También puedes utilizar el Nivel de riesgo o el Recuento de palabras con texto gráfico para filtrar tus páginas en flujo descendente en diferentes flujos de trabajo de procesamiento.

La combinación de la opción Leer solo contenido de texto con la Puntuación de riesgo para el texto codificado como gráficos no es significativamente más rápida que la opción Leer contenido de imagen y texto, ya que ambas leen contenido de texto y aplican el OCR a cada página. Sin embargo, esta combinación brinda a los usuarios la oportunidad de explorar los riesgos que podrían correr si implementaran Leer solo contenido de texto sin la puntuación de riesgo a cambio de las mejoras de velocidad que se incluyen en la distribución del OCR.

via GIPHY

También les damos a los usuarios la capacidad de previsualizar una comparación de lo que podrían extraer las opciones Leer solo contenido de texto y Leer contenido de imagen y texto. Cuando se selecciona un solo archivo con el botón “Examinar” en la ventana de configuración de PDF a texto, en la ventana Vista previa a continuación se mostrará a qué contenido puede acceder cada opción de extracción de texto. Usemos el siguiente ejemplo. Podemos ver que para este archivo, la mayor parte del texto se extrae mediante Leer solo contenido de texto (derecha), pero el texto incrustado en las imágenes de las barras de herramientas se omitirá (para bien o para mal, dependiendo de la forma en que los datos se utilizarán en el flujo descendente).

image-20220829-195021 (1).png

Una ventaja del modo Leer solo contenido de texto: ¡permite usar más idiomas! El OCR utilizado en Leer contenido de imagen y texto y Puntuación de riesgo para el texto codificado como gráficos utiliza los idiomas especificados en la selección de Idioma para refinar sus resultados. Sin embargo, la extracción del contenido de texto lee los caracteres directamente desde el PDF y, siempre y cuando pueda leer dichos caracteres, no toma en cuenta en qué idioma están.

via GIPHY

Conclusión

Gracias por acompañarnos en este recorrido por el espacio interno de los PDF y las opciones resultantes que proporcionamos en PDF a Texto. ¡Estamos ansiosos por ver lo que puedes hacer con la herramienta!

Para encontrar recursos adicionales en las herramientas AIS, haz clic aquí:

Blog

Presentamos: PDF a texto

¿Qué es un PDF?

La llegada del PDF a Alteryx: las herramientas originales

La llegada del PDF a Alteryx: la siguiente generación

Conclusión

Minería de texto con Alteryx Intelligence Suite

Presentamos el acceso anticipado a Alteryx Machine...

Transcripciones de audio/Video a texto usando ML &...

Extraer datos de Constancias de Situación Fiscal p...

Extraer datos de Constancias de Situación Fiscal P...

Leer archivos de Excel de forma flexible

Instalar y configurar Alteryx Designer

Geocodificación de direcciones con Alteryx y Here

Macro ChatGPT para resolver tareas comunes de Alte...

Hay vida más allá de los dashboards - Introducción...