Los PDF contienen mucha información valiosa que nos gustaría poner a tu disposición con el poder de Alteryx. Además, su uso es tan amplio que se sienten cómodos y fáciles de leer. No obstante, cuando el equipo de Alteryx Intelligence Suite se preparó para diseñar nuestra nueva herramienta PDF a texto, nos dimos cuenta de que había mucho más en el formato de documento portátil que lo que teníamos a simple vista. Esa complejidad determinó nuestras decisiones a medida que diseñábamos la nueva herramienta. Esperamos que revelar cómo fue ese proceso te sea interesante y útil para cuando comiences a utilizar la herramienta.
Fundamentalmente, un PDF es un archivo creado siguiendo las reglas del formato de documento portátil. Adobe introdujo la especificación del PDF por primera vez en 1993 y la Organización Internacional de Normalización (ISO, por sus siglas en inglés) la lanzó como un estándar abierto administrado en 2008. La versión actual del estándar ISO para PDF tiene casi 1000 páginas y, entre la introducción original y el estándar actual, ha habido varias especificaciones intermedias. Estos estándares se han implementado, a su vez, a través de muchos programas diferentes de escritura en PDF en los que se tomaron diferentes decisiones en cuanto a cómo aplicar las especificaciones. El resultado de esta evolución con los años y la flexibilidad del estándar de 1000 páginas:
Dos PDF de aspecto idéntico pueden tener estructuras y contenidos internos muy diferentes.
Si alguna vez has intentado abrir un PDF con un editor de texto para buscar el texto y otros elementos que ves con un visualizador de PDF, es posible que hayas experimentado algo como lo siguiente:
Dicho esto, cualquier archivo PDF puede contener algunos de los siguientes elementos:
Cuando se trata específicamente de texto, hay un espectro de enfoques para crear PDF que hacen que sea más complicado para nosotros diseñar una buena herramienta de extracción de texto en PDF:
Técnicas comunes para la creación de PDF |
Consecuencias para el almacenamiento y la extracción de texto |
Tomar una foto o escanear un documento |
El texto se almacena como gráficos en mapa de bits y requiere el reconocimiento óptico de caracteres (OCR, por sus siglas en inglés) para extraer texto |
Usar el OCR para superponer texto transparente sobre un documento escaneado o basado en fotos |
El texto aparece dos veces en el documento: una vez como gráficos en mapa de bits en la imagen y otra vez como una superposición de contenido de texto invisible para admitir acciones como copiar, pegar y buscar |
Optimizar el tamaño del PDF mediante la conversión de caracteres en una fuente no típica en gráficos vectoriales (dibujos de las letras) en lugar de incrustar toda la fuente en el documento |
El texto se almacena como gráficos vectoriales y requiere OCR para extraer texto |
Combinar imágenes de texto, dibujos de texto y contenido de texto en una sola página |
El texto se almacena como gráficos en mapa de bits, gráficos vectoriales y contenido de texto, por lo que extraer todas las palabras requiere tanto leer el contenido de texto como aplicar OCR al texto almacenado como gráficos en mapa de bits y gráficos vectoriales |
Escribir un documento digital “True PDF” con todo el texto almacenado como contenido de texto |
¡Genial! La extracción del contenido de texto recuperará todo el texto de este documento. (A menos que haya palabras incrustadas en imágenes como logotipos, diagramas o fotos). |
En 2020, Alteryx Intelligence Suite se lanzó con herramientas diseñadas para extraer datos de archivos PDF. En nuestro enfoque original, primero convertíamos todos los PDF en imágenes utilizando Entrada de imagen. A continuación, aplicábamos el OCR a la imagen de cada página utilizando Imagen a texto. Esto era genial porque siempre funcionaba, independientemente de la variabilidad en cuanto a cómo se creó el PDF.
Sin embargo, incluso un excelente modelo de OCR aplicado a las imágenes de texto más prístinas solo tiene una exactitud aproximada del 97 %. ¡Lo que también es genial! No obstante, si una página de texto tiene cientos de caracteres, se pueden acumular pequeñas inexactitudes. (Además, los modelos de OCR pueden ser un poco lentos). Dado que al menos algunos PDF tienen contenido de texto que se puede leer de manera directa (y rápidamente, con una exactitud cercana al 100 %, en la mayoría de los casos.), empezamos a preguntarnos si podría haber una manera de llevar ese contenido de texto a Alteryx.
Introducción: ¡PDF a texto! Nuestro objetivo inicial con PDF a texto fue extraer el contenido del texto de los documentos PDF. Luego, nos encontramos con la siguiente factura:
Esta es una factura real que fue enviada por uno de nuestros proveedores a Alteryx (aunque todos los nombres y números se anonimizaron para garantizar la privacidad de todos). En esta página, el contenido de texto solo cubre aproximadamente la mitad de esta, pero el resto del texto se almacena como contenido gráfico. Y dependiendo del caso práctico, el contenido de texto puede contener todo lo que necesitamos, o… quizás no.
Así que nos dimos cuenta de que necesitábamos hacer algunas cosas:
Desarrollamos esos umbrales observando un conjunto representativo de documentos, pero puedes calibrar tus propios niveles de riesgo con los recuentos de palabras e imágenes de gráficos de páginas sin procesar para tus documentos y asignar esos niveles de riesgo con una herramienta Fórmula. También puedes utilizar el Nivel de riesgo o el Recuento de palabras con texto gráfico para filtrar tus páginas en flujo descendente en diferentes flujos de trabajo de procesamiento.
La combinación de la opción Leer solo contenido de texto con la Puntuación de riesgo para el texto codificado como gráficos no es significativamente más rápida que la opción Leer contenido de imagen y texto, ya que ambas leen contenido de texto y aplican el OCR a cada página. Sin embargo, esta combinación brinda a los usuarios la oportunidad de explorar los riesgos que podrían correr si implementaran Leer solo contenido de texto sin la puntuación de riesgo a cambio de las mejoras de velocidad que se incluyen en la distribución del OCR.
Gracias por acompañarnos en este recorrido por el espacio interno de los PDF y las opciones resultantes que proporcionamos en PDF a Texto. ¡Estamos ansiosos por ver lo que puedes hacer con la herramienta!
Para encontrar recursos adicionales en las herramientas AIS, haz clic aquí:
Debe ser un usuario registrado para añadir un comentario aquí. Si ya está registrado, inicie sesión. Si todavía no está registrado, hágalo e inicie sesión.