Free Trial

Blog

Visiones e ideas de las mentes más brillantes en el campo del análisis.
Garabujo7
Alteryx
Alteryx

Una de las tareas manuales más demandantes y repetitivas a las que se enfrentan las áreas de negocio actualmente, sigue siendo la extracción de información de documentos en PDF o imágenes.

 

En muchas compañías tienen que revisar cientos o miles mensualmente y dedican a esta labor, una o varias personas. Esto implica un costo adicional para una tarea que no aporta valor al negocio, leer los documentos uno por uno para, copiar y pegar la información a mano, lo cual está sujeto a errores manuales que pueden afectar el proceso completo y hacer sujeto a multas a las empresas que incurran en estás fallas.

 

Sin embargo, con Alteryx Intelligence Suite, esa tarea se puede realizar automáticamente de forma sencilla y rápida para obtener los datos y analizarlos.

 

 

Picture3.gif

 

 

 

Cuando Alteryx está con nosotros, podemos estar tranquilos.

 

Para esto, vamos a usar las herramientas de la categoría Visión Artificial.

 

 

Garabujo7_14-1656364820816.png

 

 

Flujo Final

 

Al terminar el proceso de lectura de PDF’s, extracción de los datos, darles formato, estructura y crear el reporte final. El flujo se verá como la siguiente imagen.

 

Garabujo7_2-1656364754665.png

 

 

El flujo lo encontrarás adjunto a este artículo para referencia.

Plantillas

 

Para comenzar crearemos una plantilla para leer la constancia ya que hay información que siempre se encuentra en el mismo lugar.

 

 

Garabujo7_3-1656364754665.png

 

 

La plantilla nos ayudará a darle estructura a los datos que vamos a leer del documento, así será más fácil su análisis.

 

Para crear la plantilla, tenemos que dibujar un cuadro alrededor de los datos que queremos capturar y colocarles un nombre, que será el título de la columna.

 

Como vemos en la imagen, capturamos el RFC y el campo lo nombramos igual.

 

La plataforma nos permite leer imágenes, texto y tablas incluidas en los documentos.

 

 

 

Garabujo7_4-1656364754674.png

 

 

 

Otra ventaja adicional es que las anotaciones que vamos creando las podemos guardar para compartirlas, o usarlas en otro flujo.  

 

 

 

Garabujo7_5-1656364754677.png

 

 

Leer los archivos

 

Ya que creamos la plantilla con los datos, hay que indicarle a la plataforma dónde se encuentran los archivos que tiene que leer. Para eso usaremos la herramienta Entrada de Imagen.

 

 

 

Garabujo7_6-1656364754678.png

 

 

Su configuración es muy sencilla, sólo seleccionamos la ruta donde están los archivos o podemos conectarle una herramienta directorio para que lea cualquier carpeta y sus subcarpetas o usar comodines para que lea archivos específicos solamente.

 

Seleccionamos los tipos de archivo, que pueden ser todos o escoger específicamente un tipo, la herramienta soporta PDF, JPEG, BMP y PNG.

 

 

 

Garabujo7_7-1656364754680.png

 

 

Extraer los datos del documento

 

La herramienta que hace la magia de extraer el texto de los documentos es Imagen a Texto.

 

Tiene 2 entradas, una para los datos, D, y otra para la plantilla, T. Sólo requiere seleccionar el idioma del documento, que incluso puede tener texto en varios lenguajes.

 

La plataforma soporta español, inglés, portugués, francés, japonés, chino, italiano, alemán y árabe.

 

 

Garabujo7_8-1656364754681.png

 

 

Ejecutamos el flujo y se extraerá el texto que seleccionamos y lo colocará en las columnas que creamos para eso. En este caso yo extraje solamente el nombre del archivo, RFC, Denominación o Nombre y el CP.

 

 

Garabujo7_9-1656364754682.png

 

Extraer imágenes

 

Como capture una imagen del documento, para visualizarla en los datos, podemos usar la herramienta Imagen.

 

 

Garabujo7_10-1656364754682.png

 

 

Se selecciona la opción Obtener imagen de los datos binarios y escogemos el campo donde almacenaremos la imagen.

 

 

Garabujo7_11-1656364754687.png

 

 

Con esa configuración, podemos usar la imagen en nuestro análisis o en reportes.

 

 

 

Garabujo7_12-1656364754691.png

 

 

Texto sin estructura

 

Aquí llegamos a la parte que puede considerarse más difícil, el texto que no está estructurado o que no sigue un formato predefinido.

 

Por ejemplo, buscamos la información de los regímenes. Viene dentro del documento, pero nunca en el mismo lugar, incluso puede encontrarse en varias páginas o sólo en una.

 

 

 

Garabujo7_13-1656364754703.png

 

 

¿cómo podemos encontrar y extraer sólo esos datos?

 

Averigua cómo en la parte 2 de este artículo.

 

Etiquetas