Una de las tareas manuales más demandantes y repetitivas a las que se enfrentan las áreas de negocio actualmente, sigue siendo la extracción de información de documentos en PDF o imágenes.
En muchas compañías tienen que revisar cientos o miles mensualmente y dedican a esta labor, una o varias personas. Esto implica un costo adicional para una tarea que no aporta valor al negocio, leer los documentos uno por uno para, copiar y pegar la información a mano, lo cual está sujeto a errores manuales que pueden afectar el proceso completo y hacer sujeto a multas a las empresas que incurran en estás fallas.
Sin embargo, con Alteryx Intelligence Suite, esa tarea se puede realizar automáticamente de forma sencilla y rápida para obtener los datos y analizarlos.
Cuando Alteryx está con nosotros, podemos estar tranquilos.
Para esto, vamos a usar las herramientas de la categoría Visión Artificial.
Al terminar el proceso de lectura de PDF’s, extracción de los datos, darles formato, estructura y crear el reporte final. El flujo se verá como la siguiente imagen.
El flujo lo encontrarás adjunto a este artículo para referencia.
Para comenzar crearemos una plantilla para leer la constancia ya que hay información que siempre se encuentra en el mismo lugar.
La plantilla nos ayudará a darle estructura a los datos que vamos a leer del documento, así será más fácil su análisis.
Para crear la plantilla, tenemos que dibujar un cuadro alrededor de los datos que queremos capturar y colocarles un nombre, que será el título de la columna.
Como vemos en la imagen, capturamos el RFC y el campo lo nombramos igual.
La plataforma nos permite leer imágenes, texto y tablas incluidas en los documentos.
Otra ventaja adicional es que las anotaciones que vamos creando las podemos guardar para compartirlas, o usarlas en otro flujo.
Ya que creamos la plantilla con los datos, hay que indicarle a la plataforma dónde se encuentran los archivos que tiene que leer. Para eso usaremos la herramienta Entrada de Imagen.
Su configuración es muy sencilla, sólo seleccionamos la ruta donde están los archivos o podemos conectarle una herramienta directorio para que lea cualquier carpeta y sus subcarpetas o usar comodines para que lea archivos específicos solamente.
Seleccionamos los tipos de archivo, que pueden ser todos o escoger específicamente un tipo, la herramienta soporta PDF, JPEG, BMP y PNG.
La herramienta que hace la magia de extraer el texto de los documentos es Imagen a Texto.
Tiene 2 entradas, una para los datos, D, y otra para la plantilla, T. Sólo requiere seleccionar el idioma del documento, que incluso puede tener texto en varios lenguajes.
La plataforma soporta español, inglés, portugués, francés, japonés, chino, italiano, alemán y árabe.
Ejecutamos el flujo y se extraerá el texto que seleccionamos y lo colocará en las columnas que creamos para eso. En este caso yo extraje solamente el nombre del archivo, RFC, Denominación o Nombre y el CP.
Como capture una imagen del documento, para visualizarla en los datos, podemos usar la herramienta Imagen.
Se selecciona la opción Obtener imagen de los datos binarios y escogemos el campo donde almacenaremos la imagen.
Con esa configuración, podemos usar la imagen en nuestro análisis o en reportes.
Aquí llegamos a la parte que puede considerarse más difícil, el texto que no está estructurado o que no sigue un formato predefinido.
Por ejemplo, buscamos la información de los regímenes. Viene dentro del documento, pero nunca en el mismo lugar, incluso puede encontrarse en varias páginas o sólo en una.
¿cómo podemos encontrar y extraer sólo esos datos?
Averigua cómo en la parte 2 de este artículo.
Debe ser un usuario registrado para añadir un comentario aquí. Si ya está registrado, inicie sesión. Si todavía no está registrado, hágalo e inicie sesión.