Buen día, quería consultarlos por el tema de referencia, tengo un mismo flujo al que le cambie las herramientas "Unir" por Buscar y reemplazar y el cambio en lo que demoraba en ejecutarse bajo drásticamente , las consultas son
¿hay alguna limitación en el manejo de la cantidad de registros de estas herramientas?
¿es indistinto el uso cuando lo que se necesita es agregar un par de columnas de la tabla1 a la tabla2?
la cantidad de registros que tienen estas tablas es aproximadamente 5 millones
Hola @lhuber
Como respuesta general para Alteryx, existen varias formas de lograr un mismo resultado en los datos.
Dicho esto, Unir y Buscar y Reemplazar (Join y Find Replace) se pueden utilizar para juntar fuentes de datos a partir de valores en común (códigos y/o claves de búsqueda).
La diferencia radica en que Unir (Join) te permite acceder a todos los registros que no hacen join de cada fuente (por las salidas L y R).
Con respecto al límite de registros, Alteryx no posee un límite de registros en ninguna herramienta.
Si percibes lentitud en el procesamiento, lo más probable es que esté referido al hardware desde donde lo ejecutas más que a una limitación de Alteryx.
Por otro lado, también puede deberse al tipo de fuente de datos que estás utilizando.
Como ejemplo, en la máquina que estoy escribiendo esto, hice un join de 5MM de registros y tardó 4.7 segundos, mientras que el Find Replace tardó 12.8 segundos
Mirando las imágenes que enviaste, me temo que hay un Join en el centro que está mal (Fíjate que te generó 8MM de registros). Seguro falta algún campo o tienes valores repetidos para los campos que estás utilizando como llaves del Join.
Hola @lhuber ,
Lo que puede estar sucediendo es un producto cartesiano.
Si en alguna de las entradas tienes id's repetidos, el resultado se multiplica.
Lo que necesitas es asegurarte que ninguno de los id's está duplicado.
Puedes usar el bloque Unique para eso.
Para entender más lo que sucede, puedes consultar este artículo:
Gabriel
Ojo al usar Unique... Si se están adjuntando atributos descriptivos, no habría problemas, pero si se necesita agregar alguna medida a una fuente, quedarán muchísimos valores por fuera.
Yo usaría un Summarize en lugar de un Unique.
Coincido contigo @Aguisande , sólo para verificar que el comportamiento es debido a los duplicados, con unique funciona.
Sin embargo, dependiendo del caso puede ser más práctico agruparlos con un summarize.