Free Trial

Foro

Herramienta "Buscar y reemplazar" vs "Unir"

lhuber
Asteroide

Buen día, quería consultarlos por el tema de referencia, tengo un mismo flujo al que le cambie las herramientas "Unir" por Buscar y reemplazar y el cambio en lo que demoraba en ejecutarse bajo drásticamente , las consultas son

 

¿hay alguna limitación en el manejo de la cantidad de registros de estas herramientas?

¿es indistinto el uso cuando lo que se necesita es agregar un par de columnas de la tabla1 a la tabla2?   

 

la cantidad de registros que tienen estas tablas es aproximadamente 5 millones   

 

 

 

 

8 RESPUESTAS 8
Aguisande
15 - Aurora
15 - Aurora

Hola @lhuber 

 

Como respuesta general para Alteryx, existen varias formas de lograr un mismo resultado en los datos.

Dicho esto, Unir y Buscar y Reemplazar (Join y Find Replace)  se pueden utilizar para juntar fuentes de datos a partir de valores en común (códigos y/o claves de búsqueda).

La diferencia radica en que Unir (Join) te permite acceder a todos los registros que no hacen join de cada fuente (por las salidas L y R).

 

Con respecto al límite de registros, Alteryx no posee un límite de registros en ninguna herramienta.

 

Si percibes lentitud en el procesamiento, lo más probable es que esté referido al hardware desde donde lo ejecutas más que a una limitación de Alteryx.

Por otro lado, también puede deberse al tipo de fuente de datos que estás utilizando.

 

Como ejemplo, en la máquina que estoy escribiendo esto, hice un join de 5MM de registros y tardó 4.7 segundos, mientras que el Find Replace tardó 12.8 segundos

 

Aguisande_1-1632488618597.png

 

Aguisande_0-1632488585660.png

 

lhuber
Asteroide

Muchas gracias, ahora reviso porque en mí caso es al revés, el unir me está tardando muchísimo y me está generando archivos de varios millones de registros.

 

Abajo adjunto la imagen del mismo fljo pero con las dos opciones de herramientas

 

lhuber
Asteroide

Perdón, salieron las imágenes sin las cantidades de registros, ahora las adjunto 

Aguisande
15 - Aurora
15 - Aurora

Mirando las imágenes que enviaste, me temo que hay un Join en el centro que está mal (Fíjate que te generó 8MM de registros). Seguro falta algún campo o tienes valores repetidos para los campos que estás utilizando como llaves del Join.

Aguisande_0-1632491388805.png

 

 

Garabujo7
Alteryx
Alteryx

Hola @lhuber ,

 

Lo que puede estar sucediendo es un producto cartesiano.

Si en alguna de las entradas tienes id's repetidos, el resultado se multiplica.

Lo que necesitas es asegurarte que ninguno de los id's está duplicado.

Puedes usar el bloque Unique para eso.

 

Garabujo7_0-1632491574769.png

 

Para entender más lo que sucede, puedes consultar este artículo:

https://community.alteryx.com/t5/Alteryx-Designer-Knowledge-Base/Why-Your-Join-Is-Getting-More-Recor...

 

Gabriel

Aguisande
15 - Aurora
15 - Aurora

Ojo al usar Unique... Si se están adjuntando atributos descriptivos, no habría problemas, pero si se necesita agregar alguna medida a una fuente, quedarán muchísimos valores por fuera.

 

Yo usaría un Summarize en lugar de un Unique.

Garabujo7
Alteryx
Alteryx

Coincido contigo @Aguisande , sólo para verificar que el comportamiento es debido a los duplicados, con unique funciona.

Sin embargo, dependiendo del caso puede ser más práctico agruparlos con un summarize.

 

 

lhuber
Asteroide

Muchísimas Gracias!!   @Aguisande @Garabujo7  ahora pruebo y les comento!!!

 

Buen fin de semana!!

 

Etiquetas