Free Trial

Fórum

SOLUCIONADO

Volumetria de arquivos

danieh_fernandes
Asteroide

Possuo diversas bases enormes e com uma volumetria muito alta. Existe alguma dica ou prática de uso para situações como essa? Meu fluxo tem uma execução de tempo de 10 minutos.

4 RESPOSTAS 4
carlosteixeira
15 - Aurora
15 - Aurora

Bom dia @danieh_fernandes 

Quando você diz muito alta estamos falando de quantos registros?

Qual o formato dos arquivos?

Para qual base você vai enviar os dados? (Oracle, SQL, Redshift, etc...)

 

Dependendo das suas respostas as dicas vão ser diferentes...

 

Manda mais detalhes

 

;-)

Carlos A Teixeira
danieh_fernandes
Asteroide

Olá, bom dia.  Esse arquivos são exportados por meio do diretório e estão em formato xlsx. 

Possui uma volumetria de 265.311 registros. Além disso, no fluxo existe mais arquivo no mesmo formato 

fmvizcaino
17 - Castor
17 - Castor

Oi @danieh_fernandes ,

 

Sugiro você começar realizando o performance profiling, ele vai te mostrar quais ferramentas estão demorando mais para serem executadas, ajudando você a pensar em formas de otimizar o workflow.

 

Além disso:

  1. Ativar o AMP engine
  2. Se possível, alterar o formato do arquivo de entrada para csv ou yxdb. O Alteryx lê esses formatos mais rapidamente
  3. O Alteryx utiliza por padrão um percentual fixo de 25% de sua memória disponível, se achar que é pouco e quiser aumentá-la, faça mas com cautela
    1. https://help.alteryx.com/current/en/designer/get-started/user-settings.html#idm46608010924320
    2. https://help.alteryx.com/current/en/designer/get-started/user-settings/memory-use.html#idm4660801055...
  4. Algumas dicas adicionais da alteryx: https://help.alteryx.com/current/en/designer/workflows/workflow-optimization.html#idm46608008225184
  5. Remova dados que não esteja precisando logo no começo do fluxo
  6. Data Cleansing geralmente gasta um tempo enorme para ser executado dependendo da volumetria. Eu substituiria-os por multi-field ou um grupo de fórmulas. Aquela funcionalidade de remover linhas e colunas nulas demora bastante tempo, se você sabe a regra de exclusão, utilize um filtro simples.
  7. Troque as colunas que estão como string, wstring para as colunas V_string ou V_wstring. Elas se adequam ao tamanho da sua célula gastando menos memória
  8. Remova ou desative os browse tools
  9. Se os arquivos estão em pastas compartilhadas, o fluxo acaba tendo isso como o gargalo e não tem muito o que fazer além de utilizar os arquivos localmente.

 

As dicas não estão em ordem de importância, só fui lembrando e escrevendo.

 

Abs,

Fernando Vizcaino

carlosteixeira
15 - Aurora
15 - Aurora

Excelentes dicas @fmvizcaino 

 

Abraços

Carlos A Teixeira
Rótulos