Free Trial

Fórum

SOLUCIONADO

Dúvida - arquivo de saída alternativo

saresipi
Asteroide

Olá, pessoal! Tudo bem?

 

Estou trabalhando com um fluxo de muitas bases de dados de entrada no excel. Como arquivo de saída estou utilizando o formato CSV para ficar mais leve e rodar no Power BI, mas mesmo assim minha base está com mais de 50GB e muito pesada para rodar em ambos programas. Alguém sabe alguma saída de dados que seja mais leve, compacta e que aceite no BI? 

 

Obrigada e abraços!!

14 RESPOSTAS 14
kendi
Bólide

Oi @saresipi , tudo bem:

 

Hum esses casos são copmlicados mesmo, é difícil dar uma resposta aqui que vai resolver seu problema porque depende muito de quais dados e como você está utilizando no Power BI, mas vou falar algumas coisas que eu tentaria fazer:

  1. Dá para diminuir a granularidade do dado?: Por exemplo: digamos que sua base possua a quantidade de vendas de todos os items que a empresa vende, então vai estar lá Lápis, Borracha, se o Lápis vendeu 10x ele vai ter 10 linhas diferente, mas será que não daria para ter um apenas uma única linha com todas as vendas do dia? Você precisa discriminar o produto vendido no dia, daria para ser uma única linha para todas as vendas do dia, independente do tipo produto? Dá pra fazer uma linha de vendas por mês?
  2. Remover colunas não utlizadas: Eu removeria colunas que não são utlizadas no Power BI, para tentar deixar o arquivo mais leve (se possível faria isso logo no início do fluxo do Alteryx para tentar deixar o fluxo mais leve também).
  3. Avaliar a possibilidade de utilzar Star Schema: O Star Schema é uma forma de deixar as tabelas  mais leves, tornando as colunas de de texto em um ID, e esse ID é tem a sua descrição em outra tabela. Digamos que sua base de 50GB tenha 50 milhões de linhas, e a coluna do produto tenha apenas 100 produtos distintos, você pode transformar essa coluna em um ID numérico e criar uma tabeela auxiliar e inputar ela no Power BI e relacionar ela com a tabela principal. Isso ajuda pois o armazenamento de números inteiros é menor do que de letras. SE conseguir fazer isso para algumas colunas pode ajudar
  4. Evitar macros no seu fluxo: Essa é somente pro Alteryx, evite usar muitas macros no seu fluxo, pois elas consomem mais tempo. Digo isso pois há algumas ferramentas nativas do Alteryx que são macros, o que é bastante utilzado é o Limpeza de Dados/Data Cleasing ele consome muuito tempo para bases muito grandes, se possível tente fazer a mesma coisa através das Formulas
  5. Atualização incremental: Veja se é possível fazer atualizações incrementais, por exemplo, os dados do passado nunca muda, então todo dia você só precisa identificar os dados do dia ou os dados novos, então vc só trabalha com ele e no final vocês faz uma União com os dados totais. Isso dá pra fazer no Alteryx, porém não sei bem como funciona no Power BI, eu sei que existe essa funcionalidade, mas eu acho que é mais para consultas direto no banco de dados. Teria que dar uma olhada melhor.

Essas são algumas coisas que eu tentaria fazer para melhorar a performance do Alteryx e do Power BI.

Eu acho que todas elas podem ajudar, mas todos podem não ser possível para você por motivos diversos, com exceção do Star Schema eu acho que pode ser utilizado independente do cenário o problema é que não acredito que seja muito simples conseguir montar as tabelas necessárias (fato e dimensão).

Vou deixar aqui alguns links sobre o Star Schema (vou ser sincera não li/assisti ttudo):

https://learn.microsoft.com/pt-br/power-bi/guidance/star-schema

https://www.youtube.com/watch?v=kOy0PWBmhQ0 

 

saresipi
Asteroide

Olá, kendi! 

 

Obrigada pelas dicas, vou aplicar todas! 😁

 

Aproveitando o fórum, estou tentando criar uma coluna a qual as linhas contenham o nome de arquivo de origem (utilizarei como data)... Estou tentando a fórmula Filegetname mas não estou sabendo aplica-la. Saberia me ajudar?

 

Mais uma vez, obrigada pelas ajudas!

carlosteixeira
15 - Aurora
15 - Aurora

Oi @saresipi 

Nos arquivos de entrada como excel, você tem a opção de incluir esse campo automaticamente.

 

Olha a figura abaixo:

 

Nome do arquivo.png

 

Nome do arquivo1.png

 

A ultima coluna é o nome do arquivo.

Você também pode escolher o caminho completo.

 

Abraços

Carlos A Teixeira
saresipi
Asteroide

Oi @carlosteixeira , obrigada pelo retorno. Deu certo aqui!

 

Estou com outra dúvida, se puder me ajudar... Estou tentando carregar uma pasta com todos os arquivos para transformar em um só arquivo. Todos possuem mesma formatação, número de colunas, nome dos campos e etc. Para isso estou usando a ferramenta de entrada DIRECTORY, selecionei a pasta que queria e esta parte deu certo.

 

alteryx1.png

Para configurar a saída dos arquivos inseri a ferramenta ENTRADA DINÂMICA, selecionei um dos arquivos da pasta como modelo e no Campo eu escolhi o Diretório... Mas quando executo o fluxo a aparece o seguinte erro: Error: Entrada Dinâmica (268): C__Users_A0152618_Telefonica_Eficiencia-Energetica.TMBNL - General_Indicadores_FCC_ não corresponde a uma planilha nem a um intervalo nomeado em 2023 10.xlsx, ou o arquivo está corrompido. 

 

O que será que estou fazendo de errado? Não estou conseguindo identificar.

carlosteixeira
15 - Aurora
15 - Aurora

@saresipi envia a foto das configurações do Dynamic Input.

 

Acho que é nele que vc está configurando errado.

 

;-)

Carlos A Teixeira
saresipi
Asteroide

Oii, segue a foto 😁

 

alteryx2.png

carlosteixeira
15 - Aurora
15 - Aurora

Oi @saresipi 

Ah eu acho que ja sei o que é.

Nas configurações onde você está selecionando o campo DIRECTORY troca ele para FULL PATH

 

Veja se da certo

 

 

Carlos A Teixeira
saresipi
Asteroide

Não deu certo... Agora ao invés de 1 erro, apareceu 10 (acredito que um para cada arquivo):

 

Error: Entrada Dinâmica (268): C__Users_A0152618_Telefonica_Eficiencia-Energetica.TMBNL - General_Indicadores_FCC_2023 05.xlsx não corresponde a uma planilha nem a um intervalo nomeado em 2023 10.xlsx, ou o arquivo está corrompido.

 

alteryx3.png

 

OBS: meu arquivo não está corrompido 😪

saresipi
Asteroide

Bom dia @carlosteixeira tudo bem?

 

Agora apareceu o erro para cada arquivo do diretório:

 

Error: Entrada Dinâmica (268): C__Users_A0152618_Telefonica_Eficiencia-Energetica.TMBNL - General_Indicadores_FCC_2023 04.xlsx não corresponde a uma planilha nem a um intervalo nomeado em 2023 10.xlsx, ou o arquivo está corrompido.

 

alteryx4.png

 

Será que existe alguma outra forma de incluir vários arquivos de uma vez? 😪

 

Obrigada!! Abraço

Rótulos