Dúvida - arquivo de saída alternativo
- Inscrever-se no RSS Feed
- Marcar tópico como novo
- Marcar tópico como lido
- Flutuar este Tópico do usuário atual
- Marcar como favorito
- Inscrever-se
- Emudecer
- Versão para impressão
- Marcar como novo
- Marcar como favorito
- Inscrever-se
- Emudecer
- Inscrever-se no RSS Feed
- Realçar
- Imprimir
- Notificar o moderador
Olá, pessoal! Tudo bem?
Estou trabalhando com um fluxo de muitas bases de dados de entrada no excel. Como arquivo de saída estou utilizando o formato CSV para ficar mais leve e rodar no Power BI, mas mesmo assim minha base está com mais de 50GB e muito pesada para rodar em ambos programas. Alguém sabe alguma saída de dados que seja mais leve, compacta e que aceite no BI?
Obrigada e abraços!!
Solucionado! Ir para Solução.
- Marcar como novo
- Marcar como favorito
- Inscrever-se
- Emudecer
- Inscrever-se no RSS Feed
- Realçar
- Imprimir
- Notificar o moderador
Oi @saresipi , tudo bem:
Hum esses casos são copmlicados mesmo, é difícil dar uma resposta aqui que vai resolver seu problema porque depende muito de quais dados e como você está utilizando no Power BI, mas vou falar algumas coisas que eu tentaria fazer:
- Dá para diminuir a granularidade do dado?: Por exemplo: digamos que sua base possua a quantidade de vendas de todos os items que a empresa vende, então vai estar lá Lápis, Borracha, se o Lápis vendeu 10x ele vai ter 10 linhas diferente, mas será que não daria para ter um apenas uma única linha com todas as vendas do dia? Você precisa discriminar o produto vendido no dia, daria para ser uma única linha para todas as vendas do dia, independente do tipo produto? Dá pra fazer uma linha de vendas por mês?
- Remover colunas não utlizadas: Eu removeria colunas que não são utlizadas no Power BI, para tentar deixar o arquivo mais leve (se possível faria isso logo no início do fluxo do Alteryx para tentar deixar o fluxo mais leve também).
- Avaliar a possibilidade de utilzar Star Schema: O Star Schema é uma forma de deixar as tabelas mais leves, tornando as colunas de de texto em um ID, e esse ID é tem a sua descrição em outra tabela. Digamos que sua base de 50GB tenha 50 milhões de linhas, e a coluna do produto tenha apenas 100 produtos distintos, você pode transformar essa coluna em um ID numérico e criar uma tabeela auxiliar e inputar ela no Power BI e relacionar ela com a tabela principal. Isso ajuda pois o armazenamento de números inteiros é menor do que de letras. SE conseguir fazer isso para algumas colunas pode ajudar
- Evitar macros no seu fluxo: Essa é somente pro Alteryx, evite usar muitas macros no seu fluxo, pois elas consomem mais tempo. Digo isso pois há algumas ferramentas nativas do Alteryx que são macros, o que é bastante utilzado é o Limpeza de Dados/Data Cleasing ele consome muuito tempo para bases muito grandes, se possível tente fazer a mesma coisa através das Formulas
- Atualização incremental: Veja se é possível fazer atualizações incrementais, por exemplo, os dados do passado nunca muda, então todo dia você só precisa identificar os dados do dia ou os dados novos, então vc só trabalha com ele e no final vocês faz uma União com os dados totais. Isso dá pra fazer no Alteryx, porém não sei bem como funciona no Power BI, eu sei que existe essa funcionalidade, mas eu acho que é mais para consultas direto no banco de dados. Teria que dar uma olhada melhor.
Essas são algumas coisas que eu tentaria fazer para melhorar a performance do Alteryx e do Power BI.
Eu acho que todas elas podem ajudar, mas todos podem não ser possível para você por motivos diversos, com exceção do Star Schema eu acho que pode ser utilizado independente do cenário o problema é que não acredito que seja muito simples conseguir montar as tabelas necessárias (fato e dimensão).
Vou deixar aqui alguns links sobre o Star Schema (vou ser sincera não li/assisti ttudo):
https://learn.microsoft.com/pt-br/power-bi/guidance/star-schema
https://www.youtube.com/watch?v=kOy0PWBmhQ0
- Marcar como novo
- Marcar como favorito
- Inscrever-se
- Emudecer
- Inscrever-se no RSS Feed
- Realçar
- Imprimir
- Notificar o moderador
Olá, kendi!
Obrigada pelas dicas, vou aplicar todas! 😁
Aproveitando o fórum, estou tentando criar uma coluna a qual as linhas contenham o nome de arquivo de origem (utilizarei como data)... Estou tentando a fórmula Filegetname mas não estou sabendo aplica-la. Saberia me ajudar?
Mais uma vez, obrigada pelas ajudas!
- Marcar como novo
- Marcar como favorito
- Inscrever-se
- Emudecer
- Inscrever-se no RSS Feed
- Realçar
- Imprimir
- Notificar o moderador
Oi @saresipi
Nos arquivos de entrada como excel, você tem a opção de incluir esse campo automaticamente.
Olha a figura abaixo:
A ultima coluna é o nome do arquivo.
Você também pode escolher o caminho completo.
Abraços
- Marcar como novo
- Marcar como favorito
- Inscrever-se
- Emudecer
- Inscrever-se no RSS Feed
- Realçar
- Imprimir
- Notificar o moderador
Oi @carlosteixeira , obrigada pelo retorno. Deu certo aqui!
Estou com outra dúvida, se puder me ajudar... Estou tentando carregar uma pasta com todos os arquivos para transformar em um só arquivo. Todos possuem mesma formatação, número de colunas, nome dos campos e etc. Para isso estou usando a ferramenta de entrada DIRECTORY, selecionei a pasta que queria e esta parte deu certo.
Para configurar a saída dos arquivos inseri a ferramenta ENTRADA DINÂMICA, selecionei um dos arquivos da pasta como modelo e no Campo eu escolhi o Diretório... Mas quando executo o fluxo a aparece o seguinte erro: Error: Entrada Dinâmica (268): C__Users_A0152618_Telefonica_Eficiencia-Energetica.TMBNL - General_Indicadores_FCC_ não corresponde a uma planilha nem a um intervalo nomeado em 2023 10.xlsx, ou o arquivo está corrompido.
O que será que estou fazendo de errado? Não estou conseguindo identificar.
- Marcar como novo
- Marcar como favorito
- Inscrever-se
- Emudecer
- Inscrever-se no RSS Feed
- Realçar
- Imprimir
- Notificar o moderador
@saresipi envia a foto das configurações do Dynamic Input.
Acho que é nele que vc está configurando errado.
;-)
- Marcar como novo
- Marcar como favorito
- Inscrever-se
- Emudecer
- Inscrever-se no RSS Feed
- Realçar
- Imprimir
- Notificar o moderador
Oii, segue a foto 😁
- Marcar como novo
- Marcar como favorito
- Inscrever-se
- Emudecer
- Inscrever-se no RSS Feed
- Realçar
- Imprimir
- Notificar o moderador
Oi @saresipi
Ah eu acho que ja sei o que é.
Nas configurações onde você está selecionando o campo DIRECTORY troca ele para FULL PATH
Veja se da certo
- Marcar como novo
- Marcar como favorito
- Inscrever-se
- Emudecer
- Inscrever-se no RSS Feed
- Realçar
- Imprimir
- Notificar o moderador
Não deu certo... Agora ao invés de 1 erro, apareceu 10 (acredito que um para cada arquivo):
Error: Entrada Dinâmica (268): C__Users_A0152618_Telefonica_Eficiencia-Energetica.TMBNL - General_Indicadores_FCC_2023 05.xlsx não corresponde a uma planilha nem a um intervalo nomeado em 2023 10.xlsx, ou o arquivo está corrompido.
OBS: meu arquivo não está corrompido 😪
- Marcar como novo
- Marcar como favorito
- Inscrever-se
- Emudecer
- Inscrever-se no RSS Feed
- Realçar
- Imprimir
- Notificar o moderador
Bom dia @carlosteixeira tudo bem?
Agora apareceu o erro para cada arquivo do diretório:
Error: Entrada Dinâmica (268): C__Users_A0152618_Telefonica_Eficiencia-Energetica.TMBNL - General_Indicadores_FCC_2023 04.xlsx não corresponde a uma planilha nem a um intervalo nomeado em 2023 10.xlsx, ou o arquivo está corrompido.
Será que existe alguma outra forma de incluir vários arquivos de uma vez? 😪
Obrigada!! Abraço
