Free Trial

Desafios Semanais

Resolva o desafio, compartilhe sua solução e lidere nossa Comunidade!

Desafio #82: Você tem samba no pé?

SylviaP
Moderator
Moderator

Oi pessoal, estou de volta!

 

Eu estava em férias, aproveitando um pouquinho do nosso verão que é tão curto (pra quem não sabe, eu moro no Canadá!).

Masss, o verão continua e o trabalho também, então essa semana tenho um desafio bem gostoso para vocês resolverem!

 

Desafio:

Nosso conjunto de dados contém informações sobre o Carnaval do Brasil. Seu objetivo é contar o número de vezes que cada palavra, com três ou mais letras, aparece no texto. Na segunda etapa, classifique as palavras em ordem decrescente e mostre a porcentagem do uso dessa palavra em relação à contagem total.

 

giphyBônus 1: Quantas vezes a palavra samba apareceu? (Coloque sua resposta no modo "Spoiler")

 

Bônus 2: Que tal encontrar outro texto online e executar sua solução nele. Compartilhe com a gente quais textos você gostaria que outros usuários analisassem.

 

Bônus 3: Use a ferramenta de download para obter texto diretamente do site em vez de usar o arquivo de texto.

 

Bora movimentar os dedinhos e sambar na solução! 🙂

 

 

Sylvia

@SylviaP, espero que tenha aproveitado as férias, bom retorno!
Encontrei algumas dificuldades nesse desafio, mas vou deixar elas dentro do Spoiler.

Ahhh, finalmente usei o Tokenize do Regex Tool em um desafio.

Saqueador
Notei que temos a palavra Samba em duas escritas: samba e Samba o que deu uma confusão aqui.
Poderia ter usado a função TitleCase(), mas isso deixaria meu resultado diferente do esperado.
Quantidade:
Matheus_Rodrigues_1-1625708963243.png

 

Também notei que faltam os cabeçalhos na parte do resultado, talvez tenha sido proposital para dificultar um pouco.

Matheus_Rodrigues_0-1625708891205.png

 

Aproveitei e copiei a base, colocando novos cabeçalhos e colocando os antigos como dados, pra conseguir checar o resultado.

 

 

Malvim
Bólide

Hey!

 

Segue minha solução: E deu samba!

 

Saqueador
Tem um pequeno porém que faz toda a diferença nesse desafio:

Através da Browse tool é possível perceber que a maior linha do arquivo tem 2181 Caracteres. Então é necessário aumentar aumentar o 'Comprimento do campo' na input toll para este tamanho com a finalidade de não perder nenhuma palavra.
Malvim_0-1625840820191.png
BONUS 1
Malvim_1-1625840916479.png

 

Pretendo vir com Bonus 2 e Bonus 3 logo mais. 😃

 

Marcus Alvim

 

@Malvim não tinha notado sobre o tamanho da linha, muito bom.

 

Quando eu for adicionar o download vou corrigir isso, muito bom!

Malvim
Bólide

Hey de novo!

 

Acabei de ver que esqueci de colocar o fluxo na minha resposta! 

 

@Matheus_Rodrigues  essa tal da linha truncada dá uma dor de cabeça as vezes! haha E Obrigado pela Regular Expression \w{3,} ... 😃

 

Para fazer os Bonus eu resolvi coletar informações da página 'Base de Conhecimento - Português' aqui da comunidade Alteryx pra tentar identificar quais as palavras mais comuns nos títulos dos Artigos.

 

Tomei a liberdade de pegar palavras com 5 caracteres ou mais pra eliminar os 'com'; 'que'; 'para'; e 'como' da vida...

 

Segue BONUS 2 + BONUS 3:

 

Saqueador
Malvim_0-1625858723601.png

Top 10 Palvras nos títulos dos artigos:

Malvim_2-1625859280053.png

 

E pelo visto Alteryx é o vencedor!

 E quase que me esqueço dos fluxos de novo! =P

 

--

Marcus Alvim

SylviaP
Moderator
Moderator

Muito boa sua solução @Matheus_Rodrigues e na minha solução a palavra samba aparece  17 vezes!

Mas já vi que tem solução diferente... 🙂

Sylvia
dougperez
Quasar

Boa noite galera!

Fiz de um jeito... Mas acho que não entendi muito bem o desafio, quando aumentei o tamanho do campo do csv meu resultado não batia de jeito nenhum (apenas da quantidade de "sambas" hahahaha)

Bom, mas fiz até o bônus 1!

andreyluiz
Meteoro

Segue minha solução.

Assim como @Matheus_Rodrigues notei que as mesmas palavras aparecem com notações diferentes,

Por se tratarem da mesma considerei em uma só.

 

Bônus 1: No meu a palavra Samba apareceu por 17 vezes tbm.

lemuelcastro
Bólide

Segue minha solução!

 

Saqueador
lemuelcastro_0-1631825501273.png

 

SylviaP
Moderator
Moderator

Oi @dougperez acho que o grande problema desse desafio é a mistura de letras maiúsculas e minúsculas, pois na hora da contagem fica meio estranho.

Engraçado que eu tento, tento e tento bater minha solução com a de vocês e eu SEMPRE encontro 17 "sambas" no meu workflow. 🙈

Até postei uma soluçào nova, mas mesmo assim encontro 17. Hahaha!

Sylvia