Oi pessoal, estou de volta!
Eu estava em férias, aproveitando um pouquinho do nosso verão que é tão curto (pra quem não sabe, eu moro no Canadá!).
Masss, o verão continua e o trabalho também, então essa semana tenho um desafio bem gostoso para vocês resolverem!
Desafio:
Nosso conjunto de dados contém informações sobre o Carnaval do Brasil. Seu objetivo é contar o número de vezes que cada palavra, com três ou mais letras, aparece no texto. Na segunda etapa, classifique as palavras em ordem decrescente e mostre a porcentagem do uso dessa palavra em relação à contagem total.
Bônus 1: Quantas vezes a palavra samba apareceu? (Coloque sua resposta no modo "Spoiler")
Bônus 2: Que tal encontrar outro texto online e executar sua solução nele. Compartilhe com a gente quais textos você gostaria que outros usuários analisassem.
Bônus 3: Use a ferramenta de download para obter texto diretamente do site em vez de usar o arquivo de texto.
Bora movimentar os dedinhos e sambar na solução! 🙂
@SylviaP, espero que tenha aproveitado as férias, bom retorno!
Encontrei algumas dificuldades nesse desafio, mas vou deixar elas dentro do Spoiler.
Ahhh, finalmente usei o Tokenize do Regex Tool em um desafio.
Também notei que faltam os cabeçalhos na parte do resultado, talvez tenha sido proposital para dificultar um pouco.
Aproveitei e copiei a base, colocando novos cabeçalhos e colocando os antigos como dados, pra conseguir checar o resultado.
Hey!
Segue minha solução: E deu samba!
Pretendo vir com Bonus 2 e Bonus 3 logo mais. 😃
Marcus Alvim
@Malvim não tinha notado sobre o tamanho da linha, muito bom.
Quando eu for adicionar o download vou corrigir isso, muito bom!
Hey de novo!
Acabei de ver que esqueci de colocar o fluxo na minha resposta!
@Matheus_Rodrigues essa tal da linha truncada dá uma dor de cabeça as vezes! haha E Obrigado pela Regular Expression \w{3,} ... 😃
Para fazer os Bonus eu resolvi coletar informações da página 'Base de Conhecimento - Português' aqui da comunidade Alteryx pra tentar identificar quais as palavras mais comuns nos títulos dos Artigos.
Tomei a liberdade de pegar palavras com 5 caracteres ou mais pra eliminar os 'com'; 'que'; 'para'; e 'como' da vida...
Segue BONUS 2 + BONUS 3:
Top 10 Palvras nos títulos dos artigos:
E pelo visto Alteryx é o vencedor!
E quase que me esqueço dos fluxos de novo! =P
--
Marcus Alvim
Muito boa sua solução @Matheus_Rodrigues e na minha solução a palavra samba aparece 17 vezes!
Mas já vi que tem solução diferente... 🙂
Segue minha solução.
Assim como @Matheus_Rodrigues notei que as mesmas palavras aparecem com notações diferentes,
Por se tratarem da mesma considerei em uma só.
Bônus 1: No meu a palavra Samba apareceu por 17 vezes tbm.
Oi @dougperez acho que o grande problema desse desafio é a mistura de letras maiúsculas e minúsculas, pois na hora da contagem fica meio estranho.
Engraçado que eu tento, tento e tento bater minha solução com a de vocês e eu SEMPRE encontro 17 "sambas" no meu workflow. 🙈
Até postei uma soluçào nova, mas mesmo assim encontro 17. Hahaha!