Introdução e Motivação
Essa semana está acontecendo a Imersão em dados da Alura (cursos online na área de Tech). Nela haverá desafios diários de manipulação e análise de dados típicos do dia a dia do Data Science. Toda a imersão será ensinada em python, mas vou tentar resolver todos os desafios com as ferramentas do Alteryx. Vamos ver se vai dar certo!
Link da Aula 01: link
Link do dataset: dataset
Desafios desta aula
1 - Realizar a média da metragem para cada um dos bairros. (Proposto pelo Paulo)
2 - Duas formas de selecionar os dados por bairro (consultar os métodos na documentação do Pandas). (Proposto pelo Thiago)
3 - Explorar alguns gráficos na documentação e aplicar nas demais colunas do DF, assim como tentar colocar alguma conclusão. (Proposto pelo Thiago)
4 - Pegar outras estatísticas dos dados (como média, mediana, mim, max). (Proposto pela Vivian)
5 - Descobrir quais são os bairros que não tem nome de rua. (Proposto pela Vivian)
Solucionado! Ir para Solução.
Que demais, @LeandroYgorLoli! Obrigada por compartilhar. Como parece ser um curso com diversas aulas, me avisa caso tenha interesse em fazer uma série com todas as aulas para colocarmos na nossa Base de Conhecimento. 😀
Flávia Brancato
Excelente @LeandroYgorLoli
Comecei a brincar com a base de dados e no fluxo em anexo fiz as análises indicadas e algumas outras, como quais são os 10 bairros com valor médio mais caro, quantidade de ofertas por bairro e também algumas análises avançadas de dados. Por exemplo, usei uma Ferramenta de Correlação para entender como as variáveis influenciam uma a outra, como a Metragem e Valor:
Na imagem acima, se observa o comportamento esperado: quanto maior a metragem, maior o valor. Mas com essa análise se pode observar alguns outliers. E ao analisar os dados na Ferramenta Sumarize se observa alguns casos que podem ser erros de dados, por exemplo, o valor mínimo para o Alto Pinheiros é R$ 7.000, mas a metragem mínima é 100m, algo está errado com esse dado hehe
Esse fluxo eu fiz agora nos últimos 15 minutos, o que mostra como é muito mais rápido a analise do que seria programando.
Outras ideias para o fluxo seria usar as ferramentas geográficas para saber, por exemplo, qual a distancia media entre ofertas por cada bairro e talvez até mesmo pensar em uma analise de cluster.. ou também cruzar com bases de mapas do proprio IBGE para outras analises.
Bastante rico o dado e muitas possibilidades de análise e trabalho.
Obrigado por compartilhar.