Free Trial

Blog

Insights e ideias das mentes mais brilhantes em análise de dados.
Garabujo7
Alteryx
Alteryx

Os dados

 

Embora os dados tenham assumido seu lugar como um dos principais recursos naturais existentes, os especialistas para aproveitá-los são limitados.

 

Abaixo, podemos ver o crescimento estimado de dados criados em todo o mundo entre 2010 e 2025 (em zetabytes), de acordo com dados da statista.

 

 

 

Garabujo7_1-1572473579550.png
Garabujo7_2-1572473579567.png

 

 

Para entender melhor (ou confundir mais, conforme o caso), compartilho abaixo uma tabela para visualizar uma ideia aproximada do valor de um zetabyte.

Cada prefixo abrange três zeros, Kilo 3, Mega 6, Giga 9, Tera 12, Peta 15, Exa 18, Zetta 21.

 

 

 

Garabujo7_3-1572473579569.png
Garabujo7_4-1572473579579.png
*Imagem extraída do site https://www.neoteo.com/la-era-del-zettabyte-cuantos-bytes-hay-en-un-zettabyte-y-como-nos-afecta/

 

 

Para comparar a quantidade de informações que isso implica, um exemplo retirado de um blog da Cisco menciona que se cada Terabyte (12 zeros) de um Zettabyte (21 zeros) fosse de um quilômetro, seria o equivalente a 1.300 viagens à Lua ida e volta ou 768.800 quilômetros.

 

São números que parecem difíceis de quantificar devido à sua magnitude; no entanto, com os dados digitais e informações sobre sensores, entre outros criados diariamente, seu crescimento aumenta rapidamente todos os dias. É por isso que mais e mais profissionais precisam tirar proveito do valor inerente aos dados.

 

 

Cientistas de dados

 

 

Foi classificada como uma das profissões do futuro, a mais requisitada e, ao mesmo tempo, com muitos poucos profissionais prontos para atender à demanda atual e futura, pelo menos a curto e médio prazo.

 

Deixando de lado a discussão sobre o papel do cientista de dados, seja apenas uma pessoa que pode ter capacidade ou uma equipe multidisciplinar; quais habilidades são necessárias? Conhecimento técnico, social, de negócios, experiência, linguagens de programação e ferramentas tecnológicas.

 

Em seguida, no gráfico da insidebigdata.com, vemos como a escassez continua aumentando. Quatro em cada dez empresas relatam a falta de habilidades analíticas como um de seus principais desafios e estima-se que serão necessários pelo menos 1,5 milhão de gerentes e analistas com experiência analítica.

 

 

 

Garabujo7_5-1572473579570.png
Garabujo7_6-1572473579581.png
*Imagem extraída do site https://insidebigdata.com/2018/08/19/infographic-data-scientist-shortage/

 

 

Cidadão de ciência de dados

 

 

Segundo a Gartner, um cidadão de ciência de dados é a pessoa que agrega valor ao processo de análise e é capaz de simplificá-lo usando modelos analíticos para diagnósticos avançados ou com recursos preditivos e prescritivos; mas não possui formação acadêmica nem sua função no trabalho está relacionada ao campo da estatística ou da analítica.

 

Em resumo, são usuários de negócios avançados que podem realizar análises complexas que normalmente exigiriam mais conhecimento e experiência técnica e de programação. Isso não significa que eles substituirão os cientistas de dados, mas são uma excelente alternativa, porque, embora não tenham treinamento em ciência de dados, talvez eles possam contribuir com sua experiência no negócio e suas habilidades específicas.

 

Ao contrário dos cientistas de dados que resolvem os grandes problemas das organizações, desenvolvem modelos altamente complexos, escrevem código e atendem às necessidades de negócios mais prioritárias, os cidadãos de ciência de dados têm a vantagem de se concentrarem na resolução de tarefas e perguntas de negócios do dia a dia que geralmente consomem muito tempo e dependem de outras funções que os apoiem.

 

Isso não significa que as perguntas que eles resolvem sejam triviais, mas exigem mais capacidade técnica e, em muitos casos, de programação e estatísticas avançadas, para poder passar da simples preparação de dados ou união de arquivos e fontes para estatísticas descritivas, preditivas e mesmo prescritivas.

 

Para facilitar o surgimento dos cidadãos de ciência de dados, existe uma situação entre as capacidades, necessidades e tecnologia que possibilitam a alguém que não possui o treinamento, mas a inquietação e o conhecimento dos negócios. Isso pode acontecer com a preparação de dados usando apenas Excel ou arquivos de texto para poder usar plataformas poderosas que permitem acessar bancos de dados e Big Data, sem limite em termos de volume e velocidade de resposta.

As novas plataformas de análise de dados possibilitam que os usuários de negócios executem as análises necessárias com apenas um conhecimento técnico mínimo e usando interfaces simples e intuitivas que se concentram nos resultados e não em aprender a codificar ou em conceitos tecnológicos complexos, abstraindo-os para pesquisar resultados rapidamente.

Um ponto importante é ter uma metodologia para resolver os problemas e conhecer as ferramentas (modelos) existentes para fazê-lo. Embora as novas plataformas simplifiquem com apenas alguns cliques, é necessário ter a base de que tipo de problemas cada modelo se aplica e alguns parâmetros importantes que podem afetar o resultado.

 

 

 

CRISP DM

 

 

Na parte da metodologia, ainda que cada um de nós tenhamos uma maneira de resolver os problemas, uma recomendação poderia ser usar o CRISP (Processo Padrão entre Indústria para Mineração de Dados).

 

 

 

Garabujo7_7-1572473579571.png
Garabujo7_8-1572473579572.png
*Metodologia padrão para análise de dados CRISP-DM, extraída do site https://www.datasciencecentral.com/profiles/blogs/crisp-dm-a-standard-methodology-to-ensure-a-good-o...

 

 

 

A vantagem de ter um processo sistemático e um padrão para análise de dados é que sua eficácia pode ser medida e facilmente replicável.

 

As etapas da metodologia são:

 

1. Compreensão do negócio

 

 

Conhecer e entender os requisitos e objetivos da perspectiva da indústria, a fim de estruturar uma definição do problema para análise de dados e criar um plano preliminar.

 

2. Compreendendo os dados

 

 

Faça uma análise exploratória dos dados para conhecê-los, identifique possíveis problemas e descobertas de qualidade para criar hipóteses com base no que você realmente tem e verifique se você pode atingir o objetivo com os dados que possui.

 

3. Preparação dos dados

 

 

São as atividades para combinar e ordenar os dados de maneira apropriada para realizar a análise necessária.

 

4. Modelagem

 

 

As técnicas de modelagem são selecionadas com base no problema, objetivo e dados. Devido aos requisitos específicos de cada modelo, você geralmente pode retornar à preparação para ter apenas os dados necessários e no formato correto.

 

5. Avaliação

 

 

Como os modelos foram construídos, eles devem ser testados para verificar se respondem da maneira mais precisa possível à realidade do problema. O resultado final será um modelo campeão que oferecerá melhor adaptação à realidade e fornecerá a resposta mais precisa.

 


6. Implantação

 

 

Coloque o modelo em produção em um site ou aplicativo de negócios, para começar a trabalhar no dia a dia.

 


Bases da ciência de dados

 

 

Tendo uma metodologia para resolver problemas, o próximo ponto necessário é ter um quadro de referência que nos ajude a selecionar o tipo de modelo que pode nos ajudar para cada problema em particular. Sem sermos especialistas em estatística, podemos usar o seguinte quadro de referência criado pela Alteryx para selecionar o tipo de modelo de acordo com o problema de negócios, os dados disponíveis e seu volume.

 

 

Garabujo7_9-1572473579574.png
Garabujo7_10-1572473579575.png
*Extraído do curso "Problem Solving with Advanced Analytics By Alteryx" no UDacity

 

 

Plataforma para cidadãos de ciência de dados

 

 

O ponto final para ser um grande cidadão de ciência de dados é ter uma plataforma de autoatendimento orientada aos resultados, na qual não haja a dependência de especialistas para acessar os dados, prepará-los ou modelá-los. Um lugar onde o analista de negócios possa ser independente para gerar todo o processo de análise do início ao fim, encontrar os dados necessários, revisar sua qualidade, criar modelos, avaliá-los, publicá-los e compartilhar relatórios nas soluções institucionais de BI.

 

Sem programar ou escrever uma linha de código em linguagens complexas

 


Existem várias opções no mercado. Algumas de código aberto como Orange e Open Refine, outras que já existem há muito tempo, como SAS ou SPSS, aquelas que usam inteligência artificial como Data Robot ou H2O, plataformas de BI como Tableau, PowerBI ou Qlik e os mais modernos, como Knime ou Rapid Miner.

Mas aqui estou me referindo ao Alteryx, que qualquer usuário pode facilmente começar a usar para criar análises e crescer com a plataforma para avançar em suas análises, passando do mix básico de dados para modelos com técnicas analíticas especializadas, análise geoespacial ou criação de aplicativos - todos usando o mouse apenas em um ambiente amigável e intuitivo.


Outro ponto importante sobre o Alteryx é que você pode experimentar a versão completa gratuitamente por 14 dias, com todos os recursos, modelos e funcionalidades. Você pode baixá-lo aqui: https://www.alteryx.com/designer-trial/free-trial

Rótulos