Free Trial

Blog

Insights e ideias das mentes mais brilhantes em análise de dados.
FláviaB
Alteryx Community Team
Alteryx Community Team

3.png

 

 

*Este artigo é uma reprodução do texto original escrito por @sadovsky na Comunidade em inglês

Conforme o cenário de dados evolui, as necessidades analíticas das empresas tornam-se cada vez mais complexas. Historicamente as técnicas de ciência de dados eram restritas a poucos que além de serem especialistas em programação, também estavam profundamente envolvidos com estatística. Hoje isso não é mais verdade! O Alteryx Intelligence Suite democratiza os recursos analíticos avançados para qualquer usuário do Alteryx que esteja interessado. Ele disponibiliza o poder do aprendizado de máquina preditivo e do processamento de linguagem natural para todas as organizações que desejam desbloquear o poder de seus dados.

Em nossa versão inicial do Alteryx Intelligence Suite, nós optamos por focar em dois dos desafios mais comuns da ciência de dados que as empresas enfrentam na atualidade:

 

  1. Os dados não se limitam mais apenas à planilhas. Empresas que compreendem os seus dados têm imagens, PDFs e outros ativos de texto dos quais podem extrair valor. Com as funcionalidades de mineração de texto do Intelligence Suite, estamos abrindo uma via totalmente nova de recursos analíticos para as empresas. Comentários em redes sociais, documentos legais, e-mails de suporte e outros, tudo isso contém um tesouro de informações que em muitas organizações nunca foi descoberto na íntegra. Esses componentes permitem com que você insira esse tipo de dados no Alteryx, prepare-o para análise, explore os tópicos e temas subjacentes em todo o texto e visualize os resultados para entender melhor as pessoas que estão por trás dos dados.

  2. Hoje, o sucesso exige com que você esteja dois passos à frente. O planejamento de negócios no mundo moderno é mais complexo do que nunca. A sua empresa precisa de todas as vantagens competitivas e, ter uma visão mais clara do que está por vir, pode possibilitar ou acabar com a sustentabilidade da sua organização. Com as funções de aprendizado de máquina do Intelligence Suite, abordamos como as organizações utilizam dados para criar modelos para previsão e interpretação. A modelagem preditiva permite utilizar padrões observados no passado para interferir o que pode acontecer no futuro. O Intelligence Suite equipa os usuários com elementos para responder a essas perguntas, juntamente com uma experiência orientada para ajudar a navegar pelas complexidades inerentes ao processo.

O Alteryx Intelligence Suite foi projetado para empresas em todos os estágios de sua jornada analítica. Para um analista principiante ou uma empresa que acabou de iniciar a adoção da análise avançada, o Intelligence Suite fornece tudo o que é necessário para começar a sua jornada analítica, sabendo que as escolhas que você faz por meio dos elementos de arrastar e soltar e as orientações na tela, têm o respaldo da melhor ciência de dados via bibliotecas open-source como scikit-learn e XGBoost. Para usuários avançados, os blocos de construção possibilitam a configuração e personalização detalhadas dessas bibliotecas integradas ao ambiente Alteryx.

 

Os usuários podem começar a explorar os seus problemas preditivos como avaliar quais clientes têm mais propensão de serem perdidos ou prever a probabilidade de um evento de interesse utilizando a modelagem assistida. Conforme a empresa amadurece, os modelos podem ser implantados através do Alteryx Promote ou Alteryx Server. Se desejado, os modelos podem ser convertidos em código Python bruto para compartilhar com outros cientistas de dados ou implantá-los em um ecossistema na nuvem.

Seja para prototipagem ou produção o processo é transparente, permitindo com que analistas de negócios, cientistas e cidadãos de dados trabalhem juntos. As mesmas capacidades de ciência de dados de qualidade aplicam-se aos elementos de mineração de texto. Eles são criados em bibliotecas como Tesseract, VADER e scikit-learn, garantindo com que os usuários recebam as melhores funcionalidades disponíveis no mercado, tudo com a facilidade de uso do Alteryx.

As funcionalidades de mineração de texto do Intelligence Suite

É com muita satisfação que destaco alguns dos incríveis recursos do nosso grupo de ferramentas de mineração de texto. Em sua essência, o grupo de ferramentas de mineração de texto simplifica a inserção de texto no Alteryx em qualquer formato, inclusive via PDFs e imagens pelo reconhecimento óptico de caracteres. Essa funcionalidade possibilita por si só uma forma inteiramente nova para os usuários inserirem dados no Alteryx. No entanto, quando os dados já estão lá, o grupo de ferramentas de mineração de texto também fornece elementos para manipular e processar melhor essas informações.

 

Preparo do texto para análise

O grupo de ferramentas inclui um bloco de construção específico para preparar dados de texto para análise, realizando a sua “lematização”. De maneira simples, essa abordagem ajuda a colocar diferentes formas de palavras em seu componente gramatical básico. Por exemplo em inglês, "am"/"are"/"is" tornam-se "be" e "cat"/"cats"/"cat’s"/"cats" se tornariam simplesmente "cat". Ao realizar o aprendizado avançado com o texto, essa etapa é fundamental para generalizar grandes acervos complexos em uma estrutura simples.

 

Com o Intelligence Suite a tarefa é tão fácil quanto arrastar um elemento para a tela do Designer e clicar em uma configuração personalizada.

A configuração do bloco de construção de pré-processamento de texto permite o preparo de dados de texto por meio da lematização, filtragem e remoção de uma lista personalizada de cadeias de caracteresA configuração do bloco de construção de pré-processamento de texto permite o preparo de dados de texto por meio da lematização, filtragem e remoção de uma lista personalizada de cadeias de caracteres

 


Escuta social

A mineração da web tornou-se uma forma inovadora para as empresas entenderem o impacto de seu produto quase em tempo real. É possível coletar tweets e defini-los como positivos, neutros ou negativos e as empresas podem manter uma métrica diária de comentários “positivos em relação aos negativos” para ver como a internet está reagindo. Definir o sentimento de um tweet e fazer isso em grande escala costumava exigir que alguém se aprofundasse em programação. Com o nosso componente básico de análise de sentimentos sem código, isso se torna uma tarefa fácil.

Com um fluxo de trabalho muito simples que utiliza o Intelligence Suite, você pode criar uma maneira eficaz de analisar tweets em grande escala!

Utilizando a ferramenta de análise de sentimento, os usuários podem criar resultados como o apresentado para rastrear a positividade/negatividade geral de grandes arquivos de texto ao longo do tempoUtilizando a ferramenta de análise de sentimento, os usuários podem criar resultados como o apresentado para rastrear a positividade/negatividade geral de grandes arquivos de texto ao longo do tempo

 

 

 

Modelagem de tópicos
Michael Jordan, juntamente com David Blei e Andrew Ng, é um dos principais autores do artigo que apresenta a Latent Dirichlet Allocation, a pesquisa que está por trás do campo de modelagem de tópicos. Não surpreende que esse não seja o mesmo Jordan que foi 14 vezes o NBA All-Star e jogou beisebol por pouco tempo na liga menor, em meu time favorito, o Chicago White Sox. Mas imagine se você tivesse dois blocos de texto gigantes sobre o astro dos esportes e o astro do aprendizado de máquina da University of California Berkley. Como seria possível diferenciá-los?

Bem, a distribuição de palavras nesses documentos provavelmente seria muito diferente. A modelagem de tópicos examina essas distribuições, compreendendo que algumas palavras podem ser comuns a ambas, mas provavelmente são recorrentes em outros padrões exclusivos. A aplicação da modelagem de tópicos nesses textos pode ajudá-lo a anotar todos os seus documentos com tópicos como "basquete" ou "aprendizado de máquina", mas você também pode descobrir outros temas como "tênis" ou "Space Jam", que podem ajudá-lo a organizar ainda mais, pesquisar ou resumir os seus textos. É possível imaginar como as empresas que possuem uma enorme quantidade de documentos de texto poderiam começar a utilizar essa tecnologia.

 

Eu tive a honra de aprender sobre modelagem de tópicos com John Lafferty, coautor de David Blei, durante o meu doutorado. Para mim, levar essa tecnologia para todos os usuários, com todos os tipos de históricos acadêmicos e profissionais, é um empreendimento pessoalmente importante e empolgante para democratização da ciência de dados! Agora, em vez de lutar para fazer o código funcionar com base em modelos matemáticos complexos, eu posso arrastar e soltar ferramentas no Alteryx e rapidamente começar a explorar os tópicos em qualquer conjunto de documentos.

A modelagem de tópicos permite aos usuários explorar a existência de termos e tópicos dominantes em seu texto por meio de uma interação visualA modelagem de tópicos permite aos usuários explorar a existência de termos e tópicos dominantes em seu texto por meio de uma interação visual

 

 

Visualização dos seus resultados
O grupo de ferramentas de mineração de texto permite criar nuvens de palavras a partir de seus resultados, fornecendo uma representação gráfica completa da sua análise com filtros e opções para destacar os seus gráficos! Por exemplo, abaixo está a nossa nuvem de palavras de ciência de dados, no formato de uma nuvem.

É possível visualizar o texto com a ferramenta de nuvem de palavras, que é capaz de utilizar outra imagem como modeloÉ possível visualizar o texto com a ferramenta de nuvem de palavras, que é capaz de utilizar outra imagem como modelo

 

FláviaB_4-1592337853809.png

 




Aprendizado de máquina com o Alteryx Intelligence Suite
Se fôssemos repassar todas as novas funcionalidades de aprendizado de máquina, o conteúdo seria excessivo para esta postagem. Assim, vamos focar em alguns dos meus recursos favoritos do novo grupo de ferramentas.

 

Transparência e controle total

O componente básico da modelagem assistida mantém as pessoas por dentro do aprendizado de máquina. Ele estabelece perfis de dados para apresentar as melhores sugestões possíveis, considerando várias heurísticas e práticas recomendadas, mas ninguém conhece os seus dados melhor do que você! Em contraste com outras soluções que não são transparentes, a modelagem assistida mostra a razão pela qual está fazendo determinadas recomendações, com que nível de segurança e sempre permite com que você substitua as opções.

 

No painel Detalhes (à direita), os usuários podem conferir exatamente como a modelagem assistida faz recomendações e explora os dados por si mesmosNo painel Detalhes (à direita), os usuários podem conferir exatamente como a modelagem assistida faz recomendações e explora os dados por si mesmos

 

 

Importância do recurso

Escolher os dados corretos para um modelo é uma tarefa difícil. Se você não tiver cuidado, os dados que não estariam disponíveis para o modelo no futuro poderiam ser adicionados acidentalmente em seu conjunto de treinamento. Muitas vezes, esse fenômeno é chamado de “vazamento de dados” e pode fazer com que os modelos em produção falhem totalmente ou produzam resultados abaixo do padrão. No outro extremo do espectro, frequentemente não sabemos quais dados são importantes para uma próxima tarefa, então incluímos tudo o que temos. Essa é geralmente a melhor abordagem agnóstica, no entanto, ela pode tornar o processo de modelagem mais lento e complicar os algoritmos, reduzindo o seu desempenho.

A modelagem assistida utiliza duas técnicas (Gini Impurity e Goodman-Kruskal Tau) para identificar o melhor conjunto de recursos para gerar com eficiência um modelo equilibrado e de ótima qualidade.

 

A modelagem assistida verifica a utilidade dos preditores utilizando duas metodologias descritas no painel Detalhe (à direita). Qualquer preditor que seja suspeitosamente bom demais ou que não tenha um valor será destacado e direcionado para o usuário a fim de ser removido da análiseA modelagem assistida verifica a utilidade dos preditores utilizando duas metodologias descritas no painel Detalhe (à direita). Qualquer preditor que seja suspeitosamente bom demais ou que não tenha um valor será destacado e direcionado para o usuário a fim de ser removido da análise

 

 

Explorações da tabela de liderança

Um dos meus teoremas favoritos em tudo o que se refere ao aprendizado de máquina é: “não existe almoço grátis”. Isso implica que não há como saber qual algoritmo de modelagem será adequado para um conjunto de dados específico. Enquanto o XGBoost pode ser melhor para um conjunto de dados, um modelo linear simples poderia funcionar bem para outro. Nossa única solução para esse problema é executar vários modelos com dados de treinamento e ver empiricamente qual funciona melhor.

A página da tabela de liderança da modelagem assistida nos permite fazer isso com vários modelos otimizados para serem executados em paralelo, considerando as restrições de seu computador.

A tabela de liderança da modelagem assistida permite com que os usuários comparem modelos em relação a várias métricas e se aprofundem nas interpretações e configurações de cada modeloA tabela de liderança da modelagem assistida permite com que os usuários comparem modelos em relação a várias métricas e se aprofundem nas interpretações e configurações de cada modelo

 

 

Qualificação

Para muitos analistas, a parte mais valiosa da modelagem assistida é que ela pode ajudar a aperfeiçoar o aprendizado de máquina e oferece a opção de ver o seu trabalho graficamente ou como um código simples. Ela orienta você cuidadosamente pelo processo de modelagem, explicando o que está fazendo e porque, ao mesmo tempo em que fornece um glossário detalhado que explica os termos e a metodologia em linguagem simples. Você pode simplesmente clicar nas opções padrão ou conforme ganha experiência, começar a experimentar aplicando "ciência" à ciência de dados! Conforme você pratica, poderá ignorar totalmente o modo assistido, focando na criação de modelos diretamente na tela. Por fim, você pode converter o seu modelo para o código Python bruto, o que permite utilizar a interface gráfica para modelar, ver e editar o código que foi criado por sua experiência de modelagem guiada.

 

Independente de você ser novato ou experiente, a modelagem assistida ajuda a criar ou formar um protótipo e por fim, compartilhar ou explorar modelos em sua representação Python nativa, concluindo a jornada dos blocos de construção até o código executável.

A funcionalidade de “Exportar o modelo para o Python” permite com que os usuários exponham o código subjacente de um modelo na ferramenta Alteryx PythonA funcionalidade de “Exportar o modelo para o Python” permite com que os usuários exponham o código subjacente de um modelo na ferramenta Alteryx Python

 

 

Mensagem final

Estou muito empolgado para ver as soluções que vocês criaram utilizando os elementos do Alteryx Intelligence Suite!

Fale com o seu executivo de conta para experimentar o Alteryx Intelligence Suite agora mesmo, disponível no Designer 2020.2, para começar a criar e democratizar a ciência de dados em toda a sua empresa. Se você não conhece seu representante ou tem alguma dúvida sobre como começar, acesse o Portal de Suporte e no menu suspenso selecione Request Access to Intelligence Suite para que possamos ajudar a configurá-lo. 

 

 

 

Rótulos