Café com Código #04: Nuvem de Tags com Python

nuvem de tags

Salve Minerador!!, no Café com Código #04 vai mais um dica para você aprender Data Science na pausa para o sagrado cafezinho.

Como sempre de forma rápida e objetiva…”Nuvem de Tags com Python

Nuvem de Tags ou Tagcloud é basicamente uma representação visual de dados no formato texto livre, onde podemos observar rapidamente a relevância de uma palavra em uma base de dados através do seu tamanho na nuvem.

É como se quanto maior for a ocorrência daquela palavra no texto maior ela será na nuvem ou desenho.

Na imagem acima podemos ver que as palavras Python, data e thank são bem frequentes, pois, elas aparecem bem destacadas na nuvem.

Nuvem de tags é uma técnica simples e interessante para Análise de Textos e abordamos essa e outras no artigo Mineração de Textos: 7 Técnicas e Aplicações para Você Extrair Valor dos Dados e Alavancar Suas Análises.

Chega de papo e vamos ao código antes que o café esfrie, certo ?

Para o nosso exemplo vamos utilizar uma biblioteca para a geração da nuvem de tags chamada Wordcloud.

Instale a biblioteca com o pip:

Com a biblioteca instalada, vamos baixar o dataset 2016 US Presidential Debates na página do Kaggle que contém textos dos debates entre os candidatos a presidência dos Estados Unidos.

Com o dataset em mãos, simplesmente executamos o código abaixo para ler todos os dados e plotar a nuvem.

Veja o código abaixo.

As 2 primeiras linhas importamos as bibliotecas usadas.

Em seguida colocamos dentro da variável text o conteúdo do arquivo ‘debate.csv’.

Nas linhas 5 e 6 criamos uma variável chamada wordcloud que instancia a classe WordCloud com seus parâmetros de altura, largura e tamanho máximo da fonte das palavras maiores e executamos o método generate() para passar a variável text.

Nas linhas finais dizemos ao Matplotlib para plotar uma imagem, em seguida desabilitamos os eixos do gráfico e finalmente mandamos exibir.

Será gerada uma nuvem como a seguinte:

nuvem de tags

Observe que as palavras que ocorreram com mais frequência no texto são.. people, said, trump, country, secretary, clinton, donald…etc.

Então, fácil demais hein? 🙂

Esse foi mais um Café com Código, toda Quarta às 15h 😉
Gostou dessa dica? Não esqueça de compartilhar com seus amigos.

Forte abraço!

Coloque o seu e-mail abaixo para receber gratuitamente as atualizações do blog!