Café com Código #02: Scatter Plot – Visualizando a Dispersão dos Dados

scatter_plot

Salve Minerador!

No Café com Código #02 vai mais um dica para você aprender Data Science na pausa para o sagrado cafezinho.

Como sempre de forma rápida e objetiva… “Scatter Plot – Visualizando a Dispersão dos Dados

Quando precisamos visualizar a dispersão dos dados ou a sua variabilidade um bom ponto de partida é o gráfico de dispersão ou Scatter Plot.

Normalmente usado também como uma forma rápida e fácil para identificar correlação entre atributos. A correlação seria basicamente verificar se o aumento ou diminuição de alguma variável influencia na outra.

Para uma completa explicação sobre os principais tipos de gráficos utilizados para trabalhar com Data Science veja o artigo 7 Tipos de Gráficos que Todo Cientista de Dados Deve Conhecer.

Para iniciar o nosso exemplo vamos plotar o gráfico utilizando a biblioteca Matplotlib e a base de dados de teste iris.

Veja como é simples com o código abaixo:

scatter_plot iris

Observe que o fizemos foi definir as variáveis X e Y com os dados da base de dados de amostra iris e utilizamos o método scatter para renderizar o gráfico.

Dessa forma fica fácil de visualizar os valores de um atributo em relação a outro. Cada ponto do gráfico se refere a um valor e cada eixo do gráfico se refere a um atributo.

Podemos ver que os dados estão bem “espalhados” pois temos com valores mais baixos e altos em ambos os atributos.

Vamos colorir os pontos com uma cor para cada classe utilizando a biblioteca Seaborn.

scatter_plot bokeh

Bem melhor né?

Como falamos de valores correlacionados uma forma fácil de visualizar é através da plotagem de gráficos par a par.

Onde cada gráfico corresponde a um par de atributos.
Veja o código abaixo.

scatter_plot matplotlib

O código para geração do gráfico é extremamente simples, primeiro carregamos a base de dados com o comando load_dataset() e logo após executamos o método pairplot() para plotar os atributos em pares.

Dessa forma podemos visualizar perfeitamente se existe correlação entre cada par de atributos.

Visualização de dados é um assunto extenso e muito interessante para aprender tudo só com uma xícara de café não é mesmo? Por isso, vamos precisar de mais 🙂

Esse foi mais um Café com Código, toda quarta 😉

Gostou dessa dica? Comente abaixo e não esqueça de compartilhar com seus amigos.
Forte abraço!

Coloque o seu e-mail abaixo para receber gratuitamente as atualizações do blog!