Café com Código #11: Outliers, Como identifica-los?

No Café com Código de hoje vamos de Outliers, como identifica-los ?

Neste Café com Código #11 vai mais um dica para você aprender Data Science na pausa para o sagrado cafezinho.

Se quiser receber um conteúdo de Data Science toda semana no seu e-mail, se cadastre na lista VIP 🙂

Coloque o seu e-mail abaixo para receber gratuitamente as atualizações do blog!

Na rapidinha de hoje mostraremos uma técnica bem interessante para detectar outliers no nosso dado.

Mas o que seria um Outlier ? um outlier ou uma anomalia, seria um valor atípico, ou seja, uma observação que se apresenta bastante distante dos demais valores da distribuição.

Estes valores podem ser geradas por diversos fatores, uma forma mais comum é por conta de ruídos na coleta de dados ou erros de transformações..

Uma ótima forma de identificar Outliers é plotando um gráfico de BoxPlot dos valores.

Para o nosso exemplo vamos usar a biblioteca Seaborn.

Seaborn é uma biblioteca Python baseada em Matplotlib de alto nível para visualização de dados.  Caso ainda não tenha feito, instale com o comando abaixo:

Agora, veja como é simples plotar o gráfico com o código abaixo:


Antes de explicar o gráfico vamos entender o código.

No código acima começamos importando a biblioteca Seaborn e definimos o estilo do gráfico com o método set().

Logo após carregar o dataset iris através do método load_dataset().

Observe que o dataset iris já está disponibilizado pela biblioteca para testes.

Por fim apenas executamos o método BoxPlot passando o dataset iris como parâmetro.

Obs: O dataset Iris é um simples dataset bastante citado em diversas pesquisas. Para conhecer mais clique aqui

Mas o que esse gráfico nos mostra??

O gráfico de BoxPlot plotado acima se caracteriza como um retângulo que pode ser horizontal ou vertical com duas retas na parte superior e inferior.

O retângulo é formado por três Quartis que dividem os dados em quatro rols com 25% dos dados cada.

Inicialmente o conjunto de dados é dividido ao meio através do cálculo da mediana dos valores, que será o valor do Quartil 2 representado pela linha ao meio do retângulo.

Com os dados divididos em duas partes o Quartil 1 é representado pela linha da borda inferior do retângulo que representa o valor médio dos 25% dos dados.

O Quartil 3 é representado pela linha da borda superior do retângulo que representa o valor médio dos 75% dos dados.

Por fim as linhas superior e inferior extra ao retângulo representam o valor máximo e mínimo dos dados conforme a imagem abaixo.

visualizacao-dados-explicacao-box-plot-grafico

Com o BoxPlot conseguimos visualizar de forma rápida a distribuição dos dados através da dimensão do retângulo e visualizar as anomalias representadas pelos valores máximos e mínimos.

Através da linha representando o Quartil 2 conseguimos visualizar o centro dos dados e verificar se está mais próximo do valor mínimo ou máximo.

Ok, mas e os Outliers?

Na imagem do gráfico renderizado podemos observar que os dados do atributo  sepal_width contém alguns valores “estranhos”, veja:

Os valores que estão acima do ponto superior e inferior do gráfico são considerados Outliers, pois, estes estão distantes da média dos dados observados.

Acho que aqui já temos um bom ponto de partida para avançar na investigação desses dados concorda? 🙂

Então, o que achou? alguma dúvida? Me fale aqui.

Esse foi mais um Café com Código, toda Quarta as 15h no seu e-mail 😉

Se você gostou desse artigo, não deixe de conferir o artigo de visualização de dados e aprenda a usar os gráficos certos em seus projetos.

Gostou dessa dica? Não esqueça de compartilhar com seus amigos e me conte aqui o que está achando.

Forte abraço!

Coloque o seu e-mail abaixo para receber gratuitamente as atualizações do blog!