Café com Código #03: Normalização de Dados com Weka

wekaSalve Minerador!!.

No Café com Código #03 vai mais um dica para você aprender Data Science na pausa para o sagrado cafezinho. o Tema de hoje é “Normalização de Dados com Weka“.

Como sempre de forma rápida e objetiva…

Antes de qualquer coisa, se você não conhece o Weka recomendo fortemente que veja o artigo Ciência dos Dados com Weka: Domine 7 Técnicas Essênciais sem Escrever uma Linha de Código. Ciência dos Dados com Weka: Domine 7 Técnicas Essênciais sem Escrever uma Linha de Código

Normalizar dados em nosso contexto nos referimos a trabalhar com a mesma escala para as nossas análises.

Diferentes escalas é um problema que pode inferir sobre os resultados dos algoritmos de Machine Learning.

Supondo que podemos ter um atributo que seja uma contagem de valores enquanto outro pode ser um valor em medidas de peso.

Nessas situações pode ser interessante normalizar os valores em uma única faixa, ou seja, transformamos os valores do atributo em intervalos determinados.

Digamos que iremos normalizar os dados entre a faixa de valores 0 e 1, dessa forma, o maior valor será o número 1 e o menor 0.

O processo é simples e pode trazer inúmeros benefícios.

Veremos como aplicar o filtro de normalização utilizando o Weka.

Para isso siga os passos conforme as imagens abaixo:

Com a base de dados iris importada, observe no canto direito o valor máximo e mínimo para o atributo sepallength.

weka

O valor máximo é 7.9 e mínimo é 4.3.

Para aplicar a normalização selecione o filtro normalize no menu filter seguindo os passos abaixo.

filters > unsupervised > attribute > normalize.

weka

Após selecionar o filtro observe no menu filter a faixa de valores que será usada para a normalização.

Clique no menu para aparecer o popup para especificar outra faixa de valores caso necessário. Para esse exemplo vamos manter a escala entre 0 e 1.

weka

weka

Após a definição da escala clique no botão Apply para aplicar o filtro nos dados.

Observe agora que o valor máximo para o atributo é 1 e o valor mínimo é 0 pois os dados foram normalizados entre 0 e 1 conforme a imagem abaixo.

weka

Agora os nossos dados de todos os nossos atributos numéricos estão normalizados nessa faixa de valores. Todos com os valores entre 0 e 1.

Então, fácil demais hein? 🙂

Esse foi mais um Café com Código, toda quarta às 15h 😉
Gostou dessa dica? Comente aqui abaixo e não esqueça de compartilhar com os amigos.

Forte abraço!

Coloque o seu e-mail abaixo para receber gratuitamente as atualizações do blog!