Café com Código #07: RapidMiner: Data Science sem escrever uma linha de código

Salve Minerador! No Café com Código #07 vai mais um dica para você aprender Data Science na pausa para o sagrado cafezinho.

Como sempre de forma rápida e objetiva…RapidMiner: Data Science sem escrever uma linha de código. 🙂

Na rapidinha de hoje mostraremos um exemplo simples de como utilizar a plataforma de Data Science chamada RapidMiner.

RapidMiner é uma ferramenta para trabalhar com Data Science e como o nome já diz, voltada para a rápida implementação de aplicações devido a grande produtividade proporcionada e por sua interface gráfica e desenvolvimento baseado em processos .

O RapidMiner trabalha com o conceito de processos onde podemos enfileirar as tarefas necessárias para a implementação da solução como leitura e carregamento de datasets, preparação e transformação dos dados, execução de scripts, execução de algoritmos etc.

Para começar vamos seguir um exemplo simples e rápido de como carregar um dataset de teste e executar um algoritmo de Machine Learning.

No artigo 10 Melhores Ferramentas e Bibliotecas para Trabalhar com Mineração de Dados e Big Data explico as diferentes versões do RapidMiner. Para baixar a versão de Studio click aqui.

Voltando ao nosso contexto, antes que esfrie o nosso café, o primeiro passo é criar um novo processo e carregar o dataset.

Para isso, crie um novo processo e no menu Operators navegue até Repository Access > Retrieve arraste o operador até a área Process conforme a imagem abaixo.

Observe no canto superior direito o menu Parameters que corresponde aos parâmetros do operador selecionado.

Clique no botão para adicionar o dataset ao parâmetro repository entry.

Selecione no menu Samples o dataset iris que será utilizado em nosso exemplo.

Note que existe uma linha saindo da porta out do operador Retrieve e ligando na porta res no final da área de processo.

Com essa linha estamos dizendo que a saída do operador que em nosso caso será a leitura do dataset iris será exibida na tela de resultados.

Depois de feita a ligação clique no botão com ícone de play ou tecle F11 para executar o processo e exibir os dados na tela.

No próximo passo iremos adicionar outro operador em nosso processo para fazer uma discretização dos dados, para isso selecione o operador Normalize navegando em Data Transformation > Value Modification > Numerical Value Modification.

Observe no menu Parameters as opções do operador.

Conforme a imagem acima especifique o método range transformation para fazer uma discretização de valores entre 0 e 1.

Até então o processo está carregando o dataset e discretizando os valores na faixa entre 0 e 1.

Pra finalizar vamos executar um algoritmo de Machine Learning para a brincadeira ficar mais interessante. 🙂

Adicione o operador Decision Tree navegando em Modeling > Classification and Regression > Tree Induction.

Esse operador executa um algoritmo baseado em arvore de decisão para fazer a classificação dos dados.

Observe que existe uma ligação entre os operadores Normalize e Decision Tree através das portas exa e tra que corresponde a saída do operador Normalize servindo como entrada para a porta Training do operador Decision Tree assegure que os operadores estejam corretamente conectados conforme a imagem acima.

Por fim, execute o processo para visualizar a arvore de decisão criada.

Com esse simples exemplo deu pra sentir o ganho de produtividade que o RapidMiner pode nos proporcionar.

Esse foi mais um Café com Código, assine a lista de e-mail abaixo para receber esse e-mail toda quarta-feira as 15h 😉

Gostou dessa dica? Não esqueça de compartilhar com seus amigos e me conte aqui o que está achando.

Forte abraço!

Coloque o seu e-mail abaixo para receber gratuitamente as atualizações do blog!