Rodrigo Santana

Mestrando em Ciência da Computação, interessado em Machine Learning, NLP e Data Science.

One Hot Encoding? Entenda como Funciona com Exemplos em Python

One Hot Encoding? Entenda como Funciona com Exemplos em Python

One Hot Encoding : Entenda porque você precisa transformar dados categóricos. As vezes o sucesso de um projeto de Data Science está na capacidade de trabalhar nos dados. Muitas vezes ficamos presos em como um algoritmo de Machine Learning funciona, ou ainda, em como fazer um tunning deste. Mas, muitas vezes, o que realmente faz a diferença é o pré-processamento dos dados. É o famoso pulo do gato. Saber como processar seus dados conforme o problema que você quer resolver vai (com toda certeza) ser um Continue lendo

Pipelines: Como Automatizar Seus Processos de Machine Learning

Pipelines: Como Automatizar Seus Processos de Machine Learning

Olá Mineradores, hoje vamos de Pipelines: Como Automatizar Seus Processos de Machine Learning Quando estamos trabalhando com dados, é muito comum precisarmos executar vários processos para chegar em um resultado desejado. Com Data Science não é diferente, normalmente não é só pegar o dado e rodar um algoritmo de Machine Learning.. Muitas vezes precisamos fazer um pré-processamento nos dados, rodar um algoritmo, validar, ajustar, e por ai vai.. A famosa frase cabe aqui (novamente): NO PAIN, NO GAIN!  Para ter resultados interessantes é preciso suar Continue lendo

Café com Código #21 GridSearch: Melhore a eficiência dos seus algoritmos de Machine Learning

Café com Código #21 GridSearch: Melhore a eficiência dos seus algoritmos de Machine Learning

Salve Minerador(a), hoje vamos de GridSearch : Melhore a eficiência dos seus algoritmos de Machine Learning Na rapidinha de hoje mostraremos um recurso muito interessante chamado Gridsearch. Já ouviu falar sobre os hyperparametros dos algoritmos de Machine Learning? Provavelmente você sabe do que to falando, mas você sabe como escolher os melhores valores para cada parâmetro? Essa tarefa não é tão simples, haja visto que existem algoritmos que contém vários parametros disponíveis.. E a coisa pode ficar mais complicada Muitas vezes o modelo se comporta Continue lendo

Café com Código #20: Matriz de Confusão, Você Sabe Utilizar?

Café com Código #20: Matriz de Confusão, Você Sabe Utilizar?

Salve Minerador(a), hoje vamos de Matriz de Confusão Na rapidinha de hoje mostraremos como imprimir a matriz de confusão e visualizar os resultados de classificação do seu modelo Mas o que é a tal da Matriz de Confusão? A Matriz de confusão (tradução livre) é uma matriz de valores reais e valores preditos pelo seu classificador. De confusa, esta matriz só tem o nome, você vai ver como é simples entender e utilizar esse recurso. Obs: Caso você não saiba o que é o Café Continue lendo

Café com Código #19: Standartization – Pré-Processamento

Café com Código #19: Standartization – Pré-Processamento

Salve Minerador(a), hoje vamos de Pré-Processamento Standard, ou melhor dizendo: Standartization Na rapidinha de hoje mostraremos como fazer um tipo de pré-processamento muito útil. Fazer Pré-processamento é um pouco chato (eu sei), mas é necessário.. Muitos algoritmos de Machine Learning assume que os dados estão padronizados na hora de gerar o modelo, ou seja, assumem que os dados estão todos na mesma escala.. Quando isso não acontece, alguns algoritmos tendem a ter uma performance ruim e gerar modelos ineficientes Um exemplo disso são os algoritmos baseados em Continue lendo

Café com Código #18: O Famoso SVM

Café com Código #18: O Famoso SVM

Salve Minerador(a), hoje vamos de O Famoso SVM No Café com Código #18 vai mais um dica rápida para você aprender Data Science na pausa para o sagrado cafezinho. Na rapidinha de hoje veremos uma introdução ao funcionamento do algoritmo de Machine Learning SVM. Confesso que quando descobri que SVM siginifica Support Vector Machine pensei: Se o nome me parece confuso, imagina como complicado isso deve ser. Mas, não bem assim, o nome assusta mas você vai perceber que faz um sentido. Obs: Caso você não Continue lendo

Café com Código #16: Split Dataset, Como separar conjuntos de treino e conjuntos de teste?

Café com Código #16: Split Dataset, Como separar conjuntos de treino e conjuntos de teste?

No Café com Código de hoje vamos de Split Dataset, Como separar conjuntos de treino e conjuntos de teste? Salve Minerador(a), No Café com Código #16 vai mais um dica rápida para você aprender Data Science na pausa para o sagrado cafezinho. Na rapidinha de hoje mostraremos como separar dados de treino e dados de teste sem dor de cabeça. Quando falo dor de cabeça, é que você não precisar fazer um loop que itera sobre os dados e faz a separação na mão. Obs: Caso Continue lendo

Café Com Código #15: Customizando seus Gráficos com Matplotlib

Café Com Código #15: Customizando seus Gráficos com Matplotlib

No Café com Código de hoje vamos de Customizando seus Gráficos com Matplotlib   Salve Minerador(a), No Café com Código #15 vai mais um dica rápida para você aprender Data Science na pausa para o sagrado cafezinho. Na rapidinha de hoje faremos uma breve e simples explicação sobre como usar anotações para destacar alguma informação em suas visualizações. Obs: Caso você não saiba o que é o café com código é o seguinte: eviamos um conteúdo de Data Science toda semana no seu e-mail, basta se cadastrar Continue lendo

Café com Código #12: Parts of Speech, O que é isso ?

Café com Código #12: Parts of Speech, O que é isso ?

No Café com Código de hoje vamos de Parts of Speech,  o que é isso? Salve Minerador, No Café com Código #12 vai mais um dica para você aprender Data Science na pausa para o sagrado cafezinho. Na rapidinha de hoje mostraremos uma técnica bem interessante para projetos envolvendo Mineração de textos. Se quiser receber um conteúdo de Data Science toda semana no seu e-mail, se cadastre na lista VIP Imagine um chatboot que precisa entender e interagir com um usuário através de texto O chatboot precisará saber quem é o sujeito da frase, (sujeito aqui Continue lendo

Café com Código #11: Outliers, Como identifica-los?

Café com Código #11: Outliers, Como identifica-los?

No Café com Código de hoje vamos de Outliers, como identifica-los ? Neste Café com Código #11 vai mais um dica para você aprender Data Science na pausa para o sagrado cafezinho. Se quiser receber um conteúdo de Data Science toda semana no seu e-mail, se cadastre na lista VIP 🙂 Na rapidinha de hoje mostraremos uma técnica bem interessante para detectar outliers no nosso dado. Mas o que seria um Outlier ? um outlier ou uma anomalia, seria um valor atípico, ou seja, uma observação que se apresenta bastante distante dos Continue lendo