Afinal, o que é Big Data e Mineração de dados? – Aprenda definitivamente

Mineração de dados
Vacas

Antes de falarmos de Mineração de dados e Big data,

leia a seguinte história e imagine como essas tecnologias podem resolver sérios problemas..

Todos os anos, produtores de leite da Nova Zelândia têm que tomar uma dura decisão de negócios: quais vacas devem reter no seu rebanho e quais vender para um matadouro. Normalmente, um quinto das vacas em um rebanho leiteiro são abatidas a cada ano perto do final da época de ordenha, quando reservas de alimentação diminuem. O histórico de  criação e a produção de leite de cada vaca influencia essa decisão além de diversos outros fatores, tais como: a idade do animal (uma vaca aproxima-se do final de sua vida produtiva aos oito anos), problemas de saúde, histórico de partos difíceis, traços de temperamento indesejáveis (chutando ou saltando cercas), não estar grávida de bezerro para a temporada seguinte etc. Centenas de atributos para cada vaca foram registrados ao longo dos anos. “

Mineração de dados e big data estão sendo usadas para auxiliar pessoas a tomarem decisões baseado em dados.

Na história acima, agricultores estão usando essas técnicas para melhorarem suas habilidades com criações e evitarem erros.

Agora imagine outro cenário, um pouco mais próximo de você…

Imagine organizar a timeline de milhões de usuários de uma rede social, baseando nas características de uso de cada um.

Informações como: amigos mais próximos, páginas curtidas, posts curtidos e compartilhados, tipo de conteúdo publicado e outras centenas de variáveis.

Esse é o desafio do Facebook. Proporcionar a melhor experiência ao seus usuários, garantindo que conteúdos mais relevantes sejam priorizados.

Observe que o comportamento dos usuários é extremamente dinâmico, ou seja, não existe informação estática que pode ser gerenciada facilmente.

Somente através de um processo contínuo de mineração de dados é possível gerenciar essas informações de forma inteligente.

Afinal de contas o que é Big Data e Mineração de Dados?

Mineração de dados
Mineração de Dados

Big Data é um termo utilizado para definir grandes e complexos conjuntos de dados. Pesquisadores definem Big Data em três V’s que são: Volume, Velocidade e  Variedade.

  • Volume pela grande quantidade de dados a ser processado
  • Velocidade para analisar os dados em tempo satisfatório
  • Variedade devido aos diferentes tipos de dados utilizados.

Mineração de dados é um processo computacional para descobrir padrões em grandes conjuntos de dados.

Esse processo envolve técnicas e métodos de diversas áreas como: inteligência artificial, aprendizado de máquina, estatísticas e sistemas de banco de dados.

O objetivo aqui é extrair dados de fontes de dados e transformá-los em informação útil, gerando valor para o negócio.

Os maiores benefícios da mineração de dados é a criação de inteligência de negócios sobre determinado assunto, também referenciado como: KDD – Knowledge Discovery in Databases – ou Descoberta de Conhecimento sob Base de Dados.

Os processos de mineração de dados focam na aplicação de técnicas estatísticas e de inteligência artificial para a análise interativa dos dados.

Tais técnicas visam identificar de padrões de comportamento, tendências ou predição.

Do ponto de vista técnico, a mineração de dados se dá na aplicação de técnicas estatísticas e algoritmos de inteligência artificial.

Algoritmos de aprendizado de máquina são muito usados para descoberta de conhecimento. È aqui que a coisa fica interessante 🙂

Mineração de dados não é apenas um processo computacional ou automático, mas sim um trabalho cooperativo entre pessoas e máquinas.

Pessoas conseguem descrever, modelar e desenhar bancos de dados, os problemas a serem solucionados e os objetivos a serem alcançados.

Máquinas processam dados e pessoas buscam soluções para os problemas usando a informação gerada.

Coloque o seu e-mail abaixo para receber gratuitamente as atualizações do blog!

Etapas do KDD – Knowledge Discovery in Databases

Mineração de dados
KDD
  • Entendimento do Problema:  Neste momento se concentra na compreensão do problema, bem como o escopo e os objetivos do projeto. É de extrema importância nessa fase, ter um bom conhecimento do negócio, para que fique claro quais os benefícios esperados da solução e seus principais desafios.
  • Extração dos dados:  Como o nome sugere, nesta etapa são realizadas ações de extração e coleta de dados.  São identificadas as bases de dados que serão utilizadas no projeto bem como suas tabelas e atributos relevantes. Além de trabalhar com conjuntos de dados a partir de sistemas locais, dependendo da solução, é necessária a coleta de dados a partir de diversas fontes como por exemplo a Web. O objetivo aqui é centralizar e agrupar os dados necessários para o sucesso do projeto.
  • Modelagem: A fase de modelagem é sem dúvida a mais importante para o projeto, pois, é onde se realiza as ações fundamentais para o sucesso do projeto. Nesta etapa é feita a seleção de atributos relevantes, limpeza de dados inconsistentes, detecção e tratamento de anomalias, conversão e transformação de tipos de dados etc. Uma base de dados bem modelada influencia significativamente na performance e eficiência dos modelos.
  • Mineração de dados: Esta etapa é onde deverá ser escolhido o método de mineração de dados. Consiste em definir a melhor técnica a ser aplicada e a abordagem para a melhor execução dos algoritmos. Após o processamento devem ser feitas as avaliações dos resultados através de métricas quantitativas e caso necessário os ajustes ao modelo gerado.
  • Interpretação de Resultados: Por fim, nesta etapa é feita a avaliação e interpretação dos resultados de todo o processo. É importante que o conhecimento gerado seja documentado e utilizado para a otimização dos processos com o objetivo de agregar valor ao negócio.

Mineração de dados e Aprendizado de máquina

Mineração de dados
Aprendizado de Maquina

De forma bem sucinta, minerar dados é procurar padrões nos dados.

O trabalho de mineração de dados é procurar padrões nos dados que façam sentido para a resolução de um problema.

Para isso usamos a técnica chamada Aprendizado de Máquina.

Algoritmos de Aprendizado de Máquina exploram dados e geram modelos que aprendem com os exemplos.

Com isso desenvolvem a capacidade de fazerem predições.

Voltando no inicio dese artigo, usando aprendizado de máquina podemos ajudar os fazendeiros da Nova Zelândia?

Com os dados históricos de criação das vacas e os dados sobre as escolhas que deram certo ou não, é possível criar um modelo que aprenda com os dados. Esse modelo utilizaria algoritmos de Aprendizado de Máquina para identificar padrões e gerar informação valiosa para a tomada de decisão.

Aprendizado de Máquina – Tipos de Aprendizado

Tarefas de aprendizado de máquina podem ser classificadas em tipos diferentes.

Cada tipo é utilizado conforme o problema que se quer resolver, bem como os recursos existentes. Os principais são:

Aprendizado Supervisionado: São apresentadas amostras de dados ao algoritmo com suas respectivas classes.

O objetivo é que o algoritmo crie hipóteses capazes de classificar exemplos desconhecidos. Exemplo: Uma base de dados com informações de pacientes que tiveram sintomas de dengue.

Alguns apresentavam os sintomas e estavam com a doença, outros apresentam os sintomas mas não estavam com a doença. Veja um exemplo:

Mineração de dados
treino

Com o algoritmo treinado com a base acima, o objetivo é classificar um novo exemplo desconhecido, como:

Mineração de dados
classificação

Aprendizado Não Supervisionado: Nenhum exemplo classificado é dado para o algoritmo.

Este tenta encontrar características nos dados de entrada que faça com que seja possível descobrir padrões.

Existem algumas aplicações desses algoritmos que visam agrupar informações semelhantes, descobrindo assim anomalias nos dados que podem ser informações valiosas. Um exemplo seria uma aplicação para detecção de fraudes em transações financeiras.

Pode se utilizar um algoritmo não supervisionado de agrupamento.

Este cria grupos de transações onde as menos semelhantes poderiam se destacar e serem consideradas transações suspeitas.

Coloque o seu e-mail abaixo para receber gratuitamente as atualizações do blog!

Mineração de dados e suas aplicações

Mineração de dados
Mineração de Dados

Existem diversas situações onde podemos aplicar a Mineração de dados para resolver problemas importantes. Abaixo listo alguns cenários onde essa tarefa pode ser útil.

Gestão e Vendas

Predizer a quantidade de vendas de um produto ou serviço baseado em seus dados históricos. Essa tarefa pode ser muito importante para descobrir se existe alguma sazonalidade no número de vendas por algum fator na qual não está sendo percebido pela empresa.

Nesse caso, a mineração de dados pode ser útil para descobrir fatores escondidos que podem estar inferindo no aumento ou na diminuição das vendas em um determinado período.

Tecnologia

Sistema capaz de predizer a quantidade de carga de trabalho ou a probabilidade de paradas de um servidor baseado em dados históricos de consumo de recursos.

Com atributos como: a quantidade de usuários simultâneos, consumo de recursos, e histórico de falhas é possível usar a mineração de dados para predizer qual será o comportamento do servidor em um determinado momento.

Recomendação de serviços ou produtos a clientes baseado em suas escolhas anteriores. Por exemplo, uma seção como: “90% das pessoas que viram este produto, também clicaram aqui”.

Ou como no caso do Netflix que recomenda filmes e séries baseadas no histórico de acesso dos seus usuários.

Outro exemplo seria é a Amazon que recomenda livros de acordo com o histórico de compras e visitas dos usuários.

Administração e Marketing

Uma boa exploração dos dados pode ser interessante para descoberta de possíveis bons clientes para listas segmentadas.

Por exemplo, clientes que não possuem nenhum débito e que possuem um histórico de compras semelhantes a outros clientes.

Com técnicas de mineração de dados é possível agrupar dados com características semelhantes.

Com essas informações uma empresa poderia criar listas segmentadas de clientes, como:

Clientes Ouro, Clientes Prata, Clientes Bronze sem que para isso tenha que filtrar por idade, renda, sexo ou qualquer outro atributo.

Na área de aprovação de crédito, técnicas de mineração de dados são muito usadas para tentar predizer o risco de inadimplência de um cliente.

Para isso, são utilizados dados pessoais do cliente como por exemplo: sexo, idade, estado civil, tempo no trabalho, profissão dentre outros para treinar um modelo que leva em consideração dados históricos de pagamentos de outros clientes.

Educação

Cada vez mais instituições públicas e privadas buscam novas técnicas para melhorar o ensino.

Com técnicas de mineração de dados é possível melhorar o aprendizado através de dados de aulas e notas de alunos

Exemplo: Um aluno obtém boas notas em disciplinas nas quais  assiste aulas pela manhã, mesmo estas sendo lecionadas por professores iniciantes

Com essa informação o sistema poderia aprender o perfil desse aluno e sugerir que estude mais conteúdos pela manhã.

Um outro exemplo seria, alunos que não vão bem em uma determinada disciplina, normalmente tiveram rendimentos ruins em uma disciplina específica do ano anterior.

Essas informações são úteis para a melhora do aprendizado, uma vez que a escola pode aprender com seus dados.

Saúde

Atualmente é bem comum nos hospitais, médicos fazerem a prescrição de uma medicação utilizando um sistema corporativo.

Além disso, quando um paciente é internado, enfermeiros lançam informações de dados vitais periodicamente no sistema.

Assim, o sistema mantém as evoluções do quadro dos pacientes. Técnicas de mineração de dados já estão sendo utilizadas para tentar predizer diagnósticos de doenças em pacientes.

Conclusão

Mineração de dados e Big Data é um dos assuntos mais falados atualmente. Cada vez mais, profissionais e pesquisadores buscam aprimorar seus conhecimentos no assunto a fim de dominarem essa área.

Se você gostou desse artigo ou tem alguma dúvida, deixe seu comentário abaixo, nós ficaremos felizes em te ajudar e não esqueça de compartilhar com os amigos e assinar nossa newsletter para receber avisos de novos artigos.

Se junte a nossa comunidade e receba atualizações de artigos, tutoriais e muito mais!

Insira o seu endereço de email abaixo para receber grátis as atualizações do blog!

  • Marcos

    Muito bom esse artigo, Gostei muito da seção de aplicações, valeu Felipe!