Como funciona a mineração de dados?
- wilsoncharlessilva
- 26 de ago. de 2023
- 3 min de leitura
O Cross-Industry Standard Process for Data Mining (CRISP-DM) é uma excelente diretriz para iniciar o processo de mineração de dados. O CRISP-DM é uma metodologia e um modelo de processo que é neutro em termos de indústria, ferramenta e aplicação.
Como metodologia, descreve as fases típicas de um projeto de mineração de dados, descreve as tarefas envolvidas em cada etapa e explica as relações entre essas tarefas;
Como modelo de processo, o CRISP-DM fornece uma visão geral do ciclo de vida da mineração de dados.
Usando as fases flexíveis do CRISP-DM, as equipes de dados podem alternar entre os estágios conforme necessário. Além disso, as tecnologias de software podem realizar algumas dessas tarefas ou apoiá-las.
1. Compreensão do negócio
O cientista de dados ou minerador de dados começa identificando os objetivos e o escopo do projeto. Eles colaboram com as partes interessadas do negócio para identificar determinadas informações.
Problemas que precisam ser resolvidos
Restrições ou limitações do projeto
O impacto nos negócios de soluções potenciais
Eles então usam essas informações para definir metas de mineração de dados e identificar os recursos necessários para a descoberta de conhecimento.
2. Compreensão de dados
Depois de entender o problema de negócios, os cientistas de dados começam a análise preliminar dos dados. Eles coletam conjuntos de dados de várias fontes, obtêm direitos de acesso e preparam um relatório de descrição de dados. O relatório inclui os tipos de dados, quantidade e requisitos de hardware e software para processamento de dados. Depois que a empresa aprovar seu plano, ela começa a explorar e verificar os dados. Eles manipulam os dados usando técnicas estatísticas básicas, avaliam a qualidade dos dados e escolhem um conjunto de dados final para o próximo estágio.
3. Preparação dos dados
Os mineradores de dados gastam mais tempo nessa fase porque o software de mineração de dados requer dados de alta qualidade. Os processos de negócios coletam e armazenam dados por outros motivos que não a mineração, e os mineradores de dados devem refiná-los antes de usá-los para modelagem. A preparação de dados envolve os processos a seguir.
Limpar os dados
Por exemplo, manipule dados ausentes, erros de dados, valores padrão e correções de dados.
Integre os dados
Por exemplo, combine dois conjuntos de dados diferentes para obter o conjunto de dados de destino final.
Formatar os dados
Por exemplo, converta tipos de dados ou configure dados para a tecnologia de mineração específica que está sendo usada.
4. Modelagem de dados
Os mineradores de dados inserem os dados preparados no software de mineração de dados e estudam os resultados. Para fazer isso, eles podem escolher entre várias técnicas e ferramentas de mineração de dados. Eles também devem escrever testes para avaliar a qualidade dos resultados da mineração de dados. Para modelar os dados, os cientistas de dados podem:
Treinar os modelos de machine learning (ML) em conjuntos de dados menores com resultados conhecidos
Usar o modelo para analisar ainda mais conjuntos de dados desconhecidos
Ajustar e reconfigurar o software de mineração de dados até que os resultados sejam satisfatórios
5. Avaliação
Depois de criar os modelos, os mineradores de dados começam a medi-los em relação aos objetivos de negócios originais. Eles compartilham os resultados com analistas de negócios e coletam feedback. O modelo pode responder bem à pergunta original ou mostrar padrões novos e anteriormente desconhecidos. Os mineradores de dados podem alterar o modelo, ajustar a meta de negócios ou revisitar os dados, dependendo do feedback da empresa. Avaliação contínua, feedback e modificação fazem parte do processo de descoberta do conhecimento.
6. Implantação
Durante a implantação, outras partes interessadas usam o modelo de trabalho para gerar inteligência de negócios. O cientista de dados planeja o processo de implantação, que inclui ensinar outras pessoas sobre as funções do modelo, monitorar continuamente e manter a aplicação de mineração de dados. Os analistas de negócios usam a aplicação para criar relatórios para gerenciamento, compartilhar resultados com clientes e melhorar os processos de negócios.
Comentarios