Este projeto tem como objetivo realizar uma predição de ocorrência de doenças cardiovasculares, utilizando o princípio de dummy-encoding para detectar a presença ou ausência dessas enfermidades, com esses dados em um modelo de aprendizagem de maquina, que foi treinado com o objetivo de prever essas doenças de acordo com os atributos-chave. O DataSet utilizado contém informações de quatro bases de dados, fazendo um levantamento de pacientes da Hungria e Suíça, e de duas cidades americanas, Cleveland e Long Beach, contando com os 13 atributos. Foi realizado o levantamento da idade, sexo, tipos de dores no peito (4 valores), colesterol por miligrama em um decilítro de sange, níveis de açucar no sangue durante o jejum, resultados do eletrocardiograma em repouso (0,1,2), registro do batimento cardíaco máximo, angina induzido por exercício físico, depressão do segmento ST do eletrocardiograma, inclinação do segmento ST no seu ponto de exercício máximo, o número de vasos principais (0-3) coloroido por fluoroscopia e a Thalassemia - Thal, 0 = Normal, 1 = Defeito fixo e 2 = Defeito reversível.
Este projeto tem como objetivo identificar os principais fatores de risco relacionados às doenças cardíacas, utilizando técnicas de análise exploratória e preditiva para detectar indivíduos em risco de forma precoce. Busca-se fornecer insights que possam apoiar médicos e gestores de saúde no desenvolvimento de intervenções mais eficazes, promovendo diagnósticos rápidos, tratamentos personalizados e redução dos custos associados a estágios avançados da doença.
A metodologia que será adotada para a análise e predição de doenças cardíacas segue o ciclo CRISP-DM (Cross Industry Standard Process for Data Mining), um processo estruturado amplamente utilizado em projetos de mineração de dados e análise preditiva. O CRISP-DM é composto por:
- Entendimento de negócio
- Entendimento de dados
- Preparação dos dados
- Modelagem
O projeto também é dividido em duas entregas, a saber:
- Análise Exploratória de Dados (EDA): entendimento das variáveis que influenciam o MPG e identificação de padrões nos dados através de hipóteses, visualizações e insights.
- Análise comparativa de modelos: construção de modelos de aprendizado de máquina para rpevisão de consumo, com métricas de desempenho para avaliação da performance.
Esperamos descrever algumas das principais variáveis ligadas ao risco de doenças cardíacas e desenvolver um modelo preditivo capaz de estimar a probabilidade de um paciente desenvolver essas condições com base nos dados fornecidos. O projeto incluirá a geração de gráficos, proporcionando uma visão mais clara das relações entre diferentes fatores e a saúde cardiovascular.