Repositório utilizado para armazenar o trabalho realizado durante o processo seletivo para a vaga de Cientista de Dados Júnior.
Prazo de entrega: 09/08/2021 (segunda-feira)
Early stage diabetes risk prediction dataset
O case consiste na análise de um conjunto de dados usando preferencialmente a linguagem de programação Python ou R e quaisquer bibliotecas que julgue necessárias.
- Capacidade de entender e solucionar problemas;
- Conhecimentos em Machine Learning;
- Visualização de dados;
- Conhecimentos em estatística;
- Linguagem de programação;
- Apresentação dos resultados.
- Faça a análise exploratória dos dados, apresente em forma de gráficos e estatísticas dos dados.
- Quais os 3 principais fatores que levam a um diagnóstico positivo de diabetes?
- Qual a chance de uma pessoa do sexo masculino com menos de 40 anos ter o diagnóstico positivo de diabetes?
- Qual a relação entre Polyphagia e o diagnóstico de diabetes?
- Crie um modelo preditivo para a previsão de diabetes que desconsidere as 5 variáveis menos importantes para o diagnóstico.
- Fale sobre as dificuldades que o modelo construído poderia ter para alcançar o sucesso esperado pelo treino em um novo dataset.
- Uma apresentação focada no cliente, que traga os insights de forma didática para pessoas não técnicas;
- Conjunto de arquivos de códigos e documentações (no formato que julgar conveniente compartilhar) focadas em pessoas técnicas que poderiam dar continuidade ao trabalho de desenvolvimento e/ou produtização de forma independente.