Skip to content

DamZav/diabetes-prediction-python

Repository files navigation

Diabetes DB Analysis - Proyecto de Certificación Data Analyst (BEDU)

Este proyecto de certificación se centró en el análisis de una base de datos de diabetes para identificar patrones, correlaciones y construir un modelo predictivo.

Objetivos y Logros:

  • Limpieza y Preparación de Datos: Se garantizó la integridad y consistencia de los datos para un análisis preciso.
  • Optimización del Flujo de Trabajo: Se empleó Python y librerías como Pandas, NumPy, Matplotlib, Seaborn y SciPy para agilizar el análisis y la visualización de datos.
  • Análisis Exploratorio de Datos (EDA): Se identificaron patrones y correlaciones significativas a través de técnicas exploratorias.
  • Modelado Predictivo: Se implementaron algoritmos de Machine Learning (regresión logística y árboles de decisión) para predecir la probabilidad de diabetes basada en características demográficas y de salud.
  • Visualización de Datos: Se crearon visualizaciones efectivas (histogramas, gráficos de barras) para comunicar los resultados y la distribución de tipos de diabetes por rangos de edad.

Habilidades Desarrolladas y Aplicadas:

  • Análisis de Datos Avanzado: Desarrollo de habilidades en la transformación y modelado de datos para generar soluciones prácticas.
  • Programación: Manejo avanzado de Python para el análisis de datos.
  • Bases de Datos: Gestión de bases de datos relacionales (SQL) y no relacionales (MongoDB).
  • Estadística Descriptiva: Aplicación de estimados de locación y variabilidad.
  • Visualización de Datos: Creación de histogramas, boxplots y scatterplots con Matplotlib y Seaborn.
  • Análisis Multivariable: Utilización de matrices de correlación y modelos de regresión.
  • Machine Learning: Introducción a clasificación supervisada y no supervisada, entrenamiento y evaluación de modelos.
  • Procesamiento de Lenguaje Natural (NLP): Exploración básica con NLTK.
  • Diseño de Pruebas A/B: Evaluación de hipótesis mediante pruebas A/B.

Tecnologías Utilizadas:

  • Python
  • Pandas
  • NumPy
  • Matplotlib
  • Seaborn
  • SciPy
  • SQL
  • MongoDB
  • Scikit-learn
  • NLTK

Este proyecto demuestra mi capacidad para llevar a cabo un análisis de datos completo, desde la preparación hasta la modelización y la comunicación de resultados, utilizando herramientas y técnicas relevantes en el campo del Data Analysis.

About

Diabetes Analysis Project with Pandas. This project focuses on analyzing a diabetes dataset to predict the likelihood of diabetes based on demographic and health characteristics. Using Python and various data analysis and machine learning techniques, we aimed to provide insights into early detection and effective management of diabetes.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors