Este proyecto de certificación se centró en el análisis de una base de datos de diabetes para identificar patrones, correlaciones y construir un modelo predictivo.
Objetivos y Logros:
- Limpieza y Preparación de Datos: Se garantizó la integridad y consistencia de los datos para un análisis preciso.
- Optimización del Flujo de Trabajo: Se empleó Python y librerías como Pandas, NumPy, Matplotlib, Seaborn y SciPy para agilizar el análisis y la visualización de datos.
- Análisis Exploratorio de Datos (EDA): Se identificaron patrones y correlaciones significativas a través de técnicas exploratorias.
- Modelado Predictivo: Se implementaron algoritmos de Machine Learning (regresión logística y árboles de decisión) para predecir la probabilidad de diabetes basada en características demográficas y de salud.
- Visualización de Datos: Se crearon visualizaciones efectivas (histogramas, gráficos de barras) para comunicar los resultados y la distribución de tipos de diabetes por rangos de edad.
Habilidades Desarrolladas y Aplicadas:
- Análisis de Datos Avanzado: Desarrollo de habilidades en la transformación y modelado de datos para generar soluciones prácticas.
- Programación: Manejo avanzado de Python para el análisis de datos.
- Bases de Datos: Gestión de bases de datos relacionales (SQL) y no relacionales (MongoDB).
- Estadística Descriptiva: Aplicación de estimados de locación y variabilidad.
- Visualización de Datos: Creación de histogramas, boxplots y scatterplots con Matplotlib y Seaborn.
- Análisis Multivariable: Utilización de matrices de correlación y modelos de regresión.
- Machine Learning: Introducción a clasificación supervisada y no supervisada, entrenamiento y evaluación de modelos.
- Procesamiento de Lenguaje Natural (NLP): Exploración básica con NLTK.
- Diseño de Pruebas A/B: Evaluación de hipótesis mediante pruebas A/B.
Tecnologías Utilizadas:
- Python
- Pandas
- NumPy
- Matplotlib
- Seaborn
- SciPy
- SQL
- MongoDB
- Scikit-learn
- NLTK
Este proyecto demuestra mi capacidad para llevar a cabo un análisis de datos completo, desde la preparación hasta la modelización y la comunicación de resultados, utilizando herramientas y técnicas relevantes en el campo del Data Analysis.