Descripción del Proyecto Este proyecto realiza un análisis exploratorio de datos (EDA) completo sobre los 100 mejores jugadores de la NBA de todos los tiempos. A través de técnicas de ciencia de datos, visualización avanzada y machine learning, exploramos las estadísticas, tendencias y patrones que definen a las leyendas del baloncesto. 🎯 Objetivos
Identificar correlaciones entre estadísticas clave (PPG, RPG, APG, Championships) Analizar la evolución del juego a través de las décadas Segmentar jugadores mediante clustering (K-Means) Crear visualizaciones interactivas y dashboards profesionales Determinar qué métricas definen a un jugador "Elite"
📊 Dataset Descripción El dataset contiene información de los 100 mejores jugadores de la NBA, incluyendo:
Información General: Nombre, posición, equipo, conferencia Estadísticas de Carrera: PPG, RPG, APG, total de puntos/rebotes/asistencias Logros: Campeonatos, MVPs, selecciones All-Star Período Activo: Años de inicio y fin de carrera Calificación: Player Rating (0-100) basado en rendimiento integral
Variables del Dataset VariableTipoDescripciónPlayer_IDintIdentificador único del jugadorPlayer_NamestringNombre completo del jugadorPositionstringPosición (PG, SG, SF, PF, C)TeamstringEquipo principal de la carreraConferencestringConferencia (Eastern, Western)Years_Active_StartintAño de debut en la NBAYears_Active_EndintAño de retiro (2024 si está activo)Total_PointsintTotal de puntos en la carreraPPGfloatPuntos por juegoTotal_ReboundsintTotal de rebotes en la carreraRPGfloatRebotes por juegoTotal_AssistsintTotal de asistencias en la carreraAPGfloatAsistencias por juegoChampionshipsintNúmero de campeonatos ganadosMVPsintNúmero de premios MVPAll_Star_SelectionsintSelecciones al All-Star GamePlayer_RatingfloatCalificación global (0-100)Performance_CategorystringElite / Outstanding / Very Good / GoodCareer_StatusstringActive / Retired Estadísticas del Dataset
Total de jugadores: 100 Variables: 19 Período cubierto: 1950 - 2024 Jugadores activos: 20 Valores nulos: 0 (dataset limpio)
🔍 Análisis Realizados
- Análisis Exploratorio (EDA)
✅ Inspección estructural del dataset ✅ Estadísticas descriptivas por variable ✅ Distribuciones de frecuencias ✅ Detección de valores atípicos (outliers) ✅ Verificación de calidad de datos
- Análisis Univariado
📊 Histogramas de todas las variables numéricas 📊 Distribución por posición, conferencia, estado de carrera 📊 Análisis de categorías de rendimiento
- Análisis Bivariado
🔗 Matriz de correlaciones (Pearson) 🔗 Scatter plots (PPG vs Rating, Championships vs Rating) 🔗 Box plots por posición y conferencia 🔗 Análisis de relaciones entre variables
- Análisis Temporal
📅 Evolución del juego por décadas (1950s - 2020s) 📅 Tendencias en PPG, RPG, APG a través del tiempo 📅 Análisis de eras doradas del baloncesto
- Análisis Estadístico Inferencial
📈 Test de normalidad (Shapiro-Wilk) 📈 T-Tests para comparación entre conferencias 📈 ANOVA para comparación entre posiciones 📈 Interpretación de p-values
- Machine Learning
🤖 Clustering con K-Means (4 clusters):
Leyendas Completas (high all-around) Especialistas Ofensivos (high PPG) Jugadores Versátiles (balanced stats) Campeones Defensivos (high championships)
🤖 Visualización de clusters en 3D
- Identificación de Top Performers
🏆 Top 10 por Player Rating 🏆 Top 10 anotadores (PPG) 🏆 Top 10 reboteadores (RPG) 🏆 Top 10 asistidores (APG) 🏆 Jugadores con más campeonatos
📈 Hallazgos Clave 🔥 Insights Principales
Michael Jordan lidera con el Player Rating más alto (98.5/100) LeBron James es el máximo anotador histórico (40,474 puntos) Fuerte correlación entre Championships y Player Rating (r=0.62) Los Centers dominan en rebotes (promedio 11.2 RPG) Los Point Guards lideran en asistencias (promedio 8.1 APG) La era 1980s-1990s tiene los ratings más altos Solo 14 jugadores califican como "Elite"
📊 Estadísticas Destacadas MétricaValorPromedio de Rating82.4 / 100Promedio de PPG20.1Promedio de Championships2.8Jugador más completoMichael JordanMayor longevidadKareem Abdul-Jabbar (20 años)
🛠️ Tecnologías Utilizadas Lenguajes y Librerías
Python 3.8+
pandas - Manipulación de datos numpy - Operaciones numéricas matplotlib - Visualización estática seaborn - Visualización estadística plotly - Visualización interactiva scikit-learn - Machine Learning (K-Means, StandardScaler) scipy - Análisis estadístico
Herramientas
Jupyter Notebook - Desarrollo y análisis Google Colab - Ejecución en la nube Power BI - Dashboard interactivo Git & GitHub - Control de versiones
🚀 Cómo Usar Este Proyecto Requisitos Previos bashPython 3.8 o superior pip (gestor de paquetes) Jupyter Notebook (opcional) Power BI Desktop (para visualizar el dashboard) Instalación
Clonar el repositorio:
bashgit clone https://github.com/TU_USUARIO/NBA-Top100-Analysis.git cd NBA-Top100-Analysis
Crear entorno virtual (recomendado):
bashpython -m venv venv source venv/bin/activate # En Windows: venv\Scripts\activate
Instalar dependencias:
bashpip install pandas numpy matplotlib seaborn plotly scikit-learn scipy jupyter Ejecución Opción 1: Jupyter Notebook (Local) bashjupyter notebook notebooks/NBA_Analysis.ipynb