Introduction aux outils de machine-learning
- Les différents modèles de références, apprentissage, inférence
- Introspection légère des modèles
- Les approches ensemblistes
- Métriques d'évaluation
- taux de bonne classification, précision, rappel, f1... Mais aussi ROC
- Validation croisée
- Différents usage
- Sélection de modèles
- procédure à la main
- grid-search
- Sélection de caratctéristiques
- Pré-traitement des données
- données catrégorielles
- données manquante
- Construction d'une chaine
- nature des données d'entrée (en apprentissage puis en inférence)
- Optimisation de l'ensemble de la chaine
- retour sur le Grid-search
- Optuna
- Rappels sur l'ACP
- Projections linéaires
- Projections non linéaires
- Interface interactive
Le module de programmation sera évalué sous la forme de projet:
-
A réaliser en monome ou en binome
-
Rendre le 31 mars 2025
-
Basé sur au moins 2 jeux de données permettant de mettre en avant:
- Différentes tâches supervisées: classification, régression (Idéalement 1 problème de chaque, mais ce n'est pas obligé. Si vos données sont très différentes, vous pouvez traiter deux problèmes de classification ou de régression)
- Optimisation des performances (sélection de modèles, de caractéristiques, optimisation des pré-traitement)
- Présentation des performances de référence par rapport aux performances optimisées
- Courbe de performances par rapport aux réglages: montrer que vous savez choisir les bonnes approches et les régler
- Illustrer + analyser vos résultats comme pour les expliquer à un expert métier Phrases explicatives, choix des métriques, illustration d'ensemble etc...
- Les sources de données sont:
- Kaggle
- UCI
- UCR (pour les séries temporelles simples)
- Data gouv
- toute autre sources ou API est également valable
- 🟥 Valider l'intérêt des données et de la tâche avec moi avant de vous lancer 🟥
-
Présentation et consigens détaillées pour les notebooks à rendre
- 1 notebook par jeu de données
- Si vous avez des fonctions partagées entre notebooks, merci d'utiliser des modules
- Il est tout à fait possible (et souhaitable) de bien présenter les résultats dans le notebook (diagramme bar, tableaux, etc...)
- Ces résultats doivent être accompagnés d'analyses (succinctes mais pertinentes). Ces analyses seront présentées dans des boites distinctives pour que je ne puisse pas manquer vos commentaires:
<span style="color:magenta"> Nous nous attendions à ce que le modèle 1 soit meilleur que le 2 car... </span>- Voua ajouterez une boite à la fin du notebook présentant une courte prise de recul par rapport aux expériencesen abordant par exemple:
- les principales difficultés rencontrées
- l'apport du machine learning (aurait-on pu faire les mêmes analyses à la main?)
- des idées d'applications connexes à valeur économique, sociale ou solidaire qui seraient envisageables avec les mêmes techniques
- ...