Vous tentez d’étudier un processus sans a priori spécifique et avez mesuré un grand nombre de variables que vous pensez potentiellement impliquées. Comment trier et conserver l’information pertinente ?
Dans ce contexte, nous proposons deux formations indépendantes, se déroulant en deux sessions de trois heures, au cours desquelles nous aborderons différentes méthodes permettant d’éclairer cette question, aussi bien sur les aspects théoriques que pratiques, avec R.
Au cours de cette session, vous découvrirez et expérimenterez trois approches issues du Machine Learning, efficaces pour sélectionner les variables pertinentes dans le cadre d’analyses exploratoires : les méthodes de Régression Régularisée (LASSO, Ridge, ElasticNet), les Arbres de Décision et la Forêt Aléatoire.
Objectifs de la formation :
• Estimer et évaluer des modèles linéaires régularisés, d’arbres et de forêt aléatoire.
• Identifier les variables pertinentes à partir des résultats de ces modèles.
Prérequis :
• Quelques notions en statistique (tests de base, modèle de régression linéaire, ANOVA)
• Les notions basiques du langage R.
• Ordinateur personnel équipé de R (version ≥ 4.0.x), des packages nécessaires (indiqués après inscription), et d’un IDE tel que RStudio.
Ne manquez pas cette occasion !
Possibilité de venir à partir de 13h15 pour une assistance à l’installation des outils.
Il existe une autre session de formation abordant des méthodes statistiques plus traditionnelles : Comparaison de modèles et réduction de dimensions. N’hésitez pas à vous inscrire.
Il y a 5 questions dans ce questionnaire.