Régression avec R

La 4e de couverture indique : "Performant, évolutif, libre, gratuit et multiplateformes, le logiciel R s'est impose depuis une dizaine d'années comme un outil de calcul statistique incontournable, tant dans les milieux académiques qu'industriels. La collection "Pratique R&qu...

Description complète

Détails bibliographiques
Auteurs principaux : Cornillon Pierre-André (Auteur), Hengartner Nicolas (Auteur), Matzner-Løber Éric (Auteur), Rouvière Laurent (Auteur)
Format : Livre
Langue : français
Titre complet : Régression avec R / Pierre-André Cornillon, Nicolas Hengartner, Eric Matzner-Løber... [et al.]
Édition : 2e édition
Publié : Les Ulis : EDP sciences , DL 2019
Description matérielle : 1 vol. (xvi-384 p.)
Collection : Collection Pratique R
Sujets :
  • P. VII
  • Remerciements
  • P. IX
  • Avant-Propos
  • P. 1
  • I Introduction au modèle linéaire
  • P. 3
  • 1 La régression linéaire simple
  • P. 3
  • 1.1 Introduction
  • P. 3
  • 1.1.1 Un exemple : la pollution de l'air
  • P. 5
  • 1.1.2 Un second exemple : la hauteur des arbres
  • P. 7
  • 1.2 Modélisation mathématique
  • P. 7
  • 1.2.1 Choix du critère de qualité et distance à la droite
  • P. 9
  • 1.2.2 Choix des fonctions à utiliser
  • P. 10
  • 1.3 Modélisation statistique
  • P. 11
  • 1.4 Estimateurs des moindres carrés
  • P. 11
  • 1.4.1 Calcul des estimateurs de bêtaj, quelques propriétés
  • P. 15
  • 1.4.2 Résidus et variance résiduelle
  • P. 15
  • 1.4.3 Prévision
  • P. 16
  • 1.5 Interprétations géométriques
  • P. 16
  • 1.5.1 Représentation des individus
  • P. 17
  • 1.5.2 Représentation des variables
  • P. 19
  • 1.6 Inférence statistique
  • P. 22
  • 1.7 Exemples
  • P. 29
  • 1.8 Exercices
  • P. 31
  • 2 La régression linéaire multiple
  • P. 31
  • 2.1 Introduction
  • P. 32
  • 2.2 Modélisation
  • P. 34
  • 2.3 Estimateurs des moindres carrés
  • P. 35
  • 2.3.1 Calcul de (...)
  • P. 37
  • 2.3.2 Interprétation
  • P. 38
  • 2.3.3 Quelques propriétés statistiques
  • P. 40
  • 2.3.4 Résidus et variance résiduelle
  • P. 41
  • 2.3.5 Prévision
  • P. 42
  • 2.4 Interprétation géométrique
  • P. 43
  • 2.5 Exemples
  • P. 47
  • 2.6 Exercices
  • P. 51
  • 3 Validation du modèle
  • P. 52
  • 3.1 Analyse des résidus
  • P. 52
  • 3.1.1 Les différents résidus
  • P. 53
  • 3.1.2 Ajustement individuel au modèle, valeur aberrante
  • P. 54
  • 3.1.3 Analyse de la normalité
  • P. 55
  • 3.1.4 Analyse de l'homoscédasticité
  • P. 56
  • 3.1.5 Analyse de la structure des résidus
  • P. 59
  • 3.2 Analyse de la matrice de projection
  • P. 60
  • 3.3 Autres mesures diagnostiques
  • P. 63
  • 3.4 Effets d'une variable explicative
  • P. 63
  • 3.4.1 Ajustement au modèle
  • P. 64
  • 3.4.2 Régression partielle : impact d'une variable
  • P. 65
  • 3.4.3 Résidus partiels et résidus partiels augmentés
  • P. 67
  • 3.5 Exemple : la concentration en ozone
  • P. 70
  • 3.6 Exercices
  • P. 73
  • 4 Extensions : non-inversibilité et (ou) erreurs corrélées
  • P. 73
  • 4.1 Régression ridge
  • P. 74
  • 4.1.1 Une solution historique
  • P. 75
  • 4.1.2 Minimisation des MCO pénalisés
  • P. 75
  • 4.1.3 Equivalence avec une contrainte sur la norme des coefficients
  • P. 76
  • 4.1.4 Propriétés statistiques de l'estimateur ridge (...)ridge
  • P. 78
  • 4.2 Erreurs corrélées : moindres carrés généralisés
  • P. 79
  • 4.2.1 Erreurs hétéroscédastiques
  • P. 82
  • 4.2.2 Estimateur des moindres carrés généralisés
  • P. 84
  • 4.2.3 Matrice oméga inconnue
  • P. 85
  • 4.3 Exercices
  • P. 89
  • II Inférence
  • P. 91
  • 5 Inférence dans le modèle gaussien
  • P. 91
  • 5.1 Estimateurs du maximum de vraisemblance
  • P. 92
  • 5.2 Nouvelles propriétés statistiques
  • P. 94
  • 5.3 Intervalles et régions de confiance
  • P. 97
  • 5.4 Prévision
  • P. 98
  • 5.5 Les tests d'hypothèses
  • P. 98
  • 5.5.1 Introduction
  • P. 98
  • 5.5.2 Test entre modèles emboîtés
  • P. 102
  • 5.6 Applications
  • P. 106
  • 5.7 Exercices
  • P. 109
  • 5.8 Notes
  • P. 109
  • 5.8.1 Intervalle de confiance : bootstrap
  • P. 112
  • 5.8.2 Test de Fisher pour une hypothèse linéaire quelconque
  • P. 114
  • 5.8.3 Propriétés asymptotiques
  • P. 117
  • 6 Variables qualitatives : Ancova et Anova
  • P. 117
  • 6.1 Introduction
  • P. 119
  • 6.2 Analyse de la covariance
  • P. 119
  • 6.2.1 Introduction : exemple des eucalyptus
  • P. 121
  • 6.2.2. Modélisation du problème
  • P. 123
  • 6.2.3 Hypothèse gaussienne
  • P. 124
  • 6.2.4 Exemple : la concentration en ozone
  • P. 129
  • 6.2.5 Exemple : la hauteur des eucalyptus
  • P. 131
  • 6.3 Analyse de la variance à 1 facteur
  • P. 131
  • 6.3.1 Introduction
  • P. 132
  • 6.3.2 Modélisation du problème
  • P. 134
  • 6.3.3 Interprétation des contraintes
  • P. 134
  • 6.3.4 Estimation des paramètres
  • P. 135
  • 6.3.5 Hypothèse gaussienne et test d'influence du facteur
  • P. 137
  • 6.3.6 Exemple : la concentration en ozone
  • P. 142
  • 6.3.7 Une décomposition directe de la variance
  • P. 143
  • 6.4 Analyse de la variance à 2 facteurs
  • P. 143
  • 6.4.1 Introduction
  • P. 144
  • 6.4.2 Modélisation du problème
  • P. 146
  • 6.4.3 Estimation des paramètres
  • P. 147
  • 6.4.4 Analyse graphique de l'interaction
  • P. 148
  • 6.4.5 Hypothèse gaussienne et test de l'interaction
  • P. 150
  • 6.4.6 Exemple : la concentration en ozone
  • P. 152
  • 6.5 Exercices
  • P. 155
  • 6.6 Note : identifiabilité et contrastes
  • P. 157
  • III Réduction de dimension
  • P. 159
  • 7 Choix de variables
  • P. 159
  • 7.1 Introduction
  • P. 161
  • 7.2 Choix incorrect de variables : conséquences
  • P. 161
  • 7.2.1 Biais des estimateurs
  • P. 163
  • 7.2.2 Variance des estimateurs
  • P. 163
  • 7.2.3 Erreur quadratique moyenne
  • P. 166
  • 7.2.4 Erreur quadratique moyenne de prévision
  • P. 168
  • 7.3 Critères classiques de choix de modèles
  • P. 169
  • 7.3.1 Tests entre modèles emboîtés
  • P. 170
  • 7.3.2 Le R2
  • P. 171
  • 7.3.3 Le R2 ajusté
  • P. 172
  • 7.3.4 Le Cp de Mallows
  • P. 174
  • 7.3.5 Vraisemblance et pénalisation
  • P. 176
  • 7.3.6 Liens entre les critères
  • P. 178
  • 7.4 Procédure de sélection
  • P. 178
  • 7.4.1 Recherche exhaustive
  • P. 178
  • 7.4.2 Recherche pas à pas
  • P. 180
  • 7.5 Exemple : la concentration en ozone
  • P. 183
  • 7.6 Exercices
  • P. 185
  • 7.7 Note : Cp et biais de sélection
  • P. 189
  • 8 Ridge, Lasso et elastic-net
  • P. 189
  • 8.1 Introduction
  • P. 192
  • 8.2 Problème du centrage-réduction des variables
  • P. 193
  • 8.3 Ridge et lasso
  • P. 197
  • 8.3.1 Régressions elastic net avec glmnet
  • P. 200
  • 8.3.2 Interprétation géométrique
  • P. 201
  • 8.3.3 Simplification quand les X sont orthogonaux
  • P. 204
  • 8.3.4 Choix du paramètre de régularisation lambda
  • P. 206
  • 8.4 Intégration de variables qualitatives
  • P. 208
  • 8.5 Exercices
  • P. 211
  • 8.6 Note : lars et lasso
  • P. 215
  • 9 Régression sur composantes : PCR et PLS
  • P. 216
  • 9.1 Régression sur composantes principales (PCR)
  • P. 216
  • 9.1.1 Changement de base
  • P. 217
  • 9.1.2 Estimateurs des MCO
  • P. 218
  • 9.1.3 Choix de composantes/variables
  • P. 220
  • 9.1.4 Retour aux données d'origine
  • P. 221
  • 9.2 Régression aux moindres carrés partiels (PLS)
  • P. 222
  • 9.2.1 Algorithmes PLS
  • P. 223
  • 9.2.2 Choix de composantes/variables
  • P. 224
  • 9.2.3 Retour aux données d'origine
  • P. 225
  • 9.3 Exemple de l'ozone
  • P. 229
  • 9.4 Exercices
  • P. 231
  • 9.5 Notes
  • P. 231
  • 9.5.1 ACP et changement de base
  • P. 232
  • 9.5.2 Colinéarité parfaite : |X' X = 0|
  • P. 235
  • 10 Comparaison des différentes méthodes, étude de cas réels
  • P. 235
  • 10.1 Erreur de prévision et validation croisée
  • P. 239
  • 10.2 Analyse de l'ozone
  • P. 239
  • 10.2.1 Préliminaires
  • P. 239
  • 10.2.2 Méthodes et comparaison
  • P. 243
  • 10.2.3 Pour aller plus loin
  • P. 246
  • 10.2.4 Conclusion
  • P. 247
  • IV Le modèle linéaire généralisé
  • P. 249
  • 11 Régression logistique
  • P. 249
  • 11.1 Présentation du modèle
  • P. 249
  • 11.1.1 Exemple introductif
  • P. 250
  • 11.1.2 Modélisation statistique
  • P. 253
  • 11.1.3 Variables explicatives qualitatives, interactions
  • P. 255
  • 11.2 Estimation
  • P. 255
  • 11.2.1 La vraisemblance
  • P. 257
  • 11.2.2 Calcul des estimateurs : l'algorithme IRLS
  • P. 258
  • 11.2.3 Propriétés asymptotiques de l'EMV
  • P. 259
  • 11.3 Intervalles de confiance et tests
  • P. 260
  • 11.3.1 IC et tests sur les paramètres du modèle
  • P. 262
  • 11.3.2 Test sur un sous-ensemble de paramètres
  • P. 265
  • 11.3.3 Prévision
  • P. 267
  • 11.4 Adéquation du modèle
  • P. 268
  • 11.4.1 Le modèle saturé
  • P. 270
  • 11.4.2 Tests d'adéquation de la déviance et de Pearson
  • P. 272
  • 11.4.3 Analyse des résidus
  • P. 275
  • 11.5 Choix de variables
  • P. 276
  • 11.5.1 Tests entre modèles emboîtés
  • P. 277
  • 11.5.2 Procédures automatiques
  • P. 279
  • 11.6 Prévision - scoring
  • P. 279
  • 11.6.1 Règles de prévision
  • P. 282
  • 11.6.2 Scoring
  • P. 288
  • 11.7 Exercices
  • P. 295
  • 12 Régression de Poisson
  • P. 295
  • 12.1 Le modèle linéaire généralisé (GLM)
  • P. 298
  • 12.2 Exemple : modélisation du nombre de visites
  • P. 301
  • 12.3 Régression Log-linéaire
  • P. 301
  • 12.3.1 Le modèle
  • P. 302
  • 12.3.2 Estimation
  • P. 303
  • 12.3.3 Tests et intervalles de confiance
  • P. 308
  • 12.3.4 Choix de variables
  • P. 309
  • 12.4 Exercices
  • P. 315
  • 13 Régularisation de la vraisemblance
  • P. 315
  • 13.1 Régressions ridge et lasso
  • P. 318
  • 13.2 Choix du paramètre de régularisation lambda
  • P. 322
  • 13.3 Group-lasso et elastic net
  • P. 322
  • 13.3.1 Group-lasso
  • P. 324
  • 13.3.2 Elastic net
  • P. 325
  • 13.4 Application : détection d'images publicitaires sur internet
  • P. 325
  • 13.4.1 Ajustement des modèles
  • P. 327
  • 13.4