Régression avec R
La 4e de couverture indique : "Performant, évolutif, libre, gratuit et multiplateformes, le logiciel R s'est impose depuis une dizaine d'années comme un outil de calcul statistique incontournable, tant dans les milieux académiques qu'industriels. La collection "Pratique R&qu...
Auteurs principaux : | , , , |
---|---|
Format : | Livre |
Langue : | français |
Titre complet : | Régression avec R / Pierre-André Cornillon, Nicolas Hengartner, Eric Matzner-Løber... [et al.] |
Édition : | 2e édition |
Publié : |
Les Ulis :
EDP sciences
, DL 2019 |
Description matérielle : | 1 vol. (xvi-384 p.) |
Collection : | Collection Pratique R |
Sujets : |
- P. VII
- Remerciements
- P. IX
- Avant-Propos
- P. 1
- I Introduction au modèle linéaire
- P. 3
- 1 La régression linéaire simple
- P. 3
- 1.1 Introduction
- P. 3
- 1.1.1 Un exemple : la pollution de l'air
- P. 5
- 1.1.2 Un second exemple : la hauteur des arbres
- P. 7
- 1.2 Modélisation mathématique
- P. 7
- 1.2.1 Choix du critère de qualité et distance à la droite
- P. 9
- 1.2.2 Choix des fonctions à utiliser
- P. 10
- 1.3 Modélisation statistique
- P. 11
- 1.4 Estimateurs des moindres carrés
- P. 11
- 1.4.1 Calcul des estimateurs de bêtaj, quelques propriétés
- P. 15
- 1.4.2 Résidus et variance résiduelle
- P. 15
- 1.4.3 Prévision
- P. 16
- 1.5 Interprétations géométriques
- P. 16
- 1.5.1 Représentation des individus
- P. 17
- 1.5.2 Représentation des variables
- P. 19
- 1.6 Inférence statistique
- P. 22
- 1.7 Exemples
- P. 29
- 1.8 Exercices
- P. 31
- 2 La régression linéaire multiple
- P. 31
- 2.1 Introduction
- P. 32
- 2.2 Modélisation
- P. 34
- 2.3 Estimateurs des moindres carrés
- P. 35
- 2.3.1 Calcul de (...)
- P. 37
- 2.3.2 Interprétation
- P. 38
- 2.3.3 Quelques propriétés statistiques
- P. 40
- 2.3.4 Résidus et variance résiduelle
- P. 41
- 2.3.5 Prévision
- P. 42
- 2.4 Interprétation géométrique
- P. 43
- 2.5 Exemples
- P. 47
- 2.6 Exercices
- P. 51
- 3 Validation du modèle
- P. 52
- 3.1 Analyse des résidus
- P. 52
- 3.1.1 Les différents résidus
- P. 53
- 3.1.2 Ajustement individuel au modèle, valeur aberrante
- P. 54
- 3.1.3 Analyse de la normalité
- P. 55
- 3.1.4 Analyse de l'homoscédasticité
- P. 56
- 3.1.5 Analyse de la structure des résidus
- P. 59
- 3.2 Analyse de la matrice de projection
- P. 60
- 3.3 Autres mesures diagnostiques
- P. 63
- 3.4 Effets d'une variable explicative
- P. 63
- 3.4.1 Ajustement au modèle
- P. 64
- 3.4.2 Régression partielle : impact d'une variable
- P. 65
- 3.4.3 Résidus partiels et résidus partiels augmentés
- P. 67
- 3.5 Exemple : la concentration en ozone
- P. 70
- 3.6 Exercices
- P. 73
- 4 Extensions : non-inversibilité et (ou) erreurs corrélées
- P. 73
- 4.1 Régression ridge
- P. 74
- 4.1.1 Une solution historique
- P. 75
- 4.1.2 Minimisation des MCO pénalisés
- P. 75
- 4.1.3 Equivalence avec une contrainte sur la norme des coefficients
- P. 76
- 4.1.4 Propriétés statistiques de l'estimateur ridge (...)ridge
- P. 78
- 4.2 Erreurs corrélées : moindres carrés généralisés
- P. 79
- 4.2.1 Erreurs hétéroscédastiques
- P. 82
- 4.2.2 Estimateur des moindres carrés généralisés
- P. 84
- 4.2.3 Matrice oméga inconnue
- P. 85
- 4.3 Exercices
- P. 89
- II Inférence
- P. 91
- 5 Inférence dans le modèle gaussien
- P. 91
- 5.1 Estimateurs du maximum de vraisemblance
- P. 92
- 5.2 Nouvelles propriétés statistiques
- P. 94
- 5.3 Intervalles et régions de confiance
- P. 97
- 5.4 Prévision
- P. 98
- 5.5 Les tests d'hypothèses
- P. 98
- 5.5.1 Introduction
- P. 98
- 5.5.2 Test entre modèles emboîtés
- P. 102
- 5.6 Applications
- P. 106
- 5.7 Exercices
- P. 109
- 5.8 Notes
- P. 109
- 5.8.1 Intervalle de confiance : bootstrap
- P. 112
- 5.8.2 Test de Fisher pour une hypothèse linéaire quelconque
- P. 114
- 5.8.3 Propriétés asymptotiques
- P. 117
- 6 Variables qualitatives : Ancova et Anova
- P. 117
- 6.1 Introduction
- P. 119
- 6.2 Analyse de la covariance
- P. 119
- 6.2.1 Introduction : exemple des eucalyptus
- P. 121
- 6.2.2. Modélisation du problème
- P. 123
- 6.2.3 Hypothèse gaussienne
- P. 124
- 6.2.4 Exemple : la concentration en ozone
- P. 129
- 6.2.5 Exemple : la hauteur des eucalyptus
- P. 131
- 6.3 Analyse de la variance à 1 facteur
- P. 131
- 6.3.1 Introduction
- P. 132
- 6.3.2 Modélisation du problème
- P. 134
- 6.3.3 Interprétation des contraintes
- P. 134
- 6.3.4 Estimation des paramètres
- P. 135
- 6.3.5 Hypothèse gaussienne et test d'influence du facteur
- P. 137
- 6.3.6 Exemple : la concentration en ozone
- P. 142
- 6.3.7 Une décomposition directe de la variance
- P. 143
- 6.4 Analyse de la variance à 2 facteurs
- P. 143
- 6.4.1 Introduction
- P. 144
- 6.4.2 Modélisation du problème
- P. 146
- 6.4.3 Estimation des paramètres
- P. 147
- 6.4.4 Analyse graphique de l'interaction
- P. 148
- 6.4.5 Hypothèse gaussienne et test de l'interaction
- P. 150
- 6.4.6 Exemple : la concentration en ozone
- P. 152
- 6.5 Exercices
- P. 155
- 6.6 Note : identifiabilité et contrastes
- P. 157
- III Réduction de dimension
- P. 159
- 7 Choix de variables
- P. 159
- 7.1 Introduction
- P. 161
- 7.2 Choix incorrect de variables : conséquences
- P. 161
- 7.2.1 Biais des estimateurs
- P. 163
- 7.2.2 Variance des estimateurs
- P. 163
- 7.2.3 Erreur quadratique moyenne
- P. 166
- 7.2.4 Erreur quadratique moyenne de prévision
- P. 168
- 7.3 Critères classiques de choix de modèles
- P. 169
- 7.3.1 Tests entre modèles emboîtés
- P. 170
- 7.3.2 Le R2
- P. 171
- 7.3.3 Le R2 ajusté
- P. 172
- 7.3.4 Le Cp de Mallows
- P. 174
- 7.3.5 Vraisemblance et pénalisation
- P. 176
- 7.3.6 Liens entre les critères
- P. 178
- 7.4 Procédure de sélection
- P. 178
- 7.4.1 Recherche exhaustive
- P. 178
- 7.4.2 Recherche pas à pas
- P. 180
- 7.5 Exemple : la concentration en ozone
- P. 183
- 7.6 Exercices
- P. 185
- 7.7 Note : Cp et biais de sélection
- P. 189
- 8 Ridge, Lasso et elastic-net
- P. 189
- 8.1 Introduction
- P. 192
- 8.2 Problème du centrage-réduction des variables
- P. 193
- 8.3 Ridge et lasso
- P. 197
- 8.3.1 Régressions elastic net avec glmnet
- P. 200
- 8.3.2 Interprétation géométrique
- P. 201
- 8.3.3 Simplification quand les X sont orthogonaux
- P. 204
- 8.3.4 Choix du paramètre de régularisation lambda
- P. 206
- 8.4 Intégration de variables qualitatives
- P. 208
- 8.5 Exercices
- P. 211
- 8.6 Note : lars et lasso
- P. 215
- 9 Régression sur composantes : PCR et PLS
- P. 216
- 9.1 Régression sur composantes principales (PCR)
- P. 216
- 9.1.1 Changement de base
- P. 217
- 9.1.2 Estimateurs des MCO
- P. 218
- 9.1.3 Choix de composantes/variables
- P. 220
- 9.1.4 Retour aux données d'origine
- P. 221
- 9.2 Régression aux moindres carrés partiels (PLS)
- P. 222
- 9.2.1 Algorithmes PLS
- P. 223
- 9.2.2 Choix de composantes/variables
- P. 224
- 9.2.3 Retour aux données d'origine
- P. 225
- 9.3 Exemple de l'ozone
- P. 229
- 9.4 Exercices
- P. 231
- 9.5 Notes
- P. 231
- 9.5.1 ACP et changement de base
- P. 232
- 9.5.2 Colinéarité parfaite : |X' X = 0|
- P. 235
- 10 Comparaison des différentes méthodes, étude de cas réels
- P. 235
- 10.1 Erreur de prévision et validation croisée
- P. 239
- 10.2 Analyse de l'ozone
- P. 239
- 10.2.1 Préliminaires
- P. 239
- 10.2.2 Méthodes et comparaison
- P. 243
- 10.2.3 Pour aller plus loin
- P. 246
- 10.2.4 Conclusion
- P. 247
- IV Le modèle linéaire généralisé
- P. 249
- 11 Régression logistique
- P. 249
- 11.1 Présentation du modèle
- P. 249
- 11.1.1 Exemple introductif
- P. 250
- 11.1.2 Modélisation statistique
- P. 253
- 11.1.3 Variables explicatives qualitatives, interactions
- P. 255
- 11.2 Estimation
- P. 255
- 11.2.1 La vraisemblance
- P. 257
- 11.2.2 Calcul des estimateurs : l'algorithme IRLS
- P. 258
- 11.2.3 Propriétés asymptotiques de l'EMV
- P. 259
- 11.3 Intervalles de confiance et tests
- P. 260
- 11.3.1 IC et tests sur les paramètres du modèle
- P. 262
- 11.3.2 Test sur un sous-ensemble de paramètres
- P. 265
- 11.3.3 Prévision
- P. 267
- 11.4 Adéquation du modèle
- P. 268
- 11.4.1 Le modèle saturé
- P. 270
- 11.4.2 Tests d'adéquation de la déviance et de Pearson
- P. 272
- 11.4.3 Analyse des résidus
- P. 275
- 11.5 Choix de variables
- P. 276
- 11.5.1 Tests entre modèles emboîtés
- P. 277
- 11.5.2 Procédures automatiques
- P. 279
- 11.6 Prévision - scoring
- P. 279
- 11.6.1 Règles de prévision
- P. 282
- 11.6.2 Scoring
- P. 288
- 11.7 Exercices
- P. 295
- 12 Régression de Poisson
- P. 295
- 12.1 Le modèle linéaire généralisé (GLM)
- P. 298
- 12.2 Exemple : modélisation du nombre de visites
- P. 301
- 12.3 Régression Log-linéaire
- P. 301
- 12.3.1 Le modèle
- P. 302
- 12.3.2 Estimation
- P. 303
- 12.3.3 Tests et intervalles de confiance
- P. 308
- 12.3.4 Choix de variables
- P. 309
- 12.4 Exercices
- P. 315
- 13 Régularisation de la vraisemblance
- P. 315
- 13.1 Régressions ridge et lasso
- P. 318
- 13.2 Choix du paramètre de régularisation lambda
- P. 322
- 13.3 Group-lasso et elastic net
- P. 322
- 13.3.1 Group-lasso
- P. 324
- 13.3.2 Elastic net
- P. 325
- 13.4 Application : détection d'images publicitaires sur internet
- P. 325
- 13.4.1 Ajustement des modèles
- P. 327
- 13.4