Le machine learning avec Python : la bible des data scientists

La 4e de couv. indique : "Le machine learning (ou apprentissage automatique) est désormais partie intégrante de nombreuses applications commerciales et projets de recherche. Mais ce domaine ne reste pas l'apanage des grandes entreprises dotées d'un département en recherche et développ...

Description complète

Enregistré dans:
Détails bibliographiques
Auteurs principaux : Müller Andreas C. (Auteur), Guido Sarah (Auteur)
Autres auteurs : Rougé Daniel (Traducteur)
Format : Livre
Langue : français
Titre complet : Le machine learning avec Python : la bible des data scientists / Andreas C. Müller et Sarah Guido; [traduction de l'anglais, Daniel Rougé]
Publié : Paris : First interactive , DL 2018
Description matérielle : 1 vol. (XII-376 p.)
Traduction de : Introduction to machine learning with Python
Sujets :
  • P. ix
  • Préface
  • P. ix
  • Qui devrait lire ce livre ?
  • P. x
  • Pourquoi nous avons écrit ce livre
  • P. x
  • Naviguer dans le livre
  • P. xi
  • Conventions utilisées dans ce livre
  • P. xii
  • Utiliser les exemples de code
  • P. 1
  • 1. Introduction
  • P. 2
  • Pourquoi l'apprentissage automatique ?
  • P. 2
  • Les problèmes que l'apprentissage automatique peut résoudre
  • P. 5
  • Comprendre votre but et comprendre vos données
  • P. 6
  • Pourquoi Python ?
  • P. 6
  • scikit-learn
  • P. 7
  • Installer scikit-learn
  • P. 8
  • Librairies et outils essentiels
  • P. 8
  • Jupyter Notebook
  • P. 9
  • NumPy
  • P. 9
  • SciPy
  • P. 10
  • matplotlib
  • P. 11
  • pandas
  • P. 12
  • mglearn
  • P. 13
  • Python 2 versus Python 3
  • P. 13
  • Versions utilisées dans ce livre
  • P. 15
  • Une première application : classifier des espèces d'iris
  • P. 16
  • À la rencontre des données
  • P. 19
  • Mesurer la réussite : entraîner et tester les données
  • P. 20
  • Au commencement de tout : vérifier vos données
  • P. 22
  • Construire votre premier modèle : les K plus proches voisins
  • P. 24
  • Faire des prédictions
  • P. 25
  • Évaluer le modèle
  • P. 26
  • Résumé et perspectives
  • P. 29
  • 2. Apprentissage supervisé
  • P. 29
  • Classification et régression
  • P. 30
  • Généralisation, surapprentissage et sous-apprentissage
  • P. 33
  • Relation entre complexité du modèle et taille du jeu de données
  • P. 33
  • Algorithmes pour l'apprentissage automatique supervisé
  • P. 34
  • Exemples de jeux de données
  • P. 38
  • Les k plus proches voisins
  • P. 48
  • Modèles linéaires
  • P. 71
  • Classifieurs bayésiens naïfs
  • P. 73
  • Arbres de décision
  • P. 86
  • Ensembles d'arbres de décision
  • P. 95
  • SVM à noyau
  • P. 107
  • Réseaux de neurones (deep learning)
  • P. 121
  • Estimer l'incertitude pour les classifieurs
  • P. 122
  • La fonction de décision
  • P. 124
  • Prédire les probabilités
  • P. 127
  • Classification multiclasse et incertitude
  • P. 129
  • Résumé et perspectives
  • P. 133
  • 3. Apprentissage non supervisé et prétraitement
  • P. 133
  • Types d'apprentissages non supervisés
  • P. 134
  • Les défis de l'apprentissage non supervisé
  • P. 135
  • Prétraitement et recalibrage
  • P. 135
  • Différents types de prétraitement
  • P. 136
  • Appliquer des transformations aux données
  • P. 139
  • Recalibrer de la même manière le jeu d'apprentissage et le jeu de test
  • P. 141
  • Effet du prétraitement sur l'apprentissage supervisé
  • P. 142
  • Réduction de la dimension, extraction de caractéristiques et apprentissage de variétés
  • P. 143
  • Analyse en composantes principales (PCA)
  • P. 159
  • Factorisation en matrices non négatives (NMF)
  • P. 167
  • Apprentissage de variétés avec t-SNE
  • P. 171
  • Clustering
  • P. 171
  • Partitionnement en k-moyennes
  • P. 185
  • Clustering agglomératif
  • P. 189
  • DBSCAN
  • P. 194
  • Comparer et évaluer les algorithmes de clustering
  • P. 209
  • Résumons les méthodes de clustering
  • P. 209
  • Résumé et perspectives
  • P. 213
  • 4. Représentation des données et ingénierie des caractéristiques
  • P. 214
  • Variables catégorielles
  • P. 215
  • Encodage one-hot (variables indicatrices)
  • P. 220
  • Les nombres peuvent encoder des catégories
  • P. 222
  • Binning, discrétisation, modèles linéaires et arbres
  • P. 226
  • Interactions et polynômes
  • P. 234
  • Transformations non linéaires univariées
  • P. 237
  • Sélection automatique de caractéristiques
  • P. 238
  • Statistiques univariées
  • P. 240
  • Sélection de caractéristiques basée sur le modèle
  • P. 242
  • Sélection itérative de caractéristiques
  • P. 243
  • Savoir utiliser l'expertise
  • P. 252
  • Résumé et perspectives
  • P. 253
  • 5. Évaluation et amélioration du modèle
  • P. 254
  • Validation croisée
  • P. 255
  • Validation croisée dans scikit-learn
  • P. 256
  • Bénéfices de la validation croisée
  • P. 257
  • Validation croisée à k-plis stratifiée et autres stratégies
  • P. 263
  • Recherche sur grille
  • P. 263
  • Exemple simple de recherche sur grille
  • P. 264
  • Le danger du surapprentissage des paramètres et du jeu de validation
  • P. 266
  • Recherche sur grille avec validation croisée
  • P. 278
  • Métriques dévaluation et scoring
  • P. 278
  • Ne jamais oublier le but final
  • P. 279
  • Métriques dévaluation pour la classification binaire
  • P. 300
  • Métriques pour la classification multiclasse
  • P. 303
  • Métriques de régression
  • P. 303
  • Utiliser des métriques d'évaluation dans la sélection de modèles
  • P. 305
  • Résumé et perspectives
  • P. 307
  • 6. Chaînage d'algorithmes et pipelines
  • P. 308
  • Sélection de paramètres avec prétraitement
  • P. 310
  • Construire des pipelines
  • P. 311
  • Utiliser des pipelines dans des recherches sur grille
  • P. 314
  • Interface générale de la classe Pipeline
  • P. 315
  • Créer facilement un pipeline avec make_pipeline
  • P. 317
  • Accéder aux attributs des étapes
  • P. 317
  • Accéder aux attributs d'un pipeline depuis GridSearchCV
  • P. 319
  • Étapes de prétraitement et paramètres du modèle
  • P. 321
  • Effectuer une recherche sur grille pour trouver quel modèle utiliser
  • P. 322
  • Résumé et perspectives
  • P. 325
  • 7. Travailler avec des données textuelles
  • P. 325
  • Types de données représentés sous forme de chaînes de caractères
  • P. 327
  • Exemple d'application : analyse de sentiment dans des commentaires de films
  • P. 330
  • Représenter les données textuelles sous forme de sacs de mots
  • P. 331
  • Appliquer une représentation par sac de mots à un jeu de données jouet
  • P. 333
  • La représentation par sac de mots appliquée aux critiques de films
  • P. 337
  • Mots vides (stop words)
  • P. 338
  • Pondérer les données avec tf-idf
  • P. 341
  • Investiguer les coefficients du modèle
  • P. 342
  • Des sacs avec plusieurs mots (n-grammes)
  • P. 347
  • Tokenisation avancée, racinisation et lemmatisation
  • P. 350
  • Modèles de sujets et partitionnement de document
  • P. 350
  • L'allocation de Dirichlet latente (LDA)
  • P. 357
  • Résumé et perspectives
  • P. 359
  • 8. Pour conclure
  • P. 359
  • Aborder un problème d'apprentissage automatique
  • P. 360
  • Est-ce qu'il y des humains dans la boucle ?
  • P. 361
  • Du prototype à la production
  • P. 362
  • Tester des systèmes de production
  • P. 362
  • Construire votre propre estimateur
  • P. 363
  • Pour aller plus loin
  • P. 363
  • Théorie
  • P. 364
  • Autres packages et ressources pour l'apprentissage automatique
  • P. 365
  • Ranking, systèmes de recommandation, et autres types d'apprentissage
  • P. 365
  • Inférence, programmation et modélisation probabiliste
  • P. 366
  • Réseaux de neurones
  • P. 367
  • Recalibrer les jeux de données
  • P. 368
  • Améliorer vos compétences
  • P. 368
  • Conclusion
  • P. 369
  • Index