Table des matières: Le machine learning avec Python

Le machine learning avec Python : la bible des data scientists

La 4e de couv. indique : "Le machine learning (ou apprentissage automatique) est désormais partie intégrante de nombreuses applications commerciales et projets de recherche. Mais ce domaine ne reste pas l'apanage des grandes entreprises dotées d'un département en recherche et développ...

Description complète

Enregistré dans:

Détails bibliographiques
Auteurs principaux :	Müller Andreas C. (Auteur), Guido Sarah (Auteur)
Autres auteurs :	Rougé Daniel (Traducteur)
Format :	Livre
Langue :	français
Titre complet :	Le machine learning avec Python : la bible des data scientists / Andreas C. Müller et Sarah Guido; [traduction de l'anglais, Daniel Rougé]
Publié :	Paris : First interactive , DL 2018
Description matérielle :	1 vol. (XII-376 p.)
Traduction de :	Introduction to machine learning with Python
Sujets :	Apprentissage automatique Python (langage de programmation) Scikit-Learn Exploration de données

P. ix
Préface
P. ix
Qui devrait lire ce livre ?
P. x
Pourquoi nous avons écrit ce livre
P. x
Naviguer dans le livre
P. xi
Conventions utilisées dans ce livre
P. xii
Utiliser les exemples de code
P. 1
1. Introduction
P. 2
Pourquoi l'apprentissage automatique ?
P. 2
Les problèmes que l'apprentissage automatique peut résoudre
P. 5
Comprendre votre but et comprendre vos données
P. 6
Pourquoi Python ?
P. 6
scikit-learn
P. 7
Installer scikit-learn
P. 8
Librairies et outils essentiels
P. 8
Jupyter Notebook
P. 9
NumPy
P. 9
SciPy
P. 10
matplotlib
P. 11
pandas
P. 12
mglearn
P. 13
Python 2 versus Python 3
P. 13
Versions utilisées dans ce livre
P. 15
Une première application : classifier des espèces d'iris
P. 16
À la rencontre des données
P. 19
Mesurer la réussite : entraîner et tester les données
P. 20
Au commencement de tout : vérifier vos données
P. 22
Construire votre premier modèle : les K plus proches voisins
P. 24
Faire des prédictions
P. 25
Évaluer le modèle
P. 26
Résumé et perspectives
P. 29
2. Apprentissage supervisé
P. 29
Classification et régression
P. 30
Généralisation, surapprentissage et sous-apprentissage
P. 33
Relation entre complexité du modèle et taille du jeu de données
P. 33
Algorithmes pour l'apprentissage automatique supervisé
P. 34
Exemples de jeux de données
P. 38
Les k plus proches voisins
P. 48
Modèles linéaires
P. 71
Classifieurs bayésiens naïfs
P. 73
Arbres de décision
P. 86
Ensembles d'arbres de décision
P. 95
SVM à noyau
P. 107
Réseaux de neurones (deep learning)
P. 121
Estimer l'incertitude pour les classifieurs
P. 122
La fonction de décision
P. 124
Prédire les probabilités
P. 127
Classification multiclasse et incertitude
P. 129
Résumé et perspectives
P. 133
3. Apprentissage non supervisé et prétraitement
P. 133
Types d'apprentissages non supervisés
P. 134
Les défis de l'apprentissage non supervisé
P. 135
Prétraitement et recalibrage
P. 135
Différents types de prétraitement
P. 136
Appliquer des transformations aux données
P. 139
Recalibrer de la même manière le jeu d'apprentissage et le jeu de test
P. 141
Effet du prétraitement sur l'apprentissage supervisé
P. 142
Réduction de la dimension, extraction de caractéristiques et apprentissage de variétés
P. 143
Analyse en composantes principales (PCA)
P. 159
Factorisation en matrices non négatives (NMF)
P. 167
Apprentissage de variétés avec t-SNE
P. 171
Clustering
P. 171
Partitionnement en k-moyennes
P. 185
Clustering agglomératif
P. 189
DBSCAN
P. 194
Comparer et évaluer les algorithmes de clustering
P. 209
Résumons les méthodes de clustering
P. 209
Résumé et perspectives
P. 213
4. Représentation des données et ingénierie des caractéristiques
P. 214
Variables catégorielles
P. 215
Encodage one-hot (variables indicatrices)
P. 220
Les nombres peuvent encoder des catégories
P. 222
Binning, discrétisation, modèles linéaires et arbres
P. 226
Interactions et polynômes
P. 234
Transformations non linéaires univariées
P. 237
Sélection automatique de caractéristiques
P. 238
Statistiques univariées
P. 240
Sélection de caractéristiques basée sur le modèle
P. 242
Sélection itérative de caractéristiques
P. 243
Savoir utiliser l'expertise
P. 252
Résumé et perspectives
P. 253
5. Évaluation et amélioration du modèle
P. 254
Validation croisée
P. 255
Validation croisée dans scikit-learn
P. 256
Bénéfices de la validation croisée
P. 257
Validation croisée à k-plis stratifiée et autres stratégies
P. 263
Recherche sur grille
P. 263
Exemple simple de recherche sur grille
P. 264
Le danger du surapprentissage des paramètres et du jeu de validation
P. 266
Recherche sur grille avec validation croisée
P. 278
Métriques dévaluation et scoring
P. 278
Ne jamais oublier le but final
P. 279
Métriques dévaluation pour la classification binaire
P. 300
Métriques pour la classification multiclasse
P. 303
Métriques de régression
P. 303
Utiliser des métriques d'évaluation dans la sélection de modèles
P. 305
Résumé et perspectives
P. 307
6. Chaînage d'algorithmes et pipelines
P. 308
Sélection de paramètres avec prétraitement
P. 310
Construire des pipelines
P. 311
Utiliser des pipelines dans des recherches sur grille
P. 314
Interface générale de la classe Pipeline
P. 315
Créer facilement un pipeline avec make_pipeline
P. 317
Accéder aux attributs des étapes
P. 317
Accéder aux attributs d'un pipeline depuis GridSearchCV
P. 319
Étapes de prétraitement et paramètres du modèle
P. 321
Effectuer une recherche sur grille pour trouver quel modèle utiliser
P. 322
Résumé et perspectives
P. 325
7. Travailler avec des données textuelles
P. 325
Types de données représentés sous forme de chaînes de caractères
P. 327
Exemple d'application : analyse de sentiment dans des commentaires de films
P. 330
Représenter les données textuelles sous forme de sacs de mots
P. 331
Appliquer une représentation par sac de mots à un jeu de données jouet
P. 333
La représentation par sac de mots appliquée aux critiques de films
P. 337
Mots vides (stop words)
P. 338
Pondérer les données avec tf-idf
P. 341
Investiguer les coefficients du modèle
P. 342
Des sacs avec plusieurs mots (n-grammes)
P. 347
Tokenisation avancée, racinisation et lemmatisation
P. 350
Modèles de sujets et partitionnement de document
P. 350
L'allocation de Dirichlet latente (LDA)
P. 357
Résumé et perspectives
P. 359
8. Pour conclure
P. 359
Aborder un problème d'apprentissage automatique
P. 360
Est-ce qu'il y des humains dans la boucle ?
P. 361
Du prototype à la production
P. 362
Tester des systèmes de production
P. 362
Construire votre propre estimateur
P. 363
Pour aller plus loin
P. 363
Théorie
P. 364
Autres packages et ressources pour l'apprentissage automatique
P. 365
Ranking, systèmes de recommandation, et autres types d'apprentissage
P. 365
Inférence, programmation et modélisation probabiliste
P. 366
Réseaux de neurones
P. 367
Recalibrer les jeux de données
P. 368
Améliorer vos compétences
P. 368
Conclusion
P. 369
Index

Le machine learning avec Python : la bible des data scientists

Documents similaires