SKLEARN PIPELINE AVANCÉE

4 роки тому

Ce tutoriel python français montre comment développer des pipelines de machine learning avec Sklearn.
Pour développer une pipeline simple, je vous conseille d'utiliser la fonction make_pipeline() du module sklearn.pipeline
Mais pour traiter des data sets hétérogènes (avec un mélange de type de variables : continues, discrètes, strings...) il faut utiliser des fonctions un peu plus techniques.
make_column_transformer() permet ainsi de créer un transformer qui ne s'applique que sur certaines colonnes de votre dataset. Il est souvent utilisé pour traiter les variables numériques et les variables catégorielles de façon différente. Cette fonction existe également sous forme de Classe avec ColumnTransformer, mais je préfère utiliser la fonction make_column_transformer car sa syntaxe est plus simple.
make_column_selector() est une nouvelle fonctionnalité de sklearn 0.22 qui permet de séléctionner les colonnes d'un dataset selon leur dtype. Tres utile également !
Pour finir, la fonction make_union permet de construire des pipelines paralleles, dont les résultats sont concaténé dans un tableau final. Cette fonction existe également sous forme de Classe avec FeatureUnion, mais je préfère utiliser la fonction make_union car sa syntaxe est plus simple.
Combinés ensemble, ces trois fonctions sont redoutables et permettent de traiter des datasets de la vraie vie, qui combinent plusieurs types de variables, afin de créer un modele de machine learning très performant.
► MON SITE INTERNET EN COMPLÉMENT DE CETTE VIDÉO:
machinelearnia.com/
► REJOINS NOTRE COMMUNAUTÉ DISCORD
/ discord
► D'autres BONUS sur Tipeee:
fr.tipeee.com/machine-learnia
► Recevez gratuitement mon Livre:
APPRENDRE LE MACHINE LEARNING EN UNE SEMAINE
CLIQUEZ ICI:
machinelearnia.com/apprendre-...
► Télécharger gratuitement mes codes sur github:
github.com/MachineLearnia
► Abonnez-vous : / @machinelearnia
► Pour En Savoir plus : Visitez Machine Learnia : machinelearnia.com/
► Qui suis-je ?
Je m’appelle Guillaume Saint-Cirgue et je suis Data Scientist au Royaume Uni. Après avoir suivi un parcours classique maths sup maths spé et avoir intégré une bonne école d’ingénieur, je me suis tourné vers l’intelligence artificielle de ma propre initiative et j’ai commencé à apprendre tout seul le machine learning et le deep learning en suivant des formations payantes, en lisant des articles scientifiques, en suivant les cours du MIT et de Stanford et en passant des week end entier à développer mes propres codes.
Aujourd’hui, je veux vous offrir ce que j’ai appris gratuitement car le monde a urgemment besoin de se former en Intelligence Artificielle.
Que vous souhaitiez changer de vie, de carrière, ou bien développer vos compétences à résoudre des problèmes, ma chaîne vous y aidera.
C’est votre tour de passer à l’action !
► Une question ? Contactez-moi: contact@machinelearnia.com

КОМЕНТАРІ: 153

@kemmounramzy6232 Рік тому

votre chaine est un tresaure pour l'humanite monsieur !

@gacem213 Рік тому

c'est exactement ça que je cherchais... tu es le sauveur de toute la communauté francophone... merci infiniment Guillaume

@gutsshots1063 10 місяців тому

Heureusement tu es là. Grand merci 🙏 pour ton travail

@LaurentD90 3 роки тому

Encore de la bonne pédago sur un sujet très utile. Merci. J'en profite pour dire que les vidéos sur Tipeee sont énormes !

@MachineLearnia 3 роки тому

Merci beaucoup pour votre témoignage :)

@essaidelhaji6844 3 роки тому

Comme d'habitude, une superbe vidéo et une excellente pédagogie. Merci et bonne continuation.

@MachineLearnia 3 роки тому

Merci a vous :)

@franckdouabou9488 3 роки тому

franchement je n'avais pas pris le temps de bien suivre vos cours. mais là je suis au comble de la joie tellement vos cours sont simples, efficaces et m'aident enormement. Merci infiniment!!!!

@MachineLearnia 3 роки тому

C'est bien d'avoir regardé une seconde fois, cela vous aidera a mieux comprendre et a progresser, bravo ! :)

@amyd.2840 4 роки тому

Très utile cette vidéo bonus, merci beaucoup !

@MachineLearnia 4 роки тому

Ca fait plaisir, merci !

@ulrichkarlodjo1457 4 роки тому

Master Pédagogue ! Merci pour la super vidéo BONUS !

@MachineLearnia 4 роки тому

Aaaah ! Je me disais aussi je n'avais pas de commentaire du fameux Ulrich Karl ! :D Merci mon ami ;)

@ulrichkarlodjo1457 4 роки тому

Machine Learnia oui 😁😁 j’ai pas consulter la vidéo à temps j’étais un tout petit peu occupé

@cheikhtidianehoumenou8484 3 роки тому

très intéressant Merci

@aymenlazem2062 4 роки тому

c'est parfait merci fort bien cher Guillaume

@MachineLearnia 4 роки тому

Merci Aymen !

@madikahi8834 4 роки тому

comme d’habitude toujours avec des vidéo superbe.

@MachineLearnia 4 роки тому

Merci

@constantthomas3830 3 роки тому

Mais quel contenu formidable. Je suis en MS data Science et tu transformes mon appétences pour la Data Science en passion !

@MachineLearnia 3 роки тому

Merci beaucoup ! Wow je suis tres content de te faire aimer la Data Science encore plus

@constantthomas3830 3 роки тому

@@MachineLearnia Franchement tu expliques schématiquement et efficacement l'essentiel. Et ça m'aide à comprendre des cours qui sont parfois franchement indigeste. Tu m'as fais économiser de précieuses heures de révision.Certains enseignants devraient prendre exemple sur tes vidéos. C'est d'ailleurs très généreux de ta part de proposer ce contenu gratuitement.

@philippe7610 4 роки тому

Bonjour Guillaume, Je suis un super fan et super content qu'il puisse y avoir du contenu d'aussi bonne qualité en français. J'aimerai inviter tout le monde à prendre conscience de la chance qu'on a de pouvoir apprendre aussi clairement dans ce monde où tout le monde (beaucoup d’incompétents) cherche à monétiser des formations. Le savoir devrait être gratuit pour tout le monde. Je tiens donc à te remercier vraiment du fond du coeur pour ce travail phénoménal que tu produit et que tu transmets parfaitement. bonne soirée! :)

@MachineLearnia 4 роки тому

Merci pour ce message qui me va droit au cœur. C'est agréable quand on se rend compte de la valeur du travail que je fournis, car oui ca me prends du temps de bien vulgariser le sujet :) Merci beaucoup de me suivre et de m'aider au développement de la chaîne, c'est un immense plaisir de vous avoir avec moi !

@philippe7610 4 роки тому

Le plaisir est partagé! Continue de nous partager ta passion car il faut être passionné pour avoir ton soucis du détails et nous on va partager au max pour ta chaine! Elle va décoller assez rapidement je n'en doute même pas faut juste le temps que les gens se rendent compte de son existence mais au moins tu as une vrai communauté pour l'instant. Force courage et réussite pour la suite! Merci bien ;)

@cradle_of_chaos 2 роки тому

Parfaitement expliqué, continuez comme ça !

@MachineLearnia 2 роки тому

Merci !

@Manon-4096 4 роки тому

Trop bien ! Merci ! Votre chaîne est géniale !

@MachineLearnia 4 роки тому

Merci beaucoup.

@xavierfournat8264 4 роки тому

Bonjour Guillaume, Merci pour ce tutoriel, qui est à la fois très bien expliqué, et vraiment très opérationnel. C'est effectivement beaucoup plus simple de travailler comme cela avec un column transformer, plutôt que de devoir se créer des fonctions qui sélectionnent les données suivant un dtype. Merci pour cette astuce et bonne continuation. Je suivrai ta chaine avec beaucoup d'attention étant donné la qualité du contenu!

@MachineLearnia 3 роки тому

Merci beaucoup Xavier ! Et bienvenue sur la chaine ! :)

@chougaghil 3 роки тому

Cette librairie est fantastique, faire des traitements complexes aussi simplement à travers une api aussi claire, alleluia ! Bravo pour ta pédagogie, c'est excellent

@MachineLearnia 3 роки тому

Oui, Sklearn est tres utile et puissant pour le Machine Learning. Mais seulement quand on sait aller plus loin que le simple model.fit(X, y). Continuez ainsi :)

@caumauethjacques-emile3124 4 роки тому

Merci encore une fois, hâte de les mettre en pratique

@MachineLearnia 4 роки тому

Partagez vos résultats avec nous :)

@caumauethjacques-emile3124 4 роки тому

@@MachineLearnia sans faute

@MachineLearnia 4 роки тому

@@caumauethjacques-emile3124 Merci :D

@pulsorion 4 роки тому

Simple et efficace ! ✌

@MachineLearnia 4 роки тому

Merci

@Gbachelot75 4 роки тому

Excellent comme toujours !

@MachineLearnia 4 роки тому

Merci Guillaume, super content d'avoir un commentaire de ta part et de savoir que tu es toujours aussi intéressé apr la data science. J'espere que tes projets avancent bien ! :)

@madaragrothendieckottchiwa8648 4 роки тому

Belle vidéo chère guillaume super boulot

@MachineLearnia 4 роки тому

Merci beaucoup

@rammah1983 2 роки тому

Merci infiniment. C est tres tres utile. Bien expliqué. Vous etes un ange

@MachineLearnia 2 роки тому

De rien ! Merci a vous :)

@julienjacquemont6048 4 роки тому

Merci pour cette vidéo!

@MachineLearnia 4 роки тому

De rien :)

@leondresmapani1237 3 роки тому

Merci pour tes vos vidéos

@MachineLearnia 3 роки тому

De rien :)

@damienj3980 2 роки тому

Merci ! je me cassais les dents sur comment définir mes pipeline en fonctions des colonnes. Maintenant je vais pouvoir m'amuser à tester plusieurs modèles sur mes 'train set' afin d'en sélectionner un. Ton contenu est très quali

@MachineLearnia 2 роки тому

Have fun :)

@oliviert.8856 2 роки тому

Merci Guillaume pour cette vidéo. La petite astuce de mise jour d'Anaconda est LA solution pour la mise à jour de la distribution diffusée sous Mac OS (en tous cas, je n'avais pas trouvé avant cette vidéo). Encore merci et bravo pour le savoir que vous diffusez et partagez avec nous :)-

@MachineLearnia 2 роки тому

Je vous en prie, content de pouvoir aider ! :)

@jmbdeblois 4 роки тому

c'est fou la richesse de scikit. Merci Guillaume

@MachineLearnia 4 роки тому

Oui, sklearn est un package incroyable

@aimeritedonald6689 4 роки тому

très pratique !! merci bien !!

@MachineLearnia 4 роки тому

Merci beaucoup

@aimeritedonald6689 4 роки тому

@@MachineLearnia j'aime bien tes vidéos !! merci pour tout ce que tu fais.

@ayoubtalbi4771 3 роки тому

Très utile merci

@MachineLearnia 3 роки тому

De rien, je suis heureux que la vidéo vous soit utile :)

@mohamedwane9877 4 роки тому

Merci beaucoup

@MachineLearnia 4 роки тому

Merci

@TheRemiRODRIGUES 4 роки тому

Merci !

@MachineLearnia 4 роки тому

De rien :)

@karimine 4 роки тому

Merci beaucoup pour vos efforts je cherche à apprendre le deep learning merci de me recomander quelques cours .

@MachineLearnia 4 роки тому

Le livre de Ian Goodfellow est un bon livre pour se lancer (je vais bientôt faire des vidéos aussi)

@karimine 4 роки тому

@@MachineLearnia Merci beaucoup

@chamszneidi4867 4 роки тому

pouvez-vous donner le lien de livre

@mohammed_yazidcherifi9816 4 роки тому

Superbe vidéo, merci beaucoup, vraiment hâte de voir la suite, peu être que j'attends la suite plus que si j'attends la sortie d'un film, merci pour votre partage de connaissance, d’expérience, je suis impatient de voir les vidéos où o traite de vrai problèmes, Juste une question, avez vous une adresse Gmail et si c'est le cas pouvons nous poser des questions la bas. Merci beaucoup. Cordialement.

@MachineLearnia 4 роки тому

Merci beaucoup, vous pouvez me parler sur le serveur discord (lien dans la description) car par email c'est assez compliqué, j'en reçois beaucoup trop ! ahah

@inf0mag 4 роки тому

Merci pour le tuto super bien fait ! J'ai une question concernant les Pipelines. Dans la vidéo précédente, vous disiez qu'un Pipeline = transformer + estimator, et c'est ainsi que sont crées les pipelines avec make_pipeline(). Dans cette vidéo, les deux pipelines (numerical_pipeline et categorical_pipeline) contiennent seulement des transformers ! Je suis un peu perdu sur ce point ..

@MachineLearnia 4 роки тому

Bonjour ! La confusion est normale, je te l'accorde. En principe une pipeline est simplement une chaine de transformers, avec éventuellement un estimateur au bout.

@madioudiallo5634 3 роки тому

Bonjour à tous, c'est une répétition mais il faut encore le dire merci à guillaume pour les tutos. Moi j'aurai une question sur les pipelines: je veux surtout une clarification: un pipeline est-ce que c'est une sorte de tuyau dans lequel on fait de la préparation des données jusqu'à la création du modèle qu'il suffira simplement d'optimiser ensuite? Merci

@MachineLearnia 3 роки тому

Oui tout a fait ! Absolument ! :) Et merci a vous :)

@orhanlan2 2 роки тому

Hello, merci beaucoup pour la vidéo, excellente et bien expliquée. Est-ce que tu sais s'il est possible d'appliquer des opérations sur X mais aussi d'autres opération sur y dans la même pipeline ?

@MachineLearnia 2 роки тому

Salut ! En général on ne transforme pas vraiment y, il y a juste 1-2 transformers que tu peux utiliser (je ne sais plus lesquels, preuve que je ne les utilise pas souvent)

@simonbarras3361 Рік тому

Est-ce-que le union peut être utilisé pour faire un "gridsearch" sur les standardizeur ?

@mohammedtahernakes 2 роки тому

Bonjour, Merci pour ce tutoriel, concernant le model final développé sa sera mieux de montrer comment on peut s'en servir, ou comment l'exporter par exemple sous forme d'un dataset.

@MachineLearnia 2 роки тому

Je le fais dans d'autres vidéos, vous avez raison !

@yanisaithammou6410 4 роки тому

Vous êtes le meilleur, pour appliquer ça il faut avoir des données bien nettoyés donc on doit faire de l'analyse exploratoire avant, ma question est ce que y' a un moyenne d'automatiser cette tache (ex détection de donnée aberrantes, test de khi 2 ...ect) ? merci encore une fois.

@MachineLearnia 4 роки тому

Merci :) L'exploration de données est une tache importante et il vaut mieux la faire soi-meme, car vous arriverez a découvrir des relations plus intéressantes que la machine. Pour la séléction de variable (khi2, etc) oui il est possible d'automatiser certaines choses. Je vais en parler dans une vidéo qui sortira la semaine prochaine.

@yanisaithammou6410 4 роки тому

@@MachineLearnia merci infiniment , je l'attends avec impatience

@solalcohen5631 2 роки тому

Salut Guillaume, ta formation est top ! Je vois que en numerical_features tu prends que les features qui sont des chiffres et en categorical features tu prends celles qui sont des textes. Pourtant la classe c'est un chiffre mais c'est une categorical feature. Est ce que ca a un sens de faire de la standardisation sur une telle feature qui va surement ensuite etre transformée avec du one hot par exemple ? Du coup c'est quoi la regle ?

@MachineLearnia 2 роки тому

Salut ! tres bonne question : c'est parce que je veux passer les "textes" dans une pipeline d'encodage, donc pas la peine de passer des variables numériques (meme si elles représentent des catégories, genre 0, 1, 2). La regle, c'est juste de créer des groupes en fonctions de ce que tu cherches a faire dans la pipeline et les sous-pipelines.

@louisbaranzelli9694 Рік тому

Bonjour Super video ! Juste une question : quand tu appliques onehot a ton dataset train par exemple , mais que ce label n'existe pas dans le dataset test, comment indiquer dans le pipeline que la onehot_vectorisation s'applique suivant un encodeur initialement predefini sur l'ensemble du dataset ? Merci d'avance !

@MrChiffin 6 місяців тому

En utilisant le paramètre handle_unknown : 'ignore' de ton OneHotEncoder :)

@jouinisofien7451 4 роки тому

could we import seaborn and sklearn without importing matplotlib and numpy respectively ? thanks

@nidhalderbali4636 3 роки тому

Bonjour et merci beaucoup de la vidéo. Juste une simple question: Lorsque vous avez divisé les données en données numériques et d'autres catégoriques, pourquoi vous avez crée la série de transformation sous forme de pipeline? Pourquoi c'est pas juste par exemple StandarScaler ou Onehotscaler?

@MachineLearnia 3 роки тому

Bonjour et merci. Les pipelines facilitent grandement le travail car on peut y passer les données de train, de test, et les données futures sans avoir de data leak ou bien de mauvaises transformations (transformations incohérentes) des données. Voila pourquoi.

@user-ii1lv5ep2f 3 роки тому

salut tlm, merci Guillaume pour votre formidable vidéo, svp comment peut on avoir les affiche text du cours qui sont sur la vidéo?

@MachineLearnia 3 роки тому

Bonjour et merci ! Je vais les compiler pour les mettre a disposition d'ici peu, vous serez notifiez par email si vous etes abonnés a la newsletter

@cyrineabid308 2 роки тому

Cette méthode est juste merveilleuse.. Je l'ai essayé sur mon data.. c'est un dataset complet. Lors de l'exécution, le dataset a été réduit et je sais pas c'est dû exactement à quoi?

@MachineLearnia 2 роки тому

Une selection de variables ? Une imputation ? Un split de train/test? Voici les principales raisons possibles.

@tiemtoresouleymane3822 Рік тому

Bonjour , es ce nécessaire d'encoder les variables de type date ?

@florentsennedot1715 3 роки тому

Bonjour Guillaume et merci pour la qualité de tes vidéos ,au top ! Petite question je suis en train d'utiliser un make_column_transformer de cette manière : processor = make_column_transformer((OrdinalEncoder(),make_column_selector(dtype_include='object')), remainder=StandardScaler()) Mon souci est que je perds l'ordre des colonnes du dataset initial lors du .fit_transform, le traitement s'effectuant dans l'ordre des tuples initiés dans le make_column_transformer, une astuce ? trier le dataset dès le départ ? J'aimerai aussi accéder à la liste des tableaux des catégories créées via l'attribut categories_ à partir du make_column_transformer et je ne sais pas si c'est possible ? Bon voilà j'espère être assez clair :). Bonne continuation et pour info je viens de voir ta video sur les bases du Deep Learning : super travail, ça annonce la couleur pour la suite !

@florentsennedot1715 3 роки тому

Ah trouvé : processor.named_transformers_["ordinalencoder"].categories_ Pas évident qd même d'arriver à se 'balader' dans les différents paramètres ... une petite video serait la bienvenue lol ;)

@MachineLearnia 3 роки тому

Félicitation a vous pour avoir trouvé la réponse de vous-meme ! Et merci de l'avoir partagé pour aider les autres :)

@karimmache4018 3 роки тому

Merci pour cette video, tres interessant. Une question: est-il possible de creer des pipeline avec des function qu'on a definie soit meme qui prend des parametres en entres?

@MachineLearnia 3 роки тому

Oui c'est tout a fait possible, il faut alors convertir vos fonctions en transformers, vous pouvez faire cela avec la fonction sklearn.preprocessing.FunctionTransformer

@walduch 3 роки тому

@@MachineLearnia Bonjour Guillaume, il me semble avoir vue une de tes vidéos où tu parles justement de FunctionTransformer mais je n'arrive plus à mettre la main dessus :-S

@MachineLearnia 3 роки тому

@@walduch C'est dans la vidéo 22/30

@walduch 3 роки тому

@@MachineLearnia Yess exact, merci beaucoup :-) Je pense que je me suis aussi mélangé mes souvenirs avec ta vidéo qui traite de "make_scorer" ^^

@spider279 Рік тому

Peut on créer une pipeline et le combiner avec GridSearchCV

@mohamedsylla7630 4 роки тому

Bonjour Guillaume merci pour la vidéo. Elle m'a été très utile dans la mise en place de certains projets. Cependant, j'ai une question : comment peut-on avoir le nom de chaque variable après la transformation (data preprocessing avec le make_column_transformer). En effet, j'ai besoin savoir lors de la réalisation de modèle quelle variable est la plus importante ; mais aussi appliquer une feature selection avant de lancer le modèle. Car je veux avoir une meilleure compréhension du modèle réalisé et pouvoir l'expliquer aux personnes non-statisticiennes. Pour faire simple j'ai besoin que make_column_transformer me retourne un data frame avec le nom de chaque variable: Base_finale = pd.DataFrame(preprocessor.fit_transform(X_train), columns= Total_columns) Est ce possible ? J'ai essayé avec "get_feature_names" mais sans succès .

@MachineLearnia 4 роки тому

J'ai l'impression que c'est vous qui m'avez contacté sur Tipeee, je vous ai répondu par message, mais voici la réponse également ici : Vous pouvez utiliser la classe Pipeline() (pas make_pipeline) dans laquelle il faut donner un nom a vos étapes, par exemple Pipeline(('feature_selection', RFECV()) , ...) Puis ensuite vous pourrez utiliser : named_steps['feature_selection] pour acceder a votre transformer de la pipeline, comme ceci : pipeline.named_steps['rfe_feature_selection'].support_ "support" vous donne acces aux colonnes séléctionnées (comme nous l'avons vu dans la vidéo 23/30 Bon courage ! :)

@mohamedsylla7630 4 роки тому

@@MachineLearnia Oui effectivement, Merci pour votre retour. J'ai réussi à l’implémenter. :)

@wassimchoura8362 3 роки тому

Merci beaucoup pour vos efforts . En faite, je n'arrive pas à comprendre la différence entre la fonction make_column_transformer du module compose et la fonction ColumnTransformer du même module. Est-ce que vous pouvez m'expliquer la différence?

@MachineLearnia 3 роки тому

Il n'y a pas de différence vraiment. la fonction est juste plus rapide a utiliser (on ne peut pas donner de "nom" aux colonnes, c'est tout)

@moussabamba6216 4 роки тому

bonsoir j'aimerais savoir est ce que c'est obligatoire qu'un data scientist puisque maitriser le web scrapping

@MachineLearnia 4 роки тому

Vous n'avez pas besoin de savoir faire du webscrapping pour être data scientist, je vous rassure.

@aghileslounis 4 роки тому

Excellente vidéo ! mais je ne vois pas trop a quoi pourrais servir make_union () , j'ai l'impression que les autres font deja tout ? quelqu'un peut m'expliquer ?

@MachineLearnia 4 роки тому

Merci. Make_union() permet de traiter de plusieurs façons votre dataset et de regrouper les résultats dans un seul tableau. Ce n'est pas une chose possible avec une Pipeline classique

@mouhamadoumoustaphaba4502 2 роки тому

Bonjour, Dans l'utilisation de make-union je comprends pas pourquoi vous n'avez pas préciser le threshold avec le Binarizer.Si la machine utilise une valeur par défaut comment elle la choisit? Merci

@MachineLearnia 2 роки тому

Oui c'est a vous de placer un threshold, je ne l'ai pas fait ici mais faut toujours le faire.

@saidmazzi531 6 місяців тому

Bonjour, un grand merci pour vos cours! je viens de refaire le cours sur pipeline avancée avec make_column_transformer (10'36). J'ai une erreur qui apparait : "ValueError: Cannot use most_frequent strategy with non-numeric data: could not convert string to float: 'male' ". Qui peut m'aider et me dire d'où pourrait venir l'erreur?

@samcollin6917 4 місяці тому

Même question pour moi, as tu résolu l'erreur ?

@moussabamba6216 4 роки тому

merci j'aimerais te soutenir sur tipll.com mais je sais pas comment ça fonctionne

@MachineLearnia 4 роки тому

Merci beaucoup c'est tres gentil de vouloir me soutenir :D Il suffit de se rendre sur Tipeee (le lien est dans la description de la vidéo). Ensuite vous devez créer un compte (cela prend 2 minutes) et vous pourrez choisir le montant que vous souhaitez me verser. :) Merci beaucoup !

@programmationdotnet291 4 роки тому

Bonjour professeur, on ne pourra plus en ce moment évaluer notre modèle avec le pipeline sans faire du pre_processing sur un dataset comportant des features de type catégoriel

@MachineLearnia 4 роки тому

Bonjour, je n'ai pas compris ce que vous voulez dire, désolé..

@programmationdotnet291 4 роки тому

Lorsque nous avions un dataset contenant des données manquantes sans imputer les données manquantes dans ce dataset, est-ce qu'on peut évaluer le modèle avec le pipeline (model.score...)

@MachineLearnia 4 роки тому

@@programmationdotnet291 Non, car un modele ne peut pas traiter les données Manquantes, il faut nécessairement les remplacer ou les éliminer.

@programmationdotnet291 4 роки тому

@@MachineLearnia comment les remplacer alors ?

@programmationdotnet291 4 роки тому

@@MachineLearnia Est-ce qu'en les remplaçant nous pouvons obtenir un modèle optimal ?

@bernylong4995 4 роки тому

Bonjour, le preprocessor est appliqué sur les variables X mais, dans le cas où le y est une variable catégorielle, comment on procède ? Merci de ta réponse

@MachineLearnia 4 роки тому

Comme indiqué dans la vidéo, il faut filtrer les colonnes avec columnTransformer

@bernylong4995 4 роки тому

@@MachineLearnia Si je me base sur la video à la 10', cela veut dire que le model.fit(X,y) va encoder les X et aussi le y ?

@MachineLearnia 4 роки тому

Les transformers de la pipeline ne travaillent que sur les données X.

@bernylong4995 4 роки тому

@@MachineLearnia Je reviens donc à ma première question .....Comme le preprocessor ne traite que les X et que dans mon cas, j'ai un "y" de type catégorie, comment peut on procéder pour encoder le y ? (pour moi, le y c'est le label, la target à trouver !)

@sarindrathereserandriambel417 2 роки тому

Bonjour, J'aimerais savoir quand utiliser make_pipelines et quand utiliser Pipeline merci

@MachineLearnia 2 роки тому

Les 2 sont identiques, c'est a votre convenance.

@oussemamakni5964 2 роки тому

Bonjour je n'ai pas compris la raison d'utilisation des listes numerical_features et categorical_features

@MachineLearnia 2 роки тому

Bonjour, c'est parce qu'en Analyse de données, nous ne traitons pas de la même manière les données quantitatives et les données qualitatives. Donc on crée des listes de variables pour les traiter chacune selon une pipeline précise.

@mohamedwane9877 4 роки тому

bonjour apres cette ligne de code 'model = make_pipeline(preprocessor, SGDClassifier()) model.fit(x, y)' j ai l erreur suivente " ValueError: A given column is not a column of the dataframe" merci de m aider. j ai importe un fichier csv avec pandas

@MachineLearnia 4 роки тому

Bonjour, vous avez peut-être mal orthographié une colonne : attention aux majuscules/minuscules

@mohamedwane9877 4 роки тому

@@MachineLearnia effectivement il y a un mélange de majuscules et de minuscules, je vais changer sa et merci beaucoup

@bernylong4995 4 роки тому

Bonjour, j'ai un problème sur le "make_union", il me retourne une erreur. A priori, j'aurais des valeurs "Nan". je suis allé voir dans Git le code mais je ne l'ai pas trouvé. Dans tous les cas, merci encore pour cette video qui va m'aider énormément. Bonne journée

@MachineLearnia 4 роки тому

je ne pense pas que le probleme vienne de make_union, mais des transformers que vous utilisez dans make_union. Essayez d'éliminer les NaN avec SimpleImputer, puis vous pourrez utiliser le make_union

@bernylong4995 4 роки тому

@@MachineLearnia j'ai rajouté le SimpleImputer() mais j'ai toujours l'erreur suivante : ValueError: Input contains NaN, infinity or a value too large for dtype('float64').

@johannsenn37 4 роки тому

Bonjour, j'ai eu le même probleme. apparemment notre fichier titanic contient 891 lignes, avec des nan sur 'age' notamment. Binarizer() n'aime pas les Nan vraisemblablement, donc On peut effectivement faire passer le SimpleImputer pour Binarizer(): """ pipeline_bin = make_pipeline(SimpleImputer(), Binarizer()) pipeline=make_union(StandardScaler(), pipeline_bin) """ Ce qui nous retourne ensuite : pipeline.fit_transform(numerical_features_).shape = (891,4). Esperant que la démarche soit juste @Machine Learnia

@bernylong4995 4 роки тому

@@johannsenn37 c'est ok, merci

@jean5195 3 роки тому

@@johannsenn37 Merci bien pour l'astuce ;)

@paulmonde6896 3 роки тому

IndexError: tuple index out of range

@MachineLearnia 3 роки тому

je vous invite a voir ma vidéo sur les erreurs pour comprendre comment corriger cette erreur, ainsi que toutes vos erreurs futures, vous verrez cela vous facilitera beaucoup la vie :)

@paulmonde6896 3 роки тому

@@MachineLearnia Merci Guillaume ! J'ai corrigé mon erreur, en fait j'ai mis X à la place de y et y à la place de X 🤦‍♂️😄 Parfois, il faut vraiment prendre une petite pause 🙂

@chaymaemakri8903 4 роки тому

supères videos , lorsque je créer mon modèle ''categorial_features=['J','M'] categorial_pipeline=make_pipeline(OneHotEncoder()) preprocessor= make_column_transformer((categorial_pipeline,categorial_features) model = make_pipeline(preprocessor, SGDClassifier()) '' , il affiche cette erreur '' invalid syntax ''

@MachineLearnia 4 роки тому

Comme le dit le message : il y a une erreur de syntaxe dans votre code, c'est a dire que vous avez surement fait une petite faute de frappe, mal refermé une parenthèse ou ce genre de chose. (le problème n'est pas grave il faut juste bien relire votre code, et il vous indique normalement la ligne ou l'erreur est située)

@johannsenn37 4 роки тому

Hello. il manque la fermeture de parenthese : make_column_transformer((categorial_pipeline, categorial_features))