Alteryx Intelligence Suite

14 septembre 2020

L’Intelligence Suite est maintenant sortie. Avec elle, on voitarriver les outils « Assisted Modelling » dans la catégorie « MachineLearning » qui permettent de créer un modèle de manière simple.

Avant d’entrer dans le vif du sujet, qu’est-ce que veut dire le terme « Assisted Modelling » ? C’est un nouvel outil Alteryx qui va permettre de guider l’utilisateur, étape par étape, pour la création d’un modèle prédictif. Prenons un exemple pour voir comment cela se passe concrètement et quelles sont les étapes, puis je vous donnerai mon avis sur cet outil !

Le fonctionnement

Pour tester ce nouvel outil, nous allons utiliser un jeu de données qui traite des pingouins et de la prédiction des espèces de pingouins basés sur plusieurs éléments : poids, longueur des nageoires, profondeur et largeur du bec, île de vie pour chacun des pingouins.

Passons à la pratique

Je vais d’abord séparer mon jeu de données en 2 parties ; une partie (70%) qui va me permettre d’entraîner mon modèle puis une partie (30%) pour vérifier ma prédiction et voir la précision de mon modèle.

Jusqu’ici rien de nouveau. Ensuite, je vais ajouter ce nouveloutil « Modélisation assistée », ou « Assisted Modelling »,puis lancer mon workflow pour commencer la configuration de mon modèle (sans l’avoirlancé ou exécuté une fois, on ne peut pas le paramétrer).

Premier point, j’arrive sur une première fenêtre qui m’expliquece que je vais devoir faire sous la forme d’un tutoriel me permettant deprendre connaissance des principales étapes.

Première étape : sélectionner la variable et la méthode.

Je commence ensuite la construction et vais sélectionner lavariable que je souhaite prédire, ici les espèces de pingouins.

J’ai une brève description de la catégorie de modèles qui va êtreutilisée, ici les modèles de classification.

Deuxième étape : définir les types de données.

Je vais ensuite pouvoir typer mes données avec des types recommandés basés sur une analyse rapide des données disponibles.

Troisième étape : nettoyer les valeurs manquantes.

Je vais ensuite pouvoir choisir quoi faire avec les valeurs manquantes, donc les remplacer, si jamais il y a trop de valeurs manquantes, cela pourrait diminuer la précision du modèle. C’est rapide et simple.

Quatrième étape : sélectionner les variables.

Une fois ceci fait, je vais pouvoir sélectionner mes variables prédicteurs et voir directement qu’il y a une variable ici qui est fortement associée à ma variable cible. L’indicateur est clair, on le voit et on va donc décocher la variable « island » qui est trop fortement corrélée, cela tronquerait le modèle, pour illustrer, ce serait comme essayer de prédire la nationalité en se basant sur le pays d'habitation, cela aurait trop de poids dans le modèle! On va donc ici supprimer cette variable qui est trop corrélée

Cinquième étape : sélectionner les modèles.

Avant-dernière étape, on va choisir les modèles que l’on veuttester avec quelques éléments pour comprendre les plus et les moins de chacundes modèles.

Dernière étape : exécuter les modèles sélectionnées.

Je lance mes modèles et Alteryx va les comparer les uns auxautres puis me donner un ensemble de statistiques liées à l’interprétation desmodèles, avec notamment la précision qui permet de déterminer quel serait lemodèle le plus performant.

Dans notre exemple, la « random Forest » est la plusperformante. Je vais donc l’ajouter à mon workflow via un bouton au bas de l’écran.

Et voilà, en une petite dizaine de minutes, j’ai pu comparerplusieurs modèles et choisir celui qui était le plus performant. Je peuxmaintenant voir si ce modèle fonctionne correctement en utilisant l’outil « PredictValues » et en prenant mon échantillon de validation.

L’avis d'un ACE sur cet outil :

L’interface est simple et intuitive, J’ai particulièrement appréciéla possibilité de tester rapidement plusieurs modèles, de manière simple etdidactique. N’étant pas data scientist, cet outil Assisted Modelling permet derapidement faire quelque chose d’exploitable. En fouillant un peu une fois quele modèle est choisi, on voit que l’on peut modifier des paramètres de manièresimple.

Pour conclure, je dirais que l’outil est très bien pensé, trèssimple à utiliser, mais à la fois pas assez poussé pour un « Data Scientist »(manque de paramétrage possible). En effet, l’outil est tellement simple à utiliserqu’un novice peut faire des modèles qui produiraient des prédictions fausses. J’auraisdonc tendance à le mettre entre les mains d’un public relativement averti ou à minimad’un public supervisé par une personne avertie étant capable de remettre encause les travaux réalisés.

Quelques ressources pour aller plus loin : 

https://community.alteryx.com/t5/Forum-Francais/Tips-de-la-semaine-55-Mes-1ers-pas-pour-devenir-Citi...

https://help.alteryx.com/2020.2/MachineLearning/MLModelingTool.htmhttps://

help.alteryx.com/2020.2/MachineLearning/MLPredictTool.htm

Auteur:
Arthur Ladwein

Nous accordons une grande importance à la protection de vos données personnelles et à la transparence de l'utilisation des cookies. En continuant votre navigation, vous acceptez l'utilisation des cookies pour améliorer votre expérience, fournir des fonctionnalités de médias sociaux et analyser notre trafic. Nous partageons des informations avec nos partenaires d'analyse.

Politique relative aux cookies

Accepter
Refuser
Morning Auber, 6 Rue Auber, 75009 Paris
Abonnez-vous
à notre newsletter.
Obtenir les dernières nouvelles sur The Information Lab et l'industrie de la data
S’inscrire
© 2025 The Information Lab