Matrice de confusion, courbe ROC et AUC : les fondations de l’évaluation en Machine Learning
Pour évaluer la performance de nos outils de détection de fraude, nous nous appuyons sur la matrice de confusion, à partir de laquelle nous construisons et analysons la courbe ROC (Receiver Operating Characteristic) et son indicateur associé, l’AUC (Area Under the Curve).
La matrice de confusion nous permet, dans un premier temps, de visualiser les quatre scénarios possibles dans une tâche de classification binaire.
C’est quoi une tâche de classification binaire ?
Cela revient à construire un modèle capable de classer une situation en deux catégories possibles : « oui » ou « non ».
Prenons le cas des tests de dépistage du COVID-19 à l’époque, heureusement révolue, de la pandémie. Les tests pouvaient donner quatre scénarios possibles :
- Vrai positif : la personne avait le COVID et le test était positif.
- Vrai négatif : la personne n’avait pas le COVID et le test était négatif.
- Faux positif : la personne n’avait pas le COVID, mais le test était positif.
- Faux négatif : la personne avait le COVID, mais le test était négatif.
Transposé à la détection de la fraude, c’est exactement le même principe. Nous cherchons à ranger les individus dans les catégories : “ « fraudeurs » ou « non fraudeurs », comme au-dessus avec les catégories « malades » ou « pas malades ». Et cela, en faisant le moins d’erreurs de classification possible.
Chez Meelo, notre objectif est de :
- détecter un maximum de vrais positifs – les fraudeurs avérés ;
- chercher à minimiser les faux positifs – les clients identifiés à tort comme fraudeurs ;
- et surtout ne pas laisser passer les faux négatifs – les fraudeurs non identifiés comme tels.
À partir de la matrice de confusion, nous pouvons calculer des indicateurs clés, comme la courbe ROC (Receiver Operating Characteristic), qui illustre graphiquement les compromis entre la détection de la fraude (le taux de vrais positifs ou les fraudes correctement détectées) et les erreurs d’alerte (le taux de faux positifs, autrement dit les transactions légitimes signalées à tort) pour différents seuils de décision.
En faisant varier les seuils de décision ou « seuils d’alerte » (comme on pourrait faire varier la sensibilité du test COVID pour détecter le virus), on obtient différents points sur la courbe, reflétant les performances du modèle dans divers scénarios.
L’AUC (Area Under the Curve), ou « Aire sous la courbe » en français, mesure la surface sous la courbe ROC. Pouvant donner une valeur comprise entre 0.5 et 1, l’AUC représente la capacité globale du modèle à distinguer les fraudes des transactions normales, en tenant compte de tous les seuils de décision. Plus l’AUC est proche de 1, meilleure est la performance du modèle. Une AUC de 0,5 indiquerait que le modèle ne ferait pas mieux que le hasard, comme un simple tirage à pile ou face.
De l’AUC au Gini, il n’y a qu’un pas…
Le Coefficient de Gini est dérivé de l’AUC. Alors que l’AUC prend une valeur comprise entre 0,5 et 1, le Gini normalise cette mesure pour la faire varier entre 0 et 1, ce qui est souvent plus intuitif. Mathématiquement, le Gini se calcule, à partir de l’AUC, selon la formule :
Gini = 2 × AUC − 1
Le Gini varie donc entre 0 et 1 (ou 0 % et 100 %). Plus il est élevé, meilleur est le pouvoir de discrimination du modèle. Tout comme l’AUC, un coefficient de Gini de 0.5 (50 %) correspond à un modèle aléatoire (pile ou face), tandis qu’un Gini de 1 (100 %) représente un modèle parfait.
Le Coefficient de Gini est une métrique largement adoptée, notamment dans le secteur bancaire, pour évaluer l’efficacité globale d’un modèle de scoring.
Pourtant, malgré sa popularité, il présente une limite cruciale. Il se concentre principalement sur la capacité globale du modèle à discriminer entre les « bons » et les « mauvais » profils, sans tenir compte, ni du déséquilibre entre les classes, ni de la distribution des scores de probabilité, ni de la confiance que l’on peut accorder à chaque prédiction individuelle.
Dans les cas où les classes sont fortement déséquilibrées (par exemple, 99 % de négatifs et 1 % de positifs), le Gini peut surestimer les performances du modèle. C’est précisément ce que nous observons dans la plupart des problématiques rencontrées chez nos clients. Les taux de fraude sont heureusement faibles : souvent autour de 1 à 2 % des transactions.
Le Gini donne donc une bonne indication globale de l’efficacité d’un modèle, mais se limite à une vision brute des performances, sans tenir compte de l’explicabilité des prédictions.
C’est pourquoi Meelo a choisi d’intégrer dans ses outils une autre métrique en complément du Gini : le Brier Score.
Vers le Gini et au-delà… grâce au Brier Score !
Contrairement au Gini, qui mesure la capacité du modèle à séparer les bons et les mauvais profils, le Brier Score évalue si nos scores de probabilité sont proches de la réalité. Par exemple, si notre modèle prédit 80 % de chance de fraude, le Brier Score vérifie si, en moyenne, ce type de cas est effectivement frauduleux dans 8 cas sur 10.
Imaginons deux modèles avec un coefficient de Gini équivalent. Le premier attribue des scores très tranchés (proche de 0 ou de 100 %), tandis que le second concentre la majorité de ses prédictions autour d’une zone grise (comprise, par exemple, entre 40 et 60 %). Bien que leur capacité de discrimination globale puisse être comparable, le premier modèle inspire davantage confiance, car il semble plus fiable dans ses décisions.
C’est précisément cette notion de fiabilité que le Brier Score vient mesurer en évaluant l’écart entre la probabilité prédite par le modèle (80 % de risque par exemple) et le résultat observé (0 ou 1). Plus cet écart est faible, plus les prédictions sont cohérentes et proches de la réalité.
Quels sont les avantages du Brier Score ?
Chez Meelo, nous sommes convaincus de la pertinence du Brier Score. Grâce à cette métrique performante :
- nos décisions sont plus éclairées, car nous ne nous contentons pas de séparer les bons des mauvais, nous évaluons la certitude de chaque prédiction ;
- nous générons moins de “ zones grises ” : l’optimisation du Brier Score pousse nos modèles à générer des scores plus extrêmes, réduisant les risques et les vérifications supplémentaires, synonymes de coûts et de friction dans le parcours client ;
- notre approche est encore plus éthique : les politiques conservatrices sont évitées au maximum grâce à des décisions plus pointues basées sur une réelle conviction du risque ;
- nos utilisateurs sont plus satisfaits : en offrant une perspective complémentaire au Gini, le Brier Score permet à nos clients de mieux appréhender la fiabilité et la distribution des scores de fraude.
Et le Brier Skill Score, kézaco ?
Pour faciliter l’interprétation du Brier Score, nous utilisons souvent le Brier Skill Score (BSS). Le BSS mesure si notre modèle de prédiction est plus performant qu’un modèle de référence simple. Plus le score est élevé, plus notre modèle est précis dans ses prédictions. C’est notre façon de valider que notre modèle apporte réellement de la valeur ajoutée à nos clients.
Optimisation des métriques d’évaluation : les résultats parlent d’eux-mêmes
Lors du ré-entraînement de nos modèles, l’intégration du Brier Score a permis d’améliorer significativement nos performances. À données égales, le score est passé de 35 à un peu plus de 60 points, soit un gain de 30 points.
Nous identifions donc plus de fraudes et de manière plus formelle. Cette approche garantit la fiabilité de nos prédictions et réduit le risque que le modèle se comporte de manière instable face à des profils atypiques.
Chez Meelo, nous sommes convaincus que la performance d’un modèle de détection de fraude ne se limite pas à sa capacité de discrimination globale. En allant au-delà des indicateurs standards, nous construisons une confiance solide grâce à une détection de la fraude véritablement éclairée et nous apportons à nos clients une solution à la fois performante et responsable.
Vous souhaitez échanger avec nos experts anti-fraude et aller plus loin dans l’analyse de vos scores ?