Le Data Mining

Domaines d'application

Scroring

Le scoring consiste en marketing à affecter une note à un client ou un prospect. Le but est de déterminer le profil du client par rapport à l'activité de l'entreprise, et ainsi réduire le coût d'acquisition ou de conservation d'un client, en ciblant les opérations marketing sur les profils considérés les plus "réceptifs". Le scoring est par exemple utilisé chez les assurances, les banques ou encore les opérateurs téléphoniques. (ex : ne pas accorder un prêt à un client qui présente un profil reconnu par le datamining comme présentant un haut risque de non remboursement. )
Le Data Mining peut par exemple être utilisé pour déterminer quels sont les critères à prendre en compte pour considérer un client comme "réceptif".

Prévention du crime

Plusieurs expériences ont été menées dans ce domaine. Une utilisation aux USA a par exemple été d'identifier les associations de lieu et de plages horaires auxquelles les crimes se produisaient le plus, afin de renforcer la présence policière en conséquence.
Voir également cet article sur l'utilisation du datamining pour la réduction du vol à l'étalage.

Détection de fraudes

Dans les systèmes complexes gérant un nombre d'utilisateurs importants (les administrations par exemple), un problème se pose fréquemment : la fraude. Le Data Mining, utilise la classification sur les données. Ce mécanisme peut notamment permettre de détecter les données qui vont sortir de l'ordinaire, qui n'auront pas la même empreinte que les comportements "normaux". Certains comportements "normaux" peuvent également sortir de l'ordinaire et constitueront des faux positifs dans le cas de la détection de la fraude, mais c'est une méthode qui permettra de faire ressortir les cas à surveiller.

Poker !

Trois personnes ont utilisé en 2009 le datamining à l'encontre un joueur en ligne. Ils avaient non seulement utilisé les données des parties qu'ils avaient jouées contre ce joueur, mais étaient également allés jusqu'à acheter l'historique d'un autre joueur. Grâce aux données de plusieurs dizaines de milliers de mains, ils ont pu établir un profil extrêmement précis de leur adversaire et élaborer un plan, qui s'est avéré juteux, puisqu'en à peine 5 heures de jeu, plus de 4 millions de dollars ont été emportés.

En savoir plus


Ce dernier exemple montre bien l'étendue des domaines d'application du datamining : dès que les données sont nombreuses, c'est un outil puissant d'analyse (recherche médicale, reconnaissance vocale...).

Google, l'un des précurseurs

Google, très tôt, a été utilisateur des techniques de Data Mining, ce que l'on comprend aisement étant donné les volumes de données traités (rappel : 2 000 000 recherches/minute). Quelques outils utilisant le Data Mining :

Google est conscient de l'importance des données et ne le cache pas :

Storing and analyzing logs of user searches is how Google's algorithm learns to give you more useful results. Just as data availability has driven progress of search in the past, the data in our search logs will certainly be a critical component of future breakthroughs.

Google nous apprend donc que l'enregistrement et l'analyse des logs des recherches des utilisateurs est ce qui permet à Google d'améliorer ses résultats. Tout comme la disponibilité des données a été source d'avancées par le passé, Google anticipe que ce qui sera fait avec ces logs de recherche le sera à l'avenir.

Voici pourtant le format très simple d'un log de recherche enregistré par Google :
IP – Cookie – Recherche – Date & heure

C'est grâce à ces mêmes logs de recherche que Google est actuellement l'instance la plus efficace pour la détection et l'anticipation des épidémies de grippe, le site FluTrends a d'ailleurs été mis en ligne pour permettre a chacun d'observer l'évolution des recherches sur la grippe.

Partie suivante