Entrepot de Donnees


Introduction

Problematique

Les décideurs d'une entreprise doivent pouvoir répondre à un certain nombre de question pour diriger leur entreprise :
Qui sont mes clients ?
Pourquoi sont ils mes clients ?
Comment cibler ma clientèle ?
Quel est l'évolution de tel produit ?
Qui sont mes employés ?
...
L'objectif est donc d'apporter aux décideurs d'une entreprise les moyens de répondre à ces questions.

Utilite d'un datawarehouse

Les sources de données d'une entreprise proviennent essentiellement des bases de production. Ces données sont éparpillées dans des systèmes multiples, pas nécessairement compatibles entre eux. Ces bases sont conçues pour être efficaces pour les fonctions sur lesquelles elles sont spécialistes. Elles sont donc peu structurées pour l'analyse, avec souvent comme objectif principal de conserver l'information. Comme bases de production elles sont focalisées sur les fonctions critiques de l'entreprise, et doivent être en mesure de servir l'utilisateur avec un temps de réponse rapide et structurées dans ce but.
Ces systèmes sont donc peu adaptés à la vision à long terme et donc à la prise de décision. Le datawarehouse va avoir pour objectif d'agréger et de valoriser ces données provenant de différentes sources. Il va permettre à l'utilisateur d'y accéder de manière simple et ergonomique.

Definition

Définition de Bill Inmon (1996):
« Le DataWareHouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d'un processus d'aide à la décision. »

Orientés sujet : Les bases de production sont le plus souvent organisées par processus fonctionnels. Le datawarehouse est lui organisé autour des sujets majeurs de l'entreprise. Les données sont donc structurés par thèmes, ces thèmes étant souvent transverses par rapport aux structures fonctionnelles et organisationnelles de l'entreprise (et donc transverses par rapport aux systèmes de production).
Illustration 1: Orienté sujet (source : C Vangenot, Laboratoire de Bases de Données)

Données intégrées : Les données proviennent de plusieurs sources différentes. Avant d'être intégrées au sein du datawarehouse elles doivent être mise en forme et unifiées afin d'en assurer la cohérence. Cela nécessite une forte normalisation, de bénéficier d'un référentiel unique et cohérent ainsi que de bonnes règles de gestion. Cette phase est très complexe et représente une charge importante dans la mise en place d'un datawarehouse.
Illustration 2: Données intégrées (source : C Vangenot, Laboratoire de Bases de Données)

Données historisées : Contrairement au système de production les données ne sont jamais mises à jour. Chaque nouvelle données est insérées. Un référentiel de temps doit être mis en place afin de pouvoir identifier chaque donnée dans le temps.
Données non volatiles : Un datawarehouse veut conserver la traçabilité des informations et des décisions prises. Les données ne sont ni modifiées ni supprimées. Une requête émise sur les mêmes données à plusieurs mois d'intervalles doit donner le même résultat.
Un datawarehouse définis donc à la fois un ensemble de données et un ensemble d'outils. Il s'agit de données destinés aux décideurs, qui sont souvent une copie des données de production avec une valeur ajoutées (orientés objet, agrégés, historisées). Et c'est un ensemble d'outils permettant de regrouper les données des différentes sources, de les nettoyer et de les intégrer, ainsi que d'y accéder de différentes manières (requêtes, rapport, analyse, datamining).