BI - Business Intelligence

Les étapes du processus

Un système d'information décisionnel assure quatre fonctions que sont la collecte, l'intégration, la diffusion et la restitution des données.

Le principe de fonctionnement d’un SID peut être résumé par le schéma suivant :

Principe de fonctionnement

Diverses sources de données d’entreprise sont utilisées en entrée pour être mises en commun dans un datawarehouse. Ces données peuvent ensuite être réparties en divers datamarts, chacun physiquement représenté par une base de données multidimensionnelle. Ces données sont ensuite mises à disposition des utilisateurs et décideurs par divers moyens. Généralement elles sont mises en forme dans des tableaux de bords et rapports avant de leur être présentées via un serveur web.

La collecte

La première étape de collecte des données va permettre à terme de produire les indicateurs nécessaires au périmètre du SID. Pour cela il convient d'aller chercher les données où elles se trouvent. Les données applicatives métier sont stockées dans une ou plusieurs bases de données correspondant à chaque application utilisée.

La collecte est donc l'ensemble des tâches consistant à détecter, à sélectionner, à extraire et à filtrer les données brutes issues des environnements pertinents pour obtenir des indicateurs utiles dans le cadre de l’aide à la décision. Les sources de données internes et/ou externes étant souvent hétérogènes tant sur le plan technique que sur le plan sémantique, cette fonction est la plus délicate à mettre en place dans un système décisionnel complexe.

Ces données applicatives sont donc extraites, transformées et chargées dans un entrepôt de données (ou datawarehouse) par un outil de type ETL (Extract-Tranform-Load) ou en français ETC (Extraction-Transformation-Chargement).

Ainsi un outil d’ETL permet la synchronisation de données de tous types dans notre datawarehouse et nos datamarts

Un ETL repose sur des connecteurs permettant l’extraction ou l’importation des données de types divers (bases de données de tout type, fichiers xml ou autres formats, …) et sur des transformateurs qui manipulent les données : agrégations, filtres, conversions, mises en correspondance. Ainsi un tel outil va aller chercher les données d’une entreprise, les transformer pour les mettre en commun et les rendre utilisables dans le cadre de l’aide à la décision pour enfin les injecter dans un entrepôt de données.

Ces actions peuvent être effectuées de manière périodique via l’utilisation de batchs. Par exemple l’action d’extraction, de transformation et de chargement peut être lancée tous les soirs à minuit lorsque plus aucune application n’est utilisée.

L'intégration

Cette deuxième étape est l’intégration des données. Une fois les données centralisées par un outil d’ETL, celles-ci doivent être structurées au sein de l'entrepôt de données. Cette étape est toujours faite par un ETL grâce à un connecteur permettant l’écriture dans le datawarehouse. L’intégration est en fait un pré-traitement ayant pour but de faciliter l’accès aux données centralisées aux outils d'analyse.

Ainsi l'intégration consiste à concentrer les données collectées dans un espace unifié, dont le socle informatique essentiel est l'entrepôt de données. Ce dernier est l’élément central du dispositif dans le sens où il permet aux applications d’aide à la décision de bénéficier d'une source d'information homogène, commune, normalisée et fiable. Cette centralisation permet surtout de s’abstraire de la diversité des sources de données.

Lors de cette étape les données sont transformées et filtrées en vue du maintien de la cohérence d'ensemble (les valeurs acceptées par les filtres de l’outil d’ETL de la fonction de collecte mais qui peuvent introduire des incohérences dans les données centralisées sont soit rejetées, soit intégrées après une phase d’adaptation)

Enfin, c'est aussi durant cette étape que sont effectués les éventuels calculs et agrégations communs à l'ensemble du SID.

La diffusion

Cette étape de diffusion met les données à la disposition des utilisateurs. Elle permet la gestion de droits d’accès et respecte donc des schémas correspondant au profil ou au métier de chacun. Ainsi l'accès direct à l'entrepôt de données n’est pas autorisé. En effet ce genre de pratique ne correspond généralement pas aux besoins des décideurs ou analystes. L'objectif principal de l’étape de diffusion est de segmenter les données collectées en contextes qui soient cohérents, simples à utiliser et qui correspondent à une activité décisionnelle particulière (par exemple aux besoins d’un service particulier). En comparaison de l’entrepôt de données peut héberger de nombreuses variables ou indicateurs, un contexte de diffusion n'en présente que quelques dizaines pour rester simple d’exploitation. Chaque contexte peut correspondre à un datamart, bien que le stockage physique ne soit pas sujet à des règles particulières. Généralement un contexte de diffusion est multidimensionnel : il est modélisable sous la forme d'un hypercube et peut donc être mis à disposition via un outil OLAP.

Enfin les différents contextes d'un même SID n'ont pas forcement tous besoin du même niveau de détail selon la cible visée. En effet de nombreux agrégats n'intéressent que certaines applications et ne sont alors donc pas considérés comme des agrégats communs. Ces cumuls ne sont donc pas gérés par la fonction d'intégration mais par la diffusion. Ils peuvent être soit calculés dynamiquement soit stockés de manière persistante.

La restitution

Cette dernière étape, également appelée reporting, se charge de présenter les informations à valeur ajoutée de telle sorte qu'elles apparaissent de la façon la plus lisible possible dans le cadre de l’aide à la décision. Les données sont principalement modélisées par des représentations à base de requêtes afin de constituer des tableaux de bord ou des rapports via des outils d'analyse décisionnelle.

Cette quatrième fonction, la plus visible pour l'utilisateur assure le fonctionnement du poste de travail, le contrôle d'accès aux rapports, la prise en charge des requêtes et la visualisation des résultats sous quelque forme que ce soit.

Le reporting est l'application la plus utilisée dans l’informatique décisionnelle, il permet aux décideurs :

Les programmes utilisés pour le reporting permettent de faire varier certains critères pour affiner l’analyse. Des instruments de type tableau de bord équipés de fonctions d'analyses multidimensionnelles de type Olap sont aussi utilisés pour cette dernière étape du SID.

Les cibles d’un SID

L’informatique décisionnelle peut-être destinée soit à un petit nombre d'utilisateurs que sont des décideurs à haut niveau soit à un périmètre très large d'utilisateurs dans l'entreprise dans le cadre du reporting de masse. Dans ce dernier cas les requêtes sont pré-paramétrées et ne peuvent pas être affinées, l'objectif étant de réduire au maximum la charge. Le besoin des décideurs de haut niveau se tourne vers une analyse poussée, qu'il est possible d'affiner en reformulant différemment la requête. Les logiciels répondant à ce besoin (comme Business Objects) sont regroupés derrière l’appellation "applications analytiques".