Le Web Sémantique

Concepts

Qu'est ce que des données liées ?

La panoplie de technologies du Web sémantique (RDF, OWL, SKOS, SPARQL, etc.) fournit un environnement où les applications peuvent manipuler des données, effectuer des inférences en employant des vocabulaires, etc.

Les données liées résident dans le cœur de ce qu’est le Web sémantique. Leur intérêt est de réaliser un lien permettant à partir d’une donnée d'obtenir l’ensemble des données qui peuvent en découler.

DBpedia par exemple, est un projet d'extraction de données de Wikipédia pour en proposer une version web sémantique. Or DBPedia se révèle bien plus puissant en terme de source d’information car elle est interconnectée avec d’autres sources de données sur le Web comme Geonames ou MusicBrainz, etc. Par la présence de ces liens (ou triplet RDF), les applications peuvent obtenir davantage d’informations pour être bien plus précises.

Vocabulaires & Ontologies

Dans le Web sémantique, un vocabulaire représente un ensemble de termes utilisés pour étiqueter, décrire des données.

Le modèle RDF Schema, fondé sur RDF, permet de définir des vocabulaires. Le langage OWL, fondé sur RDF et RDFSchema, étend les possibilités de RDF Schema et permet de décrire des vocabulaires extrêmement riches : on parle alors d'ontologies.

Mais qu'est ce qu'une ontologie?

Le point de vue de l'Ingénierie des Connaissances :

une définition, au sens large :

On peut adopter pour la notion d’ontologie la caractérisation suivante de Uschold :

une définition, au sens strict :

Derrière le terme “ontologie” se cachent des objets très divers [Noy & Hafner, 97]

Le point de vue de l'Ontologie :

Une définition encore plus stricte :

Le point de vue de la Linguistique :

A quoi répond l'ontologie :

Elle répond à un besoin de partager la signification de termes dans un domaine donné.

Elle entraîne la standardisation du vocabulaire.

Elle enrichie l’ingénierie des systèmes d’information [Guarino, 98]

Elle permet une meilleure exploitation des sources d’informations

Concernant les technologies actuelles, voici une liste de vocabulaires ayant atteint un certain stade de maturité pris en charge par une communauté de concepteurs ou utilisateurs suffisante pour garantir ou espérer la pérennité du vocabulaire.

Définir et utiliser des ontologies est indispensable pour permettre de lier les informations disponibles sur le Web sémantique, encore faut-il pouvoir effectuer des requêtes pour pouvoir les obtenir.

Requêtes

Comme pour les bases de données relationnelles ou XML, le Web sémantique a besoin d'un langage de requêtes spécifiques.

SPARQL permet d'envoyer des requêtes et de recevoir des résultats, par exemple, via HTTP ou SOAP.

Techniquement, les requêtes SPARQL sont basées sur des triplets.

SPARQL permet d'extraire des informations complexes par l'agrégation de multiples sources de données.

Inférence

Une inférence est un processus de raisonnement qui s’appuie sur des connaissances acquises, et qui s’articule autour de règles fondamentales pour permettre d’obtenir de nouvelles informations.

Les grandes catégories d’inférences (1ère dimension)

Les grandes catégories d’inférences (2ème dimension)

Les grandes catégories d’inférences (3ème dimension)

Les grandes catégories d’inférences (4ème dimension)

Les catégories d'inférences en tête, prenons d'autres exemples pour faciliter la compréhension :

L'approche SGBD classique suit un processus du type :

{ structurer / architecturer -> informer / renseigner }

L'approche du Web sémantique suit un processus du type :

{ informer / renseigner -> structurer / architecturer à la volée }

Le moteur d’inférence va rajouter des nouvelles informations à partir des informations existantes.

C’est lui qui vient donner tout son sens au reste de la pyramide des technologies du Web sémantique (XML, URI, RDF, OWL), en interprétant et « motorisant » une ontologie.

Actuellement, plusieurs moteurs d'inférences gratuits ou commerciaux tels que Racer, Pellet, Fact, Fact++, Surnia, F-OWL et Howlet existent.

La plupart de ces moteurs sont conçus pour raisonner sur les logiques de description, mais acceptent en entrée des fichiers OWL. Certains moteurs d'inférence ne peuvent raisonner qu'au niveau terminologique (c'est-à-dire au niveau des concepts et des propriétés) alors que des moteurs comme Pellet et Racer permettent de raisonner aussi sur les instances de concepts.