Le Web Sémantique

Quelques projets

DataPortability

no pic

La portabilité des données désigne la possibilité de gérer soi-même ses données personnelles, de les porter d'un système à un autre, de les partager entre plusieurs systèmes.

DataPortability est le nom d'un projet dont le but est de définir un scénario type pour orchestrer les différentes technologies permettant d'implémenter la portabilité des données.

Dataportabiliy comporte une part de militantisme et suggère que les utilisateurs de sites internet ou de services en ligne sont fondamentalement propriétaires de leurs données et devraient en avoir le contrôle. Par données, on entend le login/mot de passe, le profil, le réseau d'amis, les centres d'intérêt, les photos, les vidéos, le statut.

no pic

DBpedia

no pic

DBpedia est un projet d'extraction de données de wikipédia pour en proposer une version Web sémantique. Ce projet est mené par l'Université de Leipzig, l'Université libre de Berlin et l'entreprise OpenLink Software.

En effet, Wikipedia est de loin l’encyclopédie la plus grande au monde et est accessible gratuitement sur le web. Les éditions de Wikipedia sont accessibles dans plus de 250 langues différentes avec une version anglaise contenant plus de 2 millions d’articles. Malheureusement Wikipedia fournit un moteur de recherche qui se limite à la recherche de texte et de mots clés, ce qui réduit considérablement l’accès à cette base de données de grande valeur. Le Web sémantique permet d’effectuer des requêtes explicites sur des informations structurées ainsi que sur des données liées sur différentes sources de données.

Mais le Web sémantique fait face à un problème de taille:

Le projet DBpedia se penche sur ces deux problèmes puisqu’il extrait des informations de Wikipedia, les structure, et les rend accessibles sous un format sémantique.

DBpedia est interconnecté avec GeoNames, MusicBrainz, CIA World Factbook, le projet Gutenberg et Eurostat, entre autres.

La base de données décrit 2,9 millions d'entités, incluant au moins 282 000 personnes, 339 000 lieux, 88 000 albums de musique, 44 000 films, 15 000 jeux vidéos, 119 000 organisations (dont 20 000 sociétés et 29 000 établissements d'enseignement), 130 000 espèces et 4400 maladies et contient 807 000 liens vers des images, 3,84 millions de liens vers des pages extérieures, 4,87 millions de liens vers des datasets externes, 415 000 catégories Wikipédia et 75 000 catégories YAGO.

Voici un graphique montrant les relations entre les différents services de DBpedia

no pic

Linking Open Data

no pic

Ce projet est mené par le W3C, son objectif est de référencer les plus grandes sources de données sémantiques.

L'objectif du groupe Semantic Web Education and Outreach du W3C est d'étendre le Web avec un bien commun de données en publiant divers ensembles de données RDF ouverte sur le Web par la mise en service de liens RDF entre les éléments de données provenant de différentes sources de données. En Octobre 2007, des bases de données composée de plus de deux milliards de triplets RDF sont liés entre elles par plus de deux millions de lien RDF. En mai 2009 ce chiffre était passé à 4,2 milliards de triplets RDF, reliés entre eux par environ 142 millions des liens RDF.

Voici un graphique montrant les relations entre les différents services de Linking Open Data:

no pic