Le web: une base de données géante et dynamique


Web sémantique, linked-data web, ambiant web… tous ces termes existent depuis 2 ou 3 ans mais ils commencent enfin à signifier quelque chose de concret. Le mois dernier Stephen Wolfram, le créateur du fameux logiciel Mathematica, a lancé son moteur de recherche Wolfram Alpha. Ce moteur permet de chercher (ou plutôt de cruncher mais je ne trouve pas comment dire ça en français, Jean-claude Van Damme syndrom…) directement les données et non les pages web. Cela signifie qu’une requête dans un moteur de recherche renvoie une réponse (une donnée) et non une page qui contient la donnée.

Illustration de Wolfram Alpha

Illustration de Wolfram Alpha

En tapant dans Wolfram Alpha la requête « french population » vous obtiendrez la population française, son évolution dans le temps, la densité…  En tapant  « germany population/ french population » le moteur vous donnera bien le ratio de la population  l’Allemagne par rapport à la France ainsi que son évolution dans le temps et non une page qui contient la donnée sur la population Allemande (typiquement celle de wikipedia grâce ou à cause du fameux pagerank de Google).  Impressionnant. On peut faire le même test avec des noms de sociétés cotées (vous obtenez tous les indicateurs financiers classiques sur une action ou une entreprise), un lieu (altitude, météo, distance…) et les exemples sont nombreux.

Si ce moteur peut donner ces réponses aussi rapidement c’est en partie grâce aux bases de données ouvertes et reliées qui naissent chaque jour (DBpedia, freebase,… cf  l’image ci dessous). J’ai déjà parlé de ce type de base de données dans un précédent post sur parallax un moteur basé sur la base freebase.

Bases de données ouvertes et liées

Bases de données ouvertes et liées

Image source

Il y a 3 mois Tim Berners-Lee, le « créateur » du World Wide Web, a fait une présentation lors de la conférence TED sur les linked-data et leurs impacts sur le web et notre vie de tous les jours. Je vous conseille de prendre le temps de l’écouter.

Le roi des moteurs Google ne pouvant pas rester insensible, vient d’annoncer le lancement de Google Squared qui tente de donner des résultats sous forme de liste. En faisant par exemple une requête pour le mot chien vous trouverez la liste des races de chiens, leur poids moyen etc. Pour l’instant Google Squared n’est pas toujours pertinent mais on y retrouve l’idée de renvoyer des séries de données plutôt que des pages web.

Ces données structurées renvoyées par ces nouveaux moteurs n’ont pas forcément vocation à être lues directement par l’homme mais elles peuvent être directement exploitées par des logiciels et autres outils. Des exemples d’utilisation de ces données sont nombreux et je reviendrai sur des applications concrètes dans un prochain billet mais si vous ne pouvez pas attendre allez faire un tour sur le blog OusefulInfo qui est un maitre sur l’utilisation des données structurées (il est aussi un maitre de Yahoo!Pipes dont je parlerai prochainement).

Alors les données liées c’est un truc de geek ou une vraie révolution?

, , , , , ,

  • http://plusieurs Jacques De Schryver

    Cette magnifique image, j’aimerais l’utiliser pour illustrer quelques idées de mon doctorat d’économie en cours :
    ‘Economie de la pensée dans la prévention et l’éradication des bugs logiciels’
    … me rappelle un tableau géant dans les Guignols de l’info, illustrant les liens entre les multinationales liées à Canal +.
    En prime, regardez sur le site de Douglas Lenat l’historique du projet Cyc. C’est la même chose, sous une autre forme…

  • Rettt

    rouh ta3ti