GMail et le RDF

Vous vous souvenez que je vous parlais avant-hier de Shelf, et de la possibilité, intéressante selon moi, d'avoir un bot jabber à qui on pose des questions (du genre "qui a son anniversaire aujourd'hui" ou "c'est quoi l'adresse pro de Jérôme") et qui nous fournit des réponses pas idiotes ? Bon, comme diraient deux amis, ça chauffe dans le chaudron.
J'ai donc jeté un oeil un peu plus pointu à ces histoires de RDF, SPARQL, … et GMail.
Bon, évidement, la première chose qui arrive quand on se plonge là-dedans, c'est une bonne envie de vomir. Parce que bon, SPARQL, c'est tout sauf sympa, en fait. Cela dit, c'est extrêmement puissant. Regardez par exemple ce que les gens de DBTune s'amusent à faire avec xoperator et un back-end RDF de musique : Playing with SPARQL and XMPP. Bon, je ne vous en voudrai pas de ne pas tout comprendre, parce que le SPARQL, au niveau de la syntaxe bizarre, c'est un peu le grand champion, loin devant le SQL et le Brainf*ck. Cela dit, il faut bien reconnaître qu'avec un peu de traitement du langage naturel, on pourrait quasiment imaginer une interface demandant gentiment au back-end des informations, qu'il serait très content de nous fournir.
Et ce back-end, quel est-il ? Supposons plutôt, pour la beauté de la chose, que je parle de mon back-end. De quelles sources d'information j'aurais besoin pour alimenter ce genre d'usine à gaz unifiée ?
  • La wikipedia, bien sûr (euh, pardon, la DBPedia)
  • Mon blog, bien sûr (et alors ça c'est quand même pas trivial, de transformer en RDF du HTML tout simple).
  • Peut-étre même mes liens, parce qu'ils sont raisonnablement bien taggés, et du coup facilement accessibles.
  • Et peut-étre aussi StackOverflow, parce que c'est une base de connaissance sacrément bien qualifiée (surtout que les gens de l'entreprise éponyme sont de suffisement bons citoyens du web pour fournir réguliérement un data dump régulier … regardez ce data-torrent-RSS – il est moche, cet espéce d'acronyme, mais synthétise bien le contenu de la page : un flux RSS de liens vers des torrents ala torrentcast )
  • Enfin – et surtout – un peu de ma vie chez Google (parce qu'avec mes mails, mon flux RSS public qui n'est pas pour les enfants, et quelques autres choses, il y a moyen d'accumuler de l'information)
Et en fait, c'est surtout ça qui est chouette. Google met à disposition mes données publiques dans un format compatible avec RDF. Pour les données privées, il existe évidement des APIs pour tout, sauf les tÄches de GMail (c'est moche, mais c'est comme ça). Du coup, je pourrais tout à fait, si j'avais le temps et que je comprenais ces histoires de web of data, me faire un petit bot Jabber (oui, exactement, avec Gaelyk, je vois que vous suivez) qui accéde à toutes ces sources de données et me présente l'information sous une forme humainement lisible … Mais est-ce que j'ai le temps ?
Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s