À l’occasion du troisième WASP café France, j’ai eu le plaisir d’animer un atelier sur le web sémantique avec David Larlet. David y présentait le point de vue des RDFa, tandis que je soutenais celui des Microformats. Cette opposition de point de vue a permis de rythmer l’atelier avec des échanges intéressants, parfois à la limite du troll, mais cela n’a rien de surprenant.

Pourquoi le web sémantique

Les moteurs de recherche et autres outils de data mining se heurtent à un problème majeur : ils sont incapables de comprendre le sens des contenus mis en ligne par des êtres humains. Les limitations sont principalement dues à 2 facteurs :

  • Ils ne peuvent comprendre des média non textes ou non transposables au texte, comme une vidéo, ou une image.
  • Ils peuvent déterminer que des documents contiennent des chaînes de caractères, ou parfois leurs synonymes, ils sont en revanche incapables d’en saisir le sens.

À titre d’exemple, je cherchais récemment des offres d’emplois pour un directeur artistique sur un moteur de recherche spécialisé, et les résultats de première page concernaient :

  • Un directeur artistique.
  • Trois directeurs commerciaux.
  • Un directeur des ressources humaines.
  • Un agent de production artistique.

Une analyse sémantique de ma demande, par exemple à l’aide d’un dictionnaire des synonymes, aurait permis de faire remonter d’une part, les annonces correspondant exactement à ce que je recherchais, et d’autre part les annonces périphériques : web designer, infographiste…

Les Microformats, une réponse utile, utilisable et utilisée

Apparus en 2005, les Microformats tentent d’apporter une réponse immédiate au problème de la sémantique des contenus web, en se basant sur trois principes fondamentaux :

  • Répondre à des problèmes simples de façon simple.
  • Y répondre uniquement avec du HTML 4 et du XHTML 1.0 et supérieur standards.
  • Y répondre en se basant le plus possible sur des standards ouverts.

Afin de donner du sens (sic) à mon propos, j’ai présenté 3 microformats à travers des exemples de code concrets :

  • Le microformat rel-tag.
  • Le microformat hCard, pour les cartes de visite.
  • Le microformat hCalendar, pour les événements.
Les tags

Indûment appelé “tag Technorati”, le tag est probablement le plus répandu des Microformats, puisqu’à ma connaissance tous les outils de blogging le supportent maintenant par défaut.

J’ai longuement écrit sur les tags par le passé, aussi je vous invite à relire cet article : La recherche par tag, complément indissociable de la recherche sur le contenu si vous voulez en savoir un peu plus.

hCard

hCard est une transposition en 1:1 du standard vcard. Il sert à indiquer qu’une partie de page web décrit une carte de visite, et par la même une personne.

  <div class="vcard">
    <a class="fn n url" href="https://t37.net">
      Frédéric de Villamil
    </a>
    <div class="adr">
      <span class="type">Domicile</span>:
      <div class="street-address">12 rue Danton</div>
      <span class="postal-code">94270</span>
      <span class="locality">Le Kremlin-Bicêtre</span>,  
      <div class="country-name">France</div>
    </div>
    <div class="tel">
     <span class="type">Mobile</span> +33-6-62-1337
    </div>
    <div>Email: 
     <span class="email">frederic@de-villamil.com</span>
    </div>
  </div>
hCalendar

hCalendar est une transposition en 1:1 du standard ICalendar. Il permet d’indiquer qu’un morceau de page web décrit un événement.

  <p class="vevent">
    <a class="summary url" href="http://waspcafefrance.webstandards.org/-WaSP-cafe-du-17-04-08-.html">      Troisième WASP Café France</a>
    <abbr class="dtstart" title="2008-04-17T19:00">Jeudi 17 avril de 19 heures</abbr>
    <abbr class="dtend" title="2008-04-17T22:00">à 22 heures</abbr>
    <span class="location">IESA Multimédia - 5, rue Saint-Augustin 75002 Paris.</span>
  </p>

hCalendar est le plus controversé et problématique des microformats, à cause du détournement qu’il fait de la balise abbr.

Conclusion

Merci aux organisateurs du WASP café de nous avoir permis d’animer cet atelier, et à David d’avoir bien voulu le faire avec moi. J’espère avoir l’occasion d’y présenter d’autres sujets qui me tiennent à coeur.

Si je devais conclure l’atelier, je dirais que certes, RDFa est beaucoup plus générique que les Microformats, en ce qu’il donne non pas une description des informations mais un ensemble de règles pour les décrire, mais il est également particulièrement imbitable aussi bien à lire qu’à mettre en oeuvre. Au contraire, les Microformats, malgré quelques défauts, sont faciles à mettre en place, très utilisés, et disposent d’extensions puissantes permettant leur extraction et leur intégration sur la majorité des navigateurs.

Évidemment, ce dernier point est sujet à controverse troll et n’engage que moi, mais il me fallait bien en finir par là.

L'Ile saint louis, Paris

Perry the Platypus wants you to subscribe now! Even if you don't visit my site on a regular basis, you can get the latest posts delivered to you for free via Email: