En marge de ma présentation des Microformats samedi au BarCamp Paris, j’exposais les raisons qui me faisaient voir la recherche par tag comme un complément indissociable de la recherche sur le contenu.

Les tags

Les tags sont parmi les plus répandus parmi la grande famille des Microformats. Un tag est un lien hypertexte contenant un mot clé servant à donner un sens sémantique à un contenu quel qu’il soit : texte, image, vidéo…
Les tags se présentent sous la forme suivante :

<a href="https://t37.net/tags/toto" rel="tag">toto</a>

Le lien contenu dans le tag peut pointer soit vers une source faisant autorité dans le domaine indiqué dans le mot clé – ici toto – soit vers une page interne du site regroupant l’ensemble des media auquel se trouve associé ce tag, soit vers un moteur de recherche de tags, comme Technorati ou Necctar afin de lister l’ensemble des sites ayant publié un media utilisant le tag correspondant.

Un tag n’est pas

– Une catégorie, même s’il s’y apparente. Une catégorie implique une relation hiérarchique du contenu à un ensemble plus grand. Le tag pointe vers un concept auquel se rapporte un contenu donné de manière significative.
– Un meta tag.

Il existe deux différences fondamentales entre les meta tags utilisés dans les années 90 et le microformat rel-tag :

  1. Là où les meta tags étaient des données contenues dans l’en-tête de la page et s’appliquaient à la page entière, les tags s’appliquent à n’importe quel contenu, et il est possible d’en placer autant que souhaité n’importe où dans une même page (dans des endroits significatifs).
  2. Les meta tags étaient des données invisibles contenues dans l’en-tête des. Le microformat rel-tag doit obligatoirement apparaître sur la page.
    À noter que techcrunch ne respecte pas cette norme en appliquant un display: none; à ses tags sur la page principale.

Notre manière d’envisager le Web a profondément changé

En douze ans, notre manière de concevoir le web a profondément changé. Nous avons tenté d’appliquer un modèle connu – la forme imprimée, avec ses hiérarchies, ses codes et ses limites – à quelque chose de totalement nouveau, inconnu et pas forcément adapté au premier – le web, avec la notion d’hypertexte qui vient bouleverser ce que nous connaissions jusqu’alors. Le résultat : beaucoup d’erreurs et de tâtonnements pour faire de http quelque chose pour lequel il n’était pas vraiment fait.
Notre manière d’envisager le web passa ainsi par trois phases :

Le modèle de référence a d’abord été le site ; souvent mono thématique, contenant peu de pages, et d’une interactivité rien de moins que limitée – PHP n’existait pas et il fallait coder ses CGI en C – le concept d’hypertexte y était tout sauf exploité. La principale préoccupation des happy fews ayant pignon sur web était d’afficher leur présence.

Aux alentours de 1997, la première bulle Internet change radicalement la donne. Le modèle de référence pour envisager le contenu se fait plus précis, et se recentre du site vers la page. On doit cette mutation à l’apparition des “portails” : des pages uniques sensées permettre un accès à l’ensemble de la connaissance humaine (j’exagère à peine). L’important : parler – souvent mal et de manière incomplète sur un fond de présentation aussi claire qu’un tunnel de métro un jour de grève des électriciens – de tout ce qui concerne peu ou prou les activités de l’entreprise.
L’obligation de présence sur le Web se double alors d’une obligation d’omniscience et d’exhaustivité, et les pages “en construction” sont légion sur les sites en production.

Depuis 2001, les choses évoluent doucement dans le bon sens, même s’il reste encore énormément de progrès à faire. Le modèle de référence passe de la page au contenu en lui-même : article, photo, vidéo, le support compte moins que le message qu’il tente de faire passer. Le Web devient “social”, et la pertinence d’un contenu n’est plus seulement fonction de celui qui l’a publié, mais aussi du retour des utilisateurs, même si une certaine idolâtrie en faveur de certaines entreprises ou de certains groupements biaise parfois le jugement de certains (W3C, Micrsoft, Google…) De nombreux sites fonctionnant sur les modèles sociaux – les amis de mes amis sont mes amis – (Orkut, MySpace, Digg) ou communautaires (Wikipedia, wikis en géneral) éclosent un peu partout et connaissent un succès phénomenal.

La quantité croissante de contenu disponible et l’émiettement de celui-ci entre des sources souvent inexactes et dissonantes, voire discordantes, chaque jour un peu plus nombreuses entraînent un problème de rapport signal / bruit particulièrement disproportionné. Pour rappel, le rapport signal / bruit est le différentiel entre la quantité et la disponibilité d’informations pertinentes et les informations parasites sur un sujet donné. La vitesse et la densité de propagation des informations parasites sont fonction de l’importance sociale de l’émetteur et d’un facteur de diffusion de la nouveauté – surtout si elle est sensationnelle – particulièrement important sur Internet.

Peu à peu, la nécessité d’un Web sémantique se fait jour dans les esprits, et les tout premiers Microformats apparaissent dans le courant de l’année 2005 : XFN (XML Friends Network, successeur du défunt FOAF, Friend Of A Friend) qui permet de faire une cartographie sociale des liens hypertextes, rel-nofollow comme une parade le spam sur le système de ranking de Google, avec le désastre final que l’on sait, et surtout rel-tag qui permet de qualifier très précisément ce à qui se rapporte un contenu.

Quelques limites de la recherche sur le contenu

Il existe de nombreuses limites à la recherche sur le contenu telle qu’elles est pratiquée aujourd’hui par les acteurs du marché, nous évoquerons les deux principales :

la recherche sur le contenu peut manquer de pertinence.
Un article sur un sujet donné publié par un site Internet au “pagerank” élevé risque de passer devant un article publié par un site faisant vraiment autorité dans le domaine, mais moins bien classé par les moteurs de recherche. Il est ainsi – à titre d’exemple – anormal qu’un site obtienne les seconds et sixième rangs sur Google pour les recherches sur “grosse bite” et “belle bite” avec des photos de… bittes d’amarrage à la légende plus que douteuse (et une belle faute de français que je n’avais pas remarquée en légendant les photos au passage).

La recherche sur le contenu ne prend pas le sens en compte.
Le fait que que j’effectue une recherche sur “vache” implique soit que je cherche des contenus sur les vaches, soit que je cherche des contenus contenant le mot vache. Certes, dans ce cas précis, j’ai peu de chances de me tromper, mais la richesse d’une langue est telle que je ne peux être certain de tomber juste à 100%. Si cela se trouve, l’article le plus pertinent concernant les vaches ne contient pas une seule fois ce mot précis.

La recherche sur le contenu n’est pas polyglotte.
On rejoint là la limitation sur la prise en compte du sens : prendre en compte la traduction mot à mot de la requête de recherche n’implique pas une prise en compte du sens réel de l’expression dans la langue de destination. La recherche sur le contenu ne peut donc retourner des résultats dans des langues différentes sans un énorme risque d’erreur, d’autant plus que le langage employé sur le Web se rapproche plus du langage parlé que de la langue écrite. À titre d’exemple, “avoir un Polichinelle dans le tiroir” signifie “être enceinte” en français, tandis que “to have a puppet in the drawer” signifie simplement “avoir un polichinelle dans le tiroir”.

Les apports de la recherche par tags

La recherche par tags permet de pallier au problème du sens.
Si le sens d’un contenu (texte, image, vidéo) est compréhensible par un être humain, il ne l’est pas par une machine. Le fossé se creuse encore plus quand il s’agit de paraboles, d’allégories ou de métaphores. Les thématiques générales de l’article sont contenues dans les tags bien plus que dans le contenu. À titre d’exemple, un article sur le cancer du pis chez la noiraude afghane peut ne pas utiliser une seule fois le mot “vache”. Pourtant, il paraîtrait normal de le marquer avec le tag “vache”.

La recherche par tags apporte un surcroît non négligeable de précision.
À ce jours, mon blog personnel contient un peu plus de 1500 billets regroupés dans seulement une quinzaine de catégories. On se heurte à un double problème : soit je reste dans cette configuration, et les catégories perdent en pertinence et précision, soit je rajoute un nombre conséquent de catégories et celles-ci perdent toute leur signification.

La recherche par tags permet d’utiliser au maximum le concept d’hypertexte.
Le tag renvoie soit vers un moteur de recherches de tags, qui renverra l’utilisateur vers une liste d’articles contenant le même tag, soit vers une page interne répertoriant la liste des média contenant le même tag, et éventuellement une liste de tags liés, soit vers un site faisant référence dans le domaine du tag. Il est ainsi possible de naviguer simplement au fil d’informations pertinentes ou dérivées.

Les limites de la recherche par tags

J’ai beau être un fervent apôtre de la recherche par tags et d’une mauvaise foi légendaire, je ne peux pas ne pas lui reconnaître des limites évidentes (à la recherche par tags, pas à ma mauvaise foi).

La recherche par tags implique que les utilisateurs soient intelligents.
La recherche par tags implique que tous les contenus soient taggés, et ce de manière intelligente. Elle implique notamment une honnêteté sans faille de la part de l’auteur du contenu qui ne devra y apposer que des tags correspondant véritablement à sa publication. Autant dire que je n’y crois pas, même dans mes rêves les plus fous.

Les tags ne sont pas généralisés.
Relativement nouveau, le système de tags est relativement peu répandu dans les contenus publiés aujourd’hui sur le Web, et totalement absent de ceux publiés durant les 12 dernières années. Au point que le moteur de recherche Technorati considère les catégories des blogs comme des tags afin de gonfler artificiellement la quantité d’informations disponible. Il s’agit d’ailleurs d’une utilisation abusive et erronée du rel-tag : la catégorie est un élément englobant le média concerné et ses pairs de manière peu précise avec une approche hiérarchique tandis que le tag renvoie vers des contenus sémantiquement semblables avec une approche hypertexte.

La recherche par tags est nécessaire mais pas suffisante.
La réussite d’une recherche par tags implique que l’utilisateur saisisse le bon tag dans le formulaire de recherche, et qu’il veuille effectivement faire une recherche sur ce tag. En un mot, elle nécessite que le moteur de recherche comprenne les objectifs de l’utilisateur au moment de sa recherche. L’utilisation d’un nuage de tags liés (tags similaires au tag recherché, soit parce que le plus souvent associés à celui-ci dans des billets connexes soit parce que contenus dans les billets sur lesquels pointent le lien du tag) ne peut apporter une précision de 100% quand à l’utilisation de synonymes. C’est tout le problème du Perl : There is more than one way to do it (ceci est un troll assumé).

Le (X)HTML n’est pas sémantique par nature.
De par sa raison d’être, le (X)HTML ne devrait s’occuper que de l’affichage d’un contenu sans prendre en compte le rendu d’aucune manière que ce soit. Pareillement, le (X)HTML est totalement ignorant du sens du contenu qu’il doit afficher. Deux “écoles” de pensée s’opposent à ce sujet : celle qui pense que le (X)HTML ne peut et ne doit pas être sémantique, et les ayatollahs d’un Web sémantique (dont je fais partie) qui pensent qu’il faut reprendre le Web aux machines pour le restituer à l’être humain, quitte à dénaturer un peu le balisage puisque celui-ci a la gentillesse de nous en offrir les moyens (“rel=”, “ref=” et “class=”) sans entraîner d’incompatibilité avec l’existent.

Les tags n’empêchent pas la triche au “pagerank”.
Tant que la pertinence et l’importance d’un site seront – entre autres – fonction du nombre de liens entrants, la triche au “pagerank” continuera. Il devient aujourd’hui nécessaire d’élaborer un autre système de calcul du “pagerank” en prenant en compte les données sémantiques contenues dans les tags, sans pour autant abandonner les autres critères actuellement utilisés. Il en résultera un besoin plus important de ressources, mais au prix d’un rapport signal / bruit moindre, et donc d’une pertinence améliorée.

Perry the Platypus wants you to subscribe now! Even if you don't visit my site on a regular basis, you can get the latest posts delivered to you for free via Email: