jeudi 12 novembre 2009

Pourquoi vous ne pouvez pas vous fier aux mots clés ?

Le référencement par mots clés* est une voie empruntée par de nombreux dispositifs de gestion de connaissances. Pourtant, il est aujourd'hui inadapté dans la majorité des cas. En effet, rien ne garantit que les mots clés choisis par le contributeur d'un document corresponde à la requête d'un collaborateur ayant besoin de ce document. Aussi, les outils de recherche en plein texte et les classements rendent superflue l'attribution de mots clés aux contenus.

I. Les mots clés ne sont pas fiables pour référencer les contenus

L'accès et la diffusion des informations est l'un des principaux défis de la gestion des connaissances et de la gestion de contenu. Pour y répondre, le référencement par mots clés demande à chaque contributeur d'attribuer des mots clés significatifs à son document. L'hypothèse sous-jacente de ce référencement par mots clés est que les personnes ayant besoin de ces contenus chercheront sur ces mêmes mots. Or, cette hypothèse ne tient pas pour trois raisons :

1. Les mots clés varient en fonction des utilisateurs et de leur contexte
Les différents protagonistes n'emploient pas les mêmes mots pour désigner les mêmes choses. Le vocabulaire employé dépend en effet du point de vue et du contexte dans lequel on appréhende les choses.
    • La différence d'appréhension selon le genre et l'espèce et l'emploi de synonymes sont des cas fréquents de hiatus. Quand l'un parle de "voiture", "utilitaire" et "camion", l'autre écrit "véhicule", "automobile" et "moyen de transport". Si l'un emploie l'expression "action sociale", l'autre note "protection sociale", "aide au logement", "couverture maladie". 
    • Le vocabulaire varie selon le temps et le lieu. Ainsi bien des travaux référencés sous le mot clé "NTIC" sont désormais peu visibles de leurs lecteurs potentiels puisque l'expression n'est plus en vogue.
2. Les mots utilisés spontanément diffèrent selon que l'utilisateur contribue ou consulte la base de connaissance
Le contributeur et l'utilisateur d'une base appréhendent son contenu dans deux directions opposées, celle de la solution et celle du problème. L'auteur d'une contribution a en effet une tendance naturelle à attribuer à sa fiche ou à son document des mots clés représentatifs de la solution développée. Or, à l'inverse, l'utilisateur potentiel formulera sa requête à partir de termes représentatifs de sa problématique propre.

3. Le système pâtit fréquemment de l'absence de consignes précises :
    • pour le contributeur : doit-il indiquer les mots les plus significatifs ? Ou seulement les mots qu'il aurait omis dans les autres champs de sa contribution ? Doit-il réfléchir aux synonymes ? Est-il pertinent de noter des mots clés redondants par rapport au classement ?
    • pour l'auteur d'une consultation : l'outil de recherche porte-t-il sur les contenus textuels ou seulement sur les mots clés ? Porte-t-il aussi sur le résumé du document et sur sa classification ?

II. Les catégories remédient au défaut de fiabilité des mots clés

Le principal mérite des catégories est de remédier aux biais et aléas du référencement par mots clés. Lorsqu'elles sont discrimantes et significatives, elles offrent en effet une structure sémantique commune à tous les utilisateurs.
Pour reprendre l'exemple donné plus haut, l'utilisateur n'est plus réduit à tenter des requêtes incertaines sur les termes "véhicule", "automobile", "voiture", "transport". Avec le classement des contenus, il peut choisir sereinement d'opérer sa requête sur les catégories "transport routier", "transport maritime" ou "transport aérien".

III. En organisation, la recherche en plein texte rend superflue le référencement par mots clés

En l'absence de recherche en plein texte, les mots clés peuvent donc, éventuellement, rendre visible des contenus qui ne l'auraient pas été si le système de requête s'en était par exemple tenu au titre et au résumé. Avec les outils avancés de recherche en plein texte, cette fonction est caduque, puisque, en toute cohérence, les mots clés font déjà partie du contenu textuel de la contribution.

Devant cette situation, une autre finalité des mots clés est parfois avancée par ses promoteurs : Les mots clés contribueraient à affiner la pertinence des résultats de requête. Cependant faire vivre un système de mots clés à cet effet me paraît absurde pour trois raisons :
  • le résultat espéré est dérisoire par rapport à l'effort consenti pour attribuer les mots clés à chaque contribution
  • les mots clés sont ici soumis aux mêmes biais et aléas signalés plus haut : ils varient selon les acteurs, leur contexte et leur position
  • le fonctionnement global du système n'en devient que plus obscur pour ses utilisateurs, ce qui nuit à sa maîtrise et à son appropriation en contexte opérationnel.
*L'expression "mots clés" pouvant revêtir des sens contradictoires, je parle ici de l'action du contributeur d'attribuer un mot clé à son document (et non l'action du lecteur, auquel cas on parle souvent de "tag").

4 commentaires:

  1. Maarten,


    J'ai parcouru avec interet et admiration ta publication. Outre les nombreux compliments que je t'épargne car ils vont d'eux même et n'apportent rien au discours critique, une question me vient à l'esprit:
    Ton refus argumenté et difficilement refutable sur la recherche par mot clé m'interoge sur les "bonnes" méthodes de recherche des connaissances? Car si en effet ton discours est relativement clair en ce qui concerne la redaction d'une fiche de conaissance,il est en revanche beaucoup plus obscure lorsqu'on aborde la problématique de l'accès à la connaissance. De nos nos jours, la conaissance existe sous des formulations diverse et variées pour la quasi totalité des problèmes du monde de l'entreprise. Ces informations dorment souvent dans une base de donnés informatique, dans une archive, sur le net, sur des documents de synthèses (spécifications, fiches, procédures et j'en passe) et il nous est souvent difficile aux collaborateurs d'aller chercher avec efficasité les bonnes connaissances.

    RépondreSupprimer
  2. @François-Yann
    D'abord merci pour ce commentaire dithyrambique !
    Avant de répondre à ta question, juste une précision de vocabulaire : dans l'usage "la recherche par mots clés" signifie le plus souvent "la recherche par les mots significatifs", elle désigne donc le plus souvent la recherche en plein texte sur les contenus. Beaucoup parlent de recherche par mots clés quand ils utilisent Google par exemple. Afin d’éviter les quiproquos, je préfère donc parler de "référencement par mot clé" pour désigner l'attribution de mots clés à un contenu par son contributeur.

    Le référencement par ajout de mots clés du contributeur n’est en effet qu’un moyen parmi d’autres de référencement de document ou de fiches de connaissances. Cet article ne donne donc qu’une réponse parcellaire à ton problème.
    Le thème de l’accès aux connaissances nécessiterait d'ailleurs plusieurs autres billets. Je m'y attellerai car ce problème constitue le point faible d'un grand nombre de démarches en gestion de connaissances, gestion documentaire et plus généralement en gestion de contenu (ECM).
    Je m'en tiendrai ici à 5 principes qui, selon moi, facilitent l'accès aux connaissances dans l'organisation. Je les développerai dans un article spécifique.
    1. Distinguer SI opérationnel et SI support et assurer leur complémentarité
    2. Unifier l'accès aux connaissances
    3. Respecter les principes basiques d'utilisabilité
    4. Promouvoir la connaissance des problèmes
    5. Concevoir un système de diffusion au-delà du système d'accès

    Juste à propos du point 1 :
    Le « SI opérationnel » est ce qui te permet d’effectuer ton travail : envoyer des mails, réserver une salle de réunion, lancer une procédure d’achat, lancer la facturation, conserver les preuves du sérieux de tes activités, prouver que tu as suivi la procédure, faire ton reporting, etc..
    Le « SI support » est ce qui te fournit les informations et connaissances pour effectuer ton travail : annuaire, base de données client, procédures, normes, spécifications de référence, réglementations, base de connaissance, etc.. Cela implique que ce qui a un moment te sert de SI opérationnel puisse à un autre te servir de SI support, par exemple consulter le dossier de définition d’un produit défectueux retourné par le client.
    Si tu as une direction chargée de la gestion des connaissances ou du SI support, peut-être que tu peux lui demander de te fournir l’architecture fonctionnelle du SI support, autrement dit : « est-ce que vous avez un document qui recense le contenu et la fonction des différentes bases documentaires, réglementaire, métiers, base de connaissance, etc. ? ».

    RépondreSupprimer
  3. Bonjour Maarten,
    point de vue sans doute un peu brutal...mais les récepteurs de l'information ont toujours besoin d'être bousculés avec bienveillance ! Petite allusion au livre "informer n'est pas communiquer de D WOLTON" - p 82 - "les récepteurs...impossibles à ignorer et impossibles à satisfaire". J'y vois une convergence avec votre propos, le récepteur étant ici le knowledge worket en action dans son projet.
    Alors, oui les recherches full text (mais avec une formation aux techniques de requête)doivent presque toujours pouvoir nous satisfaire. Le KM a besoin davantage de "bases de liens" que de "bases de connaissances". Plus j'avance dans le management de l'information...moins je sais ce que cette expression veut dire en entreprise ! Loin derrière maintenant les incantations stériles du genre: la BONNE info au BON moment à la Bonne personne...méditons sur la petite phrase citée en intro.
    Les nouvelles générations de moteurs (regardez www.iseek.com par exemple)ne nous donneraient-elles pas à voir ce que les systèmes KM ambitionnent de faire depuis lgt ? Et si ses apports technologiques, combinés à notre agilité mentale, capacité à scénariser, à socialiser, à renoncer à nos certitudes pouvaient suffire ? Le reste est en nous et à cultiver au quotidien.
    Au plaisir de prolonger ce débat...
    Denys

    RépondreSupprimer
  4. Ce commentaire a été supprimé par l'auteur.

    RépondreSupprimer