Métadonnées perfides
Un aspect important du traitement des objets numériques est l’utilisation de métadonnées. Bien que ces dernières peuvent s’avérer d’une grande utilité, elles peuvent aussi devenir très décevantes. Le texte suivant présente avec humour quelques objections pertinentes http://www.well.com/~doctorow/metacrap.htm.
Une première remarque, c’est que les métadonnées calculées (déduites ou inférées) sont plus fiables que celles qui sont données par le créateur d’un document, à moins de disposer d’un mécanisme pour mesurer la confiance que l’on peut avoir envers l’auteur. Un exemple, c’est le page Rank calculé par Google à l’aide du nombre de liens entre les pages Web.
Une deuxième remarque, c’est que le document que l’on produit et destiné à être consulté par l’humain et que les métadonnées elles sont destinées à être utilisé par la machine. On a donc le fardeau de maintenir deux structure informationnelle, celle du texte du document et celle décrivant les objets numériques du document. Pour réduire ce fardeau, il faut une interface utilisateur qui produit automatiquement (par déduction ou consultation d’une ressource fiable) les métadonnées. Un exemple, c’est l’extraction de MP3 d’un CD de musique. Pour identifier l’auteur, l’album et le titre de la chanson la base CDDB peut-être utilisé sans trop de risque de se tromper. Est-ce que tous les outils d’extraction utilisent systématiquement cette base ? Je ne crois pas, alors que ça devrait être le cas. Il n’y a aucune raison de se priver de ces précieuses métadonnées jugées valides.