volle.com: Connaître le monde des données

« The basic dissimilarities between human languages and computer languages may be the most serious obstacle to a true symbiosis »
(Joseph Licklider, Man-Computer Symbiosis, 1960).

Ce que l'on appelle « données », c'est la masse de documents de toute nature et de tableaux de nombres à laquelle l'intellect est confronté et dont il s'efforce de tirer quelque chose de compréhensible.

Les statisticiens et les comptables publient en abondance des tableaux de nombres comme s'ils ignoraient un fait évident : personne ne lit les tableaux de nombres car ils sont incompréhensibles.

Personne, en effet, ne peut quoique l'on puisse dire comprendre à la simple lecture ce que contient un tableau de nombres comportant plus de dix lignes et dix colonnes. L'exploration de ce tableau demandera quelques heures de travail à un analyste bien outillé, et il lui faudra encore du travail pour interpréter ce que l'exploration a dégagé¹.

Il est d'ailleurs très difficile de produire, à partir de la masse des données relatives à une question quelconque, la synthèse simple, claire et lisible qui apportera vraiment à son lecteur une information sur cette question. Comme la lecture d'une telle synthèse est facile et peut même être agréable, le lecteur croira souvent qu'il a été facile et agréable de la rédiger. C'est pourquoi des économistes, statisticiens et comptables préfèrent publier de gros tableaux de nombres accompagnés de commentaires sibyllins : personne ne pourra rien y comprendre mais leur travail sera jugé sérieux.

La façon dont les réputations se forment dans les institutions pèse ainsi sur le monde des données, qui se trouve soumis encore à d'autres contraintes sociologiques.

* *

On croit généralement que les données sont quelque chose de simple que l'on peut manier comme s'il s'agissait d'un minerai homogène : « Ben quoi, entend-on dire, les données c'est les données, voilà tout ». En fait toute donnée est un être composite et plus compliqué qu'on ne le croit communément.

Une donnée est en effet le couple logique formé par un concept et une mesure, le concept étant lui-même le couple, désigné par un mot, d'une idée et d'une définition.

Une donnée n'est donc pas « donnée » par la nature : le concept a été choisi, la mesure a été obtenue.

Il faut distinguer des catégories parmi les données et leur qualité s'évalue de façon différente selon la catégorie :

les identifiants, qui doivent être rigoureusement exacts sinon c'est un dossier perdu, une attribution de droits à la mauvaise personne, etc. Des erreurs sont souvent commises : on identifie non le client mais le service qui lui est vendu (ligne téléphonique, RIB, etc.) ; on introduit des attributs dans l'identifiant (code géographique, code « importance du client », etc.) ; on réutilise les identifiants des individus qui ont cessé d'exister, etc. ;
les observations, qui procurent la « mesure » (qualitative ou quantitative) d'un concept que l'on a choisi d'observer sur un « individu » à une date ou période particulière. La qualité d'une observation résulte de la pertinence du concept en regard des exigences de l'action que l'on souhaite effectuer envers cet individu, et aussi de l'exactitude de la mesure, c'est-à-dire de son aptitude à alimenter un raisonnement exact². L'observation sera de mauvaise qualité si le concept est obsolète ou si la mesure est inexacte ;
les traces que laisse un « individu » sur une plate-forme informatique. Comme elles ne sont pas définies a priori ni observées de façon systématique, les enseignements qu'elles procurent sont aussi fortuits et partiels que ne le sont les empreintes qu'un animal sauvage laisse sur le sol : interpréter les traces laissées par une personne qui a consulté des documents ou fait des achats sur le Web est délicat ;
les métadonnées, qui documentent les concepts et indiquent la nature des traces : les connaître est nécessaire pour pouvoir interpréter les données. Les comparaisons internationales ou entre périodes différentes s'appuient parfois sur des homonymes qui recouvrent des concepts différents : il faut corriger ces différences pour parvenir à une comparaison exacte³ ;
les données calculées, qui résultent de l'application d'un algorithme à des observations et à des traces. Ces données-là (le PIB, par exemple) résultent de l'application à des observations de règles d'estimation, extrapolation, ventilation, pondération, etc., et leur qualité est celle de ces règles ajoutée à celle des observations. Les manier sans connaître les règles du calcul peut provoquer des erreurs de raisonnement.

Dans les entreprises, la comptabilité applique des conventions qui répondent aux exigences de la fiscalité et non à celles du raisonnement économique : il en résulte des biais conceptuels (distinction fiscale entre les dépenses d'exploitation et d'investissement, etc.) et des biais de mesure (le « principe de prudence » introduit un biais dans l'estimation des données manquantes). L'optimisation fiscale incite à des mouvements artificiels lors de la clôture des comptes (« être propre au moment de la photo »).

Beaucoup d'informaticiens sont tentés d'oublier que garbage in, garbage out : le meilleur des algorithmes ne peut rien donner qui vaille si les données qu'il mouline sont de mauvaise qualité. Les utilisateurs du système d'information, de leur côté, chérissent leur langage habituel et ne conçoivent pas à quel point son désordre peut être destructeur : les homonymes et synonymes sont une source de confusion. L'entropie mine par ailleurs la qualité des données : ressaisies manuelles, erreurs de codage, dialectes locaux, obsolescence des classifications, etc.

L'ingénierie sémantique est l'étape de la conception d'un systèmes d'information lors de laquelle une entreprise :

choisit selon le critère de pertinence les « populations » qui seront représentées dans son système d'information et ceux de leurs attributs qui seront observés sur leurs « individus » ;
choisit les mots par lesquels ces populations et attributs seront désignés dans le langage de l'entreprise ;
décide comment identifier les individus appartenant à ces populations.

L'ingénierie sémantique concrétise la relation entre le langage ordinaire des êtres humains et le langage formel de la programmation. Elle s'appuie sur un référentiel⁴, catalogue des métadonnées et instrument du maintien de leur qualité.

Le responsable du référentiel est l'administrateur des données. Sa mission est périlleuse car quelqu'un qui invite des directions, services, spécialités, etc. à améliorer leur vocabulaire et leurs classifications pour préserver la cohésion du système d'information n'est jamais bien reçu : il faut qu'il soit protégé par un pouvoir hautement légitime.
___
¹ Michel Volle, « Une méthode pour lire et commenter automatiquement de grands tableaux statistiques », 1974.
² L'exactitude n'est pas la même chose que la précision, qui peut être excessive : mesurer la taille d'un être humain au micron près, c'est ignorer qu'elle change au cours de la journée et que le corps humain est élastique.
³ Isabelle Boydens, Informatique, normes et temps, 1999.
⁴ Joël Bizingre, Joseph Paumier et Pascal Rivière, Les référentiels du système d'information, 2013.

volle.com

samedi 13 février 2016

Connaître le monde des données

Aucun commentaire:

Enregistrer un commentaire