lundi 24 mai 2021

Deux questions à propos des données

Je me suis posé les questions suivantes :
- comment trouver des données pertinentes dans le bric-à-brac qu'a créé l'informatisation ?
- quelle est la nature du savoir qu'il faut posséder pour interpréter des données ? Comment l'acquérir ?
- les réponses invitent à considérer la fonction pratique de la théorie.

Le bric-à-brac de l’informatisation

Les données étaient rares avant l’informatisation. Pour les produire il fallait le vouloir : faire une enquête, l’exploiter, publier ses résultats demandait du travail et un délai.

S’étant étendue à toutes les actions (étapes du processus de production, démarches des clients et utilisateurs, etc.), l’informatisation enregistre désormais dans la mémoire informatique des traces semblables aux empreintes que les animaux laissent sur le sol : ce sont autant de données qui s’offrent à l’observation sans que personne n'ait voulu les produire.

Leur abondance suscite l’émerveillement : « c’est une richesse ! », « c’est de l’or ! », entend-on dire. C’est plutôt un bric-à-brac semblable au marché aux puces : comment trouver, dans cette accumulation disparate, les données pertinentes dont on pourra tirer un enseignement utile ?

Si nous allons au marché aux puces sans rien chercher de précis il est probable que nous n’y trouverons rien d’intéressant. Si par contre nous savons ce que nous voulons – « il me faut quatre verres à pied », « je voudrais une table de nuit », etc. – alors nous avons une chance d’y trouver ce qui nous convient.

Il en est de même avec les données : si nous n’avons aucun besoin, ne nous posons aucune question, leur bric-à-brac ne nous apportera sans doute rien. Si par contre nous nous posons une question précise, nous y trouverons peut-être des données éclairantes : la « richesse » des données ne peut se manifester qu’en réponse à une interrogation.

Au fronton d’une mémoire informatique on peut placer les vers que Paul Valéry a inscrits sur le palais de Chaillot :

Il dépend de celui qui passe
Que je sois tombe ou trésor
Que je parle ou me taise
Ceci ne tient qu’à toi
Ami n’entre pas sans désir

Comment interpréter les données

Place des données dans l’iconomie

L’informatisation se manifeste (1) par la construction des automates (processeurs, mémoires), (2) par la programmation des automates (algorithmes), (3) enfin par l’assistance que la ressource informatique apporte au cerveau-d’œuvre.

Cette ressource associe une image documentaire du monde réel à des algorithmes permettant de chercher, lire, écrire, classer et modifier les documents, le mot « document » désignant ici des « données » au sens large (outre les données au sens précis du mot, des textes, images, sons, etc.).

Comme toute image l’image documentaire est sélective et donc partielle, ce qui ne l’empêche pas d’être authentique (fidèle à la réalité), pertinente (adéquate à l’action que le cerveau-d’œuvre a l’intention de réaliser) et significative (porteuse de sens). Elle apporte au cerveau-d’œuvre qui sait l’interpréter l’information (« forme intérieure ») qui lui procure une capacité d’action.

Les données (au sens large comme au sens étroit) sont une composante essentielle du phénomène de l’informatisation car elles conditionnent la capacité d’action du cerveau-d’œuvre. Elles ne se séparent pas :
- des algorithmes dont l’utilisation réclame l’expertise des data scientists ;
- de l’instruction qui donne au cerveau humain la structure théorique (logique et causale) qui lui permet d’interpréter des données.

Il faut donc insister sur les compétences nécessaires :
- en data science : prolonger et développer ce qui a été publié à la p. 35 d’Élucider l’intelligence artificielle, « Former les intelligences à la data » ;
- en connaissance logique et théorique des faits réels dont les données donnent une image.

*     *

Certaines données sont produites par une entité afin de répondre, par l’observation d’un fait réel, à un besoin qui lui est propre. Le concept qui définit ce fait réel doit être pertinent, l'observation doit être exacte.

D’autres données, produites à l’occasion d’opérations diverses, sont comme les empreintes que le passage d’un animal laisse sur le sol d’une forêt : « fadettes » téléphoniques, transactions sur une carte bancaire, etc.

Qu’est-ce que la qualité des données ?

« Data is not a perfect representation of reality: It’s a fundamentally human construct, and therefore subject to biases, limitations, and other meaningful and consequential imperfections. » (Andrea Jones-Rooy, « I’m a data scientist who is skeptical about data », Quartz, 24 juillet 2019)

Le mot « donnée » suggère une matière première « donnée par la nature », mais les données été produites et avant cela elles avaient été choisies : il vaudrait mieux dire « observation » plutôt que « donnée ».

Le choix qui définit les données d’une entreprise comporte trois étapes :
1) choisir les populations à observer : clients, équipements, produits, agents, etc. ;
2) choisir les attributs à observer sur les individus de ces populations ;
3) choisir le codage des observations : périodicité, unité de mesure, nomenclature pour les données qualitatives, etc.

Ces choix définissent des « concepts » qui doivent répondre aux exigences de l’action dans la situation qui est celle de l’entreprise : ils sont donc soumis au critère de pertinence car pour les définir il faut considérer ce que l’entreprise veut ou doit faire.

Chaque concept est le couple, formé par une idée et une définition, auquel est attaché un nom (le vocabulaire de l’entreprise ne doit en principe comporter ni synonymes, ni homonymes) : l’ensemble des concepts d’une entreprise est nommé métadonnées, ontologie, référentiel, etc. Il faut encore que l’observation soit exacte c’est-à-dire capable d’alimenter un raisonnement exact, une action judicieuse. L’observation peut être le fait d’un être humain ou d’un capteur automatique, dans ce dernier cas la définition de ce que le capteur observe aura été choisie au préalable.

Certaines données sont enfin calculées en soumettant des données observées à un algorithme (totaux, moyennes, corrélations, indicateurs de gestion, résultat comptable, etc.). La qualité d’une donnée calculée résulte de celle de l’algorithme et de celle des observations qui l’alimentent.

Les critères de qualité des données d’une entreprise sont donc : pertinence des concepts, exactitude des observations, unicité du nommage et, pour les données calculées, justesse des algorithmes.

Pour pouvoir alimenter l’action les données doivent encore être publiées (tableaux, graphiques), commentées et interprétées. Commentaire et interprétation supposent de confronter les données à d’autres informations (historique, contexte, hypothèses, etc.).

On observe parfois les défauts suivants :
- données non pertinentes : observer des détails superflus, négliger des faits importants ;
- observations inexactes : biais, lacunes, retards, codages défectueux, etc. ;
- algorithmes inexacts : estimations biaisées, incohérences, etc. ;
- publication fallacieuse, illisible, etc. ;
- interprétation erronée.

Voir aussi :
Place des données dans l'iconomie
Deux questions à propos des données