lundi 5 août 2019

Qu'est-ce qu'une « donnée » ?

Voici le texte de la vidéo diffusée aujourd'hui sur ma chaîne YouTube :

Derrière le mot « donnée » se trouve un piège. Ce mot suggère en effet que les « données » ont été données par la nature comme s’il s’agissait d’une matière première, d’un minerai. Des expressions comme « big data », « data lake » ou « entrepôt de données » suggèrent qu’il suffirait de les déverser dans un lieu de stockage pour pouvoir les utiliser à sa guise.

Mais les données ne sont pas une matière première. Elles ont été produites et avant d’être produites elles avaient été choisies1. Leur qualité est déterminée par celle de cette production et de ce choix et si le choix a été mal orientée, si la production a été erronée, on ne pourra rien en tirer qui vaille car « garbage in, garbage out ». Disons-le en bon français : si vous stockez de la merde dans vos data lakes et autres datawarehouses, l’intelligence artificielle la plus puissante ne pourra fournir que de la merde. Cela arrive souvent dans les entreprises trop négligentes.

Les choix qui définissent les données d’une entreprise se font en trois étapes :
  • d’abord elle choisit, dans l’immensité du monde réel, d’observer quelques populations (j’emprunte ici son vocabulaire à la démographie) : clients, équipements, produits, agents, etc. ;
  • ensuite elle choisit les quelques attributs qu’il lui convient d’observer parmi les attributs innombrables des individus qui appartiennent à ces populations ;
  • enfin elle choisit la façon dont les observations seront codées : périodicité, unité de mesure, nomenclature pour les données qualitatives.

Ces choix doivent répondre aux besoins pratiques de l’entreprise, à sa relation avec les êtres qu’elle observe, aux exigences de l’action dans la situation qui est la sienne : ils sont donc soumis à un critère de pertinence. Ce critère n’est pas d’application facile ni évidente car comme la situation évolue ce qui était pertinent hier peut ne plus l’être aujourd’hui.

Il ne suffit pas d’avoir fait les bons choix, d’avoir défini les bons « concepts » : il faut encore que l’observation soit exacte, c’est-à-dire capable d’alimenter un raisonnement exact, une action judicieuse. Souvent un ordre de grandeur pourra suffire alors qu’un excès de précision serait fallacieux (il ne convient pas de mesurer la taille d’un être humain au micron près) : l’exactitude n’est pas la même chose que la précision.

Chaque « concept » est le couple que forment une idée et une définition. Ainsi pour se représenter un cercle l'idée d'un rond régulier peut suffire. Le concept de cercle lui ajoute une définition, « lieu des points d'un plan à égale distance d'un point donné », qui seule permet de déduire les propriétés du cercle (surface, longueur de la circonférence, etc.).
Il faudrait une infinité de concepts pour décrire entièrement un être concret, sa forme géométrique, sa composition moléculaire, son histoire, etc. La « grille conceptuelle » à travers laquelle il est perçu ne retient que quelques concepts et fait abstraction des autres. La qualité de cette grille s'évalue selon sa pertinence en regard des exigences de l'action.
Pour éviter malentendus les noms que l'entreprise donne aux concepts ne doivent comporter ni synonymes, ni homonymes.

Beaucoup d’erreurs seraient évitées si on remplaçait le mot « donnée » par le mot « observation ». Les observations peuvent être le fait d’un être humain ou de capteurs automatiques mais dans tous les cas la définition de ce qu’ils observent aura été choisie.

Des données sont enfin calculées en soumettant le résultat des observations à un algorithme : c’est ainsi que l’on obtient des indicateurs de gestion, le résultat d’une entreprise, le taux de croissance du PIB, etc. La qualité des données calculées dépend d’une part de celle des observations qui alimentent le calcul, d’autre part de celle de l’algorithme.

Pertinence des concepts, exactitude de l’observation, unicité du nommage et, pour les données calculées, justesse de l’algorithme : ce sont les quatre critères qui permettent de vérifier l’adéquation des données aux exigences de l’action.
____
1 Andrea Jones-Rooy, I’m a data scientist who is skeptical about data, Quartz, 24 juillet 2019.

Aucun commentaire:

Enregistrer un commentaire