lundi 24 mai 2021

Qu’est-ce que la qualité des données ?

« Data is not a perfect representation of reality: It’s a fundamentally human construct, and therefore subject to biases, limitations, and other meaningful and consequential imperfections. » (Andrea Jones-Rooy, « I’m a data scientist who is skeptical about data », Quartz, 24 juillet 2019)

Le mot « donnée » suggère une matière première « donnée par la nature », mais les données été produites et avant cela elles avaient été choisies : il vaudrait mieux dire « observation » plutôt que « donnée ».

Le choix qui définit les données d’une entreprise comporte trois étapes :
1) choisir les populations à observer : clients, équipements, produits, agents, etc. ;
2) choisir les attributs à observer sur les individus de ces populations ;
3) choisir le codage des observations : périodicité, unité de mesure, nomenclature pour les données qualitatives, etc.

Ces choix définissent des « concepts » qui doivent répondre aux exigences de l’action dans la situation qui est celle de l’entreprise : ils sont donc soumis au critère de pertinence car pour les définir il faut considérer ce que l’entreprise veut ou doit faire.

Chaque concept est le couple, formé par une idée et une définition, auquel est attaché un nom (le vocabulaire de l’entreprise ne doit en principe comporter ni synonymes, ni homonymes) : l’ensemble des concepts d’une entreprise est nommé métadonnées, ontologie, référentiel, etc. Il faut encore que l’observation soit exacte c’est-à-dire capable d’alimenter un raisonnement exact, une action judicieuse. L’observation peut être le fait d’un être humain ou d’un capteur automatique, dans ce dernier cas la définition de ce que le capteur observe aura été choisie au préalable.

Certaines données sont enfin calculées en soumettant des données observées à un algorithme (totaux, moyennes, corrélations, indicateurs de gestion, résultat comptable, etc.). La qualité d’une donnée calculée résulte de celle de l’algorithme et de celle des observations qui l’alimentent.

Les critères de qualité des données d’une entreprise sont donc : pertinence des concepts, exactitude des observations, unicité du nommage et, pour les données calculées, justesse des algorithmes.

Pour pouvoir alimenter l’action les données doivent encore être publiées (tableaux, graphiques), commentées et interprétées. Commentaire et interprétation supposent de confronter les données à d’autres informations (historique, contexte, hypothèses, etc.).

On observe parfois les défauts suivants :
- données non pertinentes : observer des détails superflus, négliger des faits importants ;
- observations inexactes : biais, lacunes, retards, codages défectueux, etc. ;
- algorithmes inexacts : estimations biaisées, incohérences, etc. ;
- publication fallacieuse, illisible, etc. ;
- interprétation erronée.

Voir aussi :
Place des données dans l'iconomie
Deux questions à propos des données

Aucun commentaire:

Enregistrer un commentaire