lundi 24 mai 2021

Place des données dans l’iconomie

L’informatisation se manifeste (1) par la construction des automates (processeurs, mémoires), (2) par la programmation des automates (algorithmes), (3) enfin par l’assistance que la ressource informatique apporte au cerveau-d’œuvre.

Cette ressource associe une image documentaire du monde réel à des algorithmes permettant de chercher, lire, écrire, classer et modifier les documents, le mot « document » désignant ici des « données » au sens large (outre les données au sens précis du mot, des textes, images, sons, etc.).

Comme toute image l’image documentaire est sélective et donc partielle, ce qui ne l’empêche pas d’être authentique (fidèle à la réalité), pertinente (adéquate à l’action que le cerveau-d’œuvre a l’intention de réaliser) et significative (porteuse de sens). Elle apporte au cerveau-d’œuvre qui sait l’interpréter l’information (« forme intérieure ») qui lui procure une capacité d’action.

Les données (au sens large comme au sens étroit) sont une composante essentielle du phénomène de l’informatisation car elles conditionnent la capacité d’action du cerveau-d’œuvre. Elles ne se séparent pas :
- des algorithmes dont l’utilisation réclame l’expertise des data scientists ;
- de l’instruction qui donne au cerveau humain la structure théorique (logique et causale) qui lui permet d’interpréter des données.

Il faut donc insister sur les compétences nécessaires :
- en data science : prolonger et développer ce qui a été publié à la p. 35 d’Élucider l’intelligence artificielle, « Former les intelligences à la data » ;
- en connaissance logique et théorique des faits réels dont les données donnent une image.

*     *

Certaines données sont produites par une entité afin de répondre, par l’observation d’un fait réel, à un besoin qui lui est propre. Le concept qui définit ce fait réel doit être pertinent, l'observation doit être exacte.

D’autres données, produites à l’occasion d’opérations diverses, sont comme les empreintes que le passage d’un animal laisse sur le sol d’une forêt : « fadettes » téléphoniques, transactions sur une carte bancaire, etc.

Utiliser des données comprend deux étapes :
- une correction éventuelle (redresser un biais, estimer des données manquantes, etc.) ;
- la publication (tableau, graphique, commentaire), qui doit être lisible ;
- l'interprétation, qui nécessite d'insérer la donnée dans un schéma explicatif (logique, causalité, etc.).

Le besoin est toujours d'alimenter une action :
- traiter un cas individuel (trouver un emploi pour un chômeur ou un diagnostic pour un patient, accorder un crédit, décider un investissement, déterminer un droit à prestation, etc.) ;
- traiter un ensemble de cas, éventuellement anonymes, afin de produire des statistiques pour éclairer la gestion ou la stratégie.

La qualité d'une donnée s'évalue en regard du besoin auquel elle répond (parfois un ordre de grandeur suffit). Il arrive que des données soient de mauvaise qualité. Il arrive aussi que les données produites par une direction d'une entreprise ne répondent pas exactement aux besoins de l'entreprise elle-même. La coopération entre des entités différentes ("interopérabilité") suppose enfin qu'elles puissent partager les mêmes données.

Une fois produites les données existent dans la mémoire de l’entreprise. On peut avoir envie de fouiller ce gisement pour y trouver des informations utiles. Cependant :
1) l'entité qui a produit une donnée en est propriétaire : il arrive qu'elle refuse de "donner la donnée" à une autre entité ;
2) la donnée, même de qualité, n'est pas nécessairement apte à répondre immédiatement à d'autres besoins que celui pour lequel elle a été produite : des estimations, redressements, transcodages, etc. peuvent être nécessaires, et sont autant d'obstacles pour la publication et l'interprétation. Il arrive qu'il soit tellement difficile de les surmonter que la donnée est inutilisable.

La conception, la production, la publication, l'interprétation, le partage des données exigent des compétences pointues en statistique et en informatique ("data science"). Il arrive qu'une entreprise n'en soit pas consciente : alors ses données sont mal définies, mal produites et mal utilisées. Les publications seront illisibles ou fallacieuses (séries chronologiques "m/m-12"), les interprétations erronées, les décisions malencontreuses.

La vidéo de Mick Levy, « Valoriser les data de son entreprise », contient d’utiles indications de bon sens.

Voir aussi :
Qu'est-ce que la qualité des données ?
Deux questions à propos des données

Aucun commentaire:

Enregistrer un commentaire