Frédéric Lefebvre-Naré a acquis une expérience professionnelle de la gestion et du traitement des données. Il l’a approfondie par la réflexion et transmise par l’enseignement : ce livre en est le résultat.
C’est un monument sans rival : il accomplit, en 120 pages, un tour d’horizon complet du monde des données. Chaque page contient un texte d’une remarquable sobriété, une illustration, un ou deux exemples. Ces pages ont pour titre (échantillon tiré au hasard) « la moitié de l’informatique ne relève pas de la programmation », « lutter intelligemment contre la fausse alerte intelligente », « la différence entre les données structurées et non structurées, c’est le moment où l’on structure », « beauté et finesse des variables quantitatives », etc.
Ce livre sera utile aux étudiants mais aussi aux experts dont il rafraîchira et complétera les connaissances, et enfin à tous ceux dont la curiosité est éveillée par le bruit médiatique qui entoure les données, « or noir du XXIe siècle ». Comme l’indique le titre sa lecture ne demande aucun prérequis, du moins en principe. Ceux qui se sont déjà frottés aux problèmes que pose le codage, le traitement et l’interprétation des données verront cependant plus vite que les autres de quoi il retourne.
La « data science », dit l’auteur, c’est « la création de connaissances à partir de data », autrement dit l’interprétation des données. Mais pour pouvoir les interpréter il faut les connaître : « la data science sans science des données, c’est l’agriculture sans botanique ». Or elles sont terriblement diverses…
La métaphore de la botanique invite à formuler des diagnostics. En effet les données ne sont pas toutes utilement nutritives :
- certaines sont malsaines : les données que fournit la comptabilité sont de faux amis car elles souffrent d’un biais dû à l’écart entre concepts comptables et concepts économiques ;
- d’autres sont un poison : les indicateurs de la comptabilité analytique éveillent des rivalités et suscitent des conflits qui brisent la cohésion de l’entreprise.
Les données sont quantitatives, qualitatives ou ordinales ; ponctuelles ou périodiques ; pertinentes ou inadéquates ; exactes ou biaisées, etc. Leur définition comporte deux étapes : celle de la « population » dont on considère les « individus », celle des attributs observés sur chaque individu. Certains « individus » ont un « cycle de vie » car ils se transforment tout en restant les mêmes : pensez aux étapes par lesquelles passe une commande sur leboncoin ou, simplement, à vous-même…
Le flux des données opérationnelles doit être traité pour alimenter l’entrepôt de données qui, seul, se prête à une exploitation. Cela suppose de redresser les données biaisées, interpréter les extrêmes, corriger les aberrantes, estimer les manquantes, accepter des approximations (une traduction de données hebdomadaires en données mensuelles ne peut pas être parfaite), enfin extraire des tendances : des méthodes et des outils informatiques existent mais il faut savoir les utiliser avec discernement.
Il est aisé, pour un esprit logique, d’apprendre à se servir de SQL, XML, Json, etc. car il y retrouve sa démarche familière. Par contre, un esprit sans logique sera tenté de se comporter comme le « singe dactylographe » dont parlait Jean-Paul Benzécri et qui, tapant au hasard les commandes des algorithmes, en obtient des « résultats » dépourvus de sens.
Chaque catégorie de données se prête en effet à certains calculs, mais non à n’importe lequel. Additionner des températures n’a pas de sens, mais c’est une étape pour calculer leur moyenne ; la somme de deux dates n’a pas de sens, mais leur différence mesure un délai ; l’intelligence artificielle s’appuie sur une analyse des corrélations, mais nombre d’entre elles sont fallacieuses.
Pour illustrer ce dernier point voici deux affirmations également vraies (p. 46) : « quelqu’un qui boit de l’alcool risque 1,5 fois plus un cancer du poumon », « boire de l’alcool ne change pas le risque de cancer du poumon ». Si vous n’avez pas déjà deviné la réponse à ce paradoxe, vous la trouverez à la fin de cet article.
Frédéric Lefebvre-Naré dit ce qu’il faut faire, et comment il faut le faire. Il évoque rarement les mauvaises pratiques, or il faut connaître ces pathologies pour pouvoir les diagnostiquer et les traiter. Chaque entreprise est une institution humaine et la nature humaine n’est pas spontanément logique. Ainsi chaque direction, chaque usine définira et nommera les données à sa façon (« c’est comme ça qu’on dit chez nous ») et si l’on peut à la rigueur traduire des synonymes, avec les homonymes on risque de ne plus savoir de quoi on parle.
Si l’on a pris l’habitude de ressaisir le taux de TVA lors de chaque facturation, ou de le coder « en dur » dans chaque programme, il faudra si ce taux change diffuser sa nouvelle valeur ou modifier les programmes : pendant un délai certains calculs seront faux. Les « données de référence » que sont le taux de TVA ou les tables de codage doivent être stockées en un lieu unique et diffusées instantanément dans l’entreprise.
Les actions qui contribuent à un processus de production forment comme un ballet autour de données dont la qualité et la cohérence contribuent à la qualité du produit et à l’efficacité de la production. L’envers de cette phrase, c’est que si la qualité et la cohérence des données font défaut le processus sera coûteux, les produits de mauvaise qualité, les clients mécontents, la part de marché compromise…
Les tableaux de bord sont placés au sommet du système d’information comme le coq au sommet du clocher d’un village : donnant aux dirigeants une vue synthétique de la situation et des activités de l’entreprise, ils font rayonner l’information que contiennent ses données. Comme ils sont le résultat final de leur distillation, les examiner permet de poser un diagnostic sur l’entreprise.
Que voit-on alors ? Certains tableaux de bord sont réussis : judicieusement sélectifs, illustrés par des graphiques clairs dont un commentaire permet d’interpréter la tendance et les accidents. Mais on rencontre aussi nombre de tableaux de nombres illisibles produits à grand renfort de moyennes mobiles et de cumuls, de « R/P » (comparaison réalisé sur prévu) et de « m/(m-12) » (comparaison au mois de l’année précédente), et portant éventuellement jusque devant un comité de direction perplexe la trace d’une incohérence des concepts.
Outiller les processus, produire les tableaux de bord, suppose de maîtriser l’art et les techniques du traitement des données, de leur interprétation, de leur présentation : c’est la compétence des « data scientists », que les entreprises appellent pour extraire et exploiter le savoir enfoui dans les données.
Mais ils rencontrent inévitablement l’illogisme des habitudes et de la sociologie des pouvoirs, le particularisme jaloux des directions et des corporations. Il ne leur suffira pas d’être « bons en maths » pour se tirer d’affaire…
___
Réponse au paradoxe ci-dessus : la consommation d’alcool est corrélée à la consommation de tabac qui, elle, accroît le risque du cancer du poumon.