dimanche 14 janvier 2024

Frédéric Lefebvre-Naré, Les data en 120 points et 0 prérequis, Amazon KDP, août 2023.

Frédéric Lefebvre-Naré a acquis une expérience professionnelle de la gestion et du traitement des données. Il l’a approfondie par la réflexion et transmise par l’enseignement : ce livre en est le résultat.

C’est un monument sans rival : il accomplit, en 120 pages, un tour d’horizon complet du monde des données. Chaque page contient un texte d’une remarquable sobriété, une illustration, un ou deux exemples. Ces pages ont pour titre (échantillon tiré au hasard) « la moitié de l’informatique ne relève pas de la programmation », « lutter intelligemment contre la fausse alerte intelligente », « la différence entre les données structurées et non structurées, c’est le moment où l’on structure », « beauté et finesse des variables quantitatives », etc.

Ce livre sera utile aux étudiants mais aussi aux experts dont il rafraîchira et complétera les connaissances, et enfin à tous ceux dont la curiosité est éveillée par le bruit médiatique qui entoure les données, « or noir du XXIe siècle ». Comme l’indique le titre sa lecture ne demande aucun prérequis, du moins en principe. Ceux qui se sont déjà frottés aux problèmes que pose le codage, le traitement et l’interprétation des données verront cependant plus vite que les autres de quoi il retourne.

La « data science », dit l’auteur, c’est « la création de connaissances à partir de data », autrement dit l’interprétation des données. Mais pour pouvoir les interpréter il faut les connaître : « la data science sans science des données, c’est l’agriculture sans botanique ». Or elles sont terriblement diverses…

La métaphore de la botanique invite à formuler des diagnostics. En effet les données ne sont pas toutes utilement nutritives : - certaines sont malsaines : les données que fournit la comptabilité sont de faux amis car elles souffrent d’un biais dû à l’écart entre concepts comptables et concepts économiques ; - d’autres sont un poison : les indicateurs de la comptabilité analytique éveillent des rivalités et suscitent des conflits qui brisent la cohésion de l’entreprise.

Les données sont quantitatives, qualitatives ou ordinales ; ponctuelles ou périodiques ; pertinentes ou inadéquates ; exactes ou biaisées, etc. Leur définition comporte deux étapes : celle de la « population » dont on considère les « individus », celle des attributs observés sur chaque individu. Certains « individus » ont un « cycle de vie » car ils se transforment tout en restant les mêmes : pensez aux étapes par lesquelles passe une commande sur leboncoin ou, simplement, à vous-même…

Le flux des données opérationnelles doit être traité pour alimenter l’entrepôt de données qui, seul, se prête à une exploitation. Cela suppose de redresser les données biaisées, interpréter les extrêmes, corriger les aberrantes, estimer les manquantes, accepter des approximations (une traduction de données hebdomadaires en données mensuelles ne peut pas être parfaite), enfin extraire des tendances : des méthodes et des outils informatiques existent mais il faut savoir les utiliser avec discernement.

Il est aisé, pour un esprit logique, d’apprendre à se servir de SQL, XML, Json, etc. car il y retrouve sa démarche familière. Par contre, un esprit sans logique sera tenté de se comporter comme le « singe dactylographe » dont parlait Jean-Paul Benzécri et qui, tapant au hasard les commandes des algorithmes, en obtient des « résultats » dépourvus de sens.

Chaque catégorie de données se prête en effet à certains calculs, mais non à n’importe lequel. Additionner des températures n’a pas de sens, mais c’est une étape pour calculer leur moyenne ; la somme de deux dates n’a pas de sens, mais leur différence mesure un délai ; l’intelligence artificielle s’appuie sur une analyse des corrélations, mais nombre d’entre elles sont fallacieuses.

Pour illustrer ce dernier point voici deux affirmations également vraies (p. 46) : « quelqu’un qui boit de l’alcool risque 1,5 fois plus un cancer du poumon », « boire de l’alcool ne change pas le risque de cancer du poumon ». Si vous n’avez pas déjà deviné la réponse à ce paradoxe, vous la trouverez à la fin de cet article.

Frédéric Lefebvre-Naré dit ce qu’il faut faire, et comment il faut le faire. Il évoque rarement les mauvaises pratiques, or il faut connaître ces pathologies pour pouvoir les diagnostiquer et les traiter. Chaque entreprise est une institution humaine et la nature humaine n’est pas spontanément logique. Ainsi chaque direction, chaque usine définira et nommera les données à sa façon (« c’est comme ça qu’on dit chez nous ») et si l’on peut à la rigueur traduire des synonymes, avec les homonymes on risque de ne plus savoir de quoi on parle.

Si l’on a pris l’habitude de ressaisir le taux de TVA lors de chaque facturation, ou de le coder « en dur » dans chaque programme, il faudra si ce taux change diffuser sa nouvelle valeur ou modifier les programmes : pendant un délai certains calculs seront faux. Les « données de référence » que sont le taux de TVA ou les tables de codage doivent être stockées en un lieu unique et diffusées instantanément dans l’entreprise.

Les actions qui contribuent à un processus de production forment comme un ballet autour de données dont la qualité et la cohérence contribuent à la qualité du produit et à l’efficacité de la production. L’envers de cette phrase, c’est que si la qualité et la cohérence des données font défaut le processus sera coûteux, les produits de mauvaise qualité, les clients mécontents, la part de marché compromise…

Les tableaux de bord sont placés au sommet du système d’information comme le coq au sommet du clocher d’un village : donnant aux dirigeants une vue synthétique de la situation et des activités de l’entreprise, ils font rayonner l’information que contiennent ses données. Comme ils sont le résultat final de leur distillation, les examiner permet de poser un diagnostic sur l’entreprise.

Que voit-on alors ? Certains tableaux de bord sont réussis : judicieusement sélectifs, illustrés par des graphiques clairs dont un commentaire permet d’interpréter la tendance et les accidents. Mais on rencontre aussi nombre de tableaux de nombres illisibles produits à grand renfort de moyennes mobiles et de cumuls, de « R/P » (comparaison réalisé sur prévu) et de « m/(m-12) » (comparaison au mois de l’année précédente), et portant éventuellement jusque devant un comité de direction perplexe la trace d’une incohérence des concepts.

Outiller les processus, produire les tableaux de bord, suppose de maîtriser l’art et les techniques du traitement des données, de leur interprétation, de leur présentation : c’est la compétence des « data scientists », que les entreprises appellent pour extraire et exploiter le savoir enfoui dans les données.

Mais ils rencontrent inévitablement l’illogisme des habitudes et de la sociologie des pouvoirs, le particularisme jaloux des directions et des corporations. Il ne leur suffira pas d’être « bons en maths » pour se tirer d’affaire…

___

Réponse au paradoxe ci-dessus : la consommation d’alcool est corrélée à la consommation de tabac qui, elle, accroît le risque du cancer du poumon.

mardi 2 janvier 2024

Robert Mazur, The Infiltrator, Little Brown, 2009

French Version

Robert Mazur was a US customs agent in the 1980s. He infiltrated the drug cartels and the banks that helped them launder their profits: the information he gathered started the process that led to the liquidation of the BCCI in 1991.

Under the name of Bob Musella, he provided the cartels with the honeypot of an efficient money-laundering service. As a result, he was able to win the trust of criminals who flocked to his "wedding" in 1988, a mock wedding that led to numerous arrests.

The job of an undercover agent is a perilous one. To make the Mafia believe that he is one of them, he has to create a false identity, false wealth and false criminal activities. At any moment he risks being unmasked and killed.

The book describes his adventure and offers two lessons that I think are worth commenting on.

*     *

The first is psychological.

Bob Musella had conversations with the mobsters in which they confided their worries to him. He was invited to their home and got to know their family. This relationship, which became very personal, also sometimes became friendly.

So he had to live two different lives: that of an undercover agent who records every conversation with his targets, sneaking up on them to accumulate clues and evidence to feed his reports; and that of a human being in a relationship with other human beings who trust him.

His work led to the arrest of criminals, the seizure of their property and the break-up of their families. When it came to those he had come to appreciate in spite of everything, he suffered, he cried and for a while he didn't know where he stood, paying for the duplicity of his double life.

Only those with limited experience can believe that it is possible for a spy to accomplish his mission by keeping a cold emotional distance from each of the people, his targets, whom he comes into close contact with and betrays.

*     *


The second lesson is sociological.

Robert Mazur wanted to go as far up the criminal hierarchy as possible, to unmask its organisation and, ultimately, to give customs the means to destroy it. This action was certainly fundamentally faithful to the mission of customs, but not to the rules and behaviours that had become part of their organisation.

In customs, you had to seize a lot of kilos of drugs to climb the career ladder. Those who had this simple ambition, but considered it sufficient, envied, despised and hated with all their heart the man who had sneaked into the cartels at the risk of his life, and in whom they saw only a schemer. They also feared that his investigations would reveal complicity within the ranks of customs or, worse still, among political leaders.

For his superiors, Mazur was going much too far.

Moreover, when his reports announced a forthcoming drug shipment, how could they resist the temptation to gain fame and promotion by making a major seizure, even if it meant putting the undercover's life in danger because he was the only one who could have given this information? It is also not impossible that some of his superiors may have obscurely wished to be rid of him in this way.

Experience can confront anyone with a situation of this kind. The organisation of an institution or a company is often based on an impoverished definition of its mission: the formalism of the hierarchy and procedures is believed to be sufficient to guarantee the quality of decisions and the effectiveness of action.

On the other hand, those who adhere to the mission and want to serve it authentically will dare, if necessary, to free themselves from this superficial formalism. Like Mazur, they will attract some sympathy, but will run the risk of being seen by their bosses as someone who "makes a fuss", thus attracting the hatred that will manifest itself in invective, obstacles in the way, budgetary pettiness or worse.