samedi 10 août 2019

L’ordinateur, « automate programmable ubiquitaire »

Voici le texte de la vidéo diffusée aujourd'hui sur ma chaîne YouTube :

En 1954 IBM voulait trouver un nom français pour ses machines et éviter le mot « calculateur » qui lui semblait mauvais pour son image. Le linguiste Jacques Perret a proposé dans sa lettre du 16 avril 1955 d’utiliser « ordinateur », mot ancien passé d’usage qui signifie « celui qui met en ordre » et désigne aussi celui qui confère un ordre de l’Église.

« Ordinateur » est un faux ami. L’ordinateur met-il vos affaires en ordre ? Certes non. C’est vous qui devez les mettre en ordre et si vous n’y prenez pas garde un désordre inouï se créera dans vos dossiers. L’ordre ne peut venir que de vous, non de votre ordinateur.

La réalité que désigne le mot « ordinateur » est en fait un « automate programmable ». Je m’explique.

Un automate est une machine qui accomplit exactement, et dans l’ordre, les opérations pour lesquelles elle a été conçue. La liste de ces opérations n’est pas nécessairement écrite sous la forme d’un programme car elles peuvent résulter de l’enchaînement d’une série d’actions mécaniques. Le « canard digérateur » de Vaucanson savait en 1739 picorer des grains de maïs, les broyer, les mêler à de l’eau et les rejeter : il imitait ainsi le vrai canard qui mange et rejette des excréments sans lui ressembler en rien du point de vue de l’anatomie. Le métier Jacquard est en 1801 un automate qui obéit à un programme inscrit sur un carton perforé, mais il ne sait accomplir qu’un seul type d’opération : le tissage.

Il a fallu un étonnant effort d’abstraction pour mettre toute application entre parenthèses afin de concevoir l’automate programmable, fait pour accomplir tout ce qu’il est possible de programmer. Cet automate programmable, c’est l’ordinateur. Dans les équipements électromécaniques les plus divers son programme se substitue de façon efficace aux engrenages et ressorts qui étaient auparavant nécessaires pour commander une série d’actions. La puissance de calcul de son processeur lui confère en outre une rapidité qui simule certaines des fonctions de l’intelligence.

Il faut ajouter encore l’adjectif « ubiquitaire » : chaque « ordinateur » donne accès un « automate programmable ubiquitaire ». Cette expression désigne non une machine, ordinateur de bureau ou téléphone « intelligent », mais l’ensemble technique, logique et fonctionnel que le réseau met à la disposition de tout utilisateur sous la seule limite de ses habilitations. Les ressources de puissance et de mémoire dont nous disposons ne sont en effet pas seulement celles de la machine qui est entre nos mains, mais celles aussi des machines auxquelles l’internet donne accès. Un nuage de programmes et de documents (textes, images, sons, vidéos), également accessible depuis partout et que chacun peut enrichir, entoure ainsi le monde.

Il faut avoir à l’esprit l’expression « automate programmable ubiquitaire » chaque fois que l’on prononce ou entend le mot « ordinateur ».

La diversification que procure à l’automate son caractère programmable ne doit pas faire oublier qu’il ne fait qu’exécuter les instructions de ses programmeurs. Contrairement à l’être humain l’automate programmable est dépourvu d’intentions, insensible aux connotations et donc incapable d’accéder au sens de ce qu’on lui dit. Il est à la fois très précis, très rapide et d’une extrême raideur : il faut apprendre à savoir vivre et travailler avec lui - et ne pas céder aux illusions qu'éveille l'expression « intelligence artificielle ».



lundi 5 août 2019

Qu'est-ce qu'une « donnée » ?

Voici le texte de la vidéo diffusée aujourd'hui sur ma chaîne YouTube :

Derrière le mot « donnée » se trouve un piège. Ce mot suggère en effet que les « données » ont été données par la nature comme s’il s’agissait d’une matière première, d’un minerai. Des expressions comme « big data », « data lake » ou « entrepôt de données » suggèrent qu’il suffirait de les déverser dans un lieu de stockage pour pouvoir les utiliser à sa guise.

Mais les données ne sont pas une matière première. Elles ont été produites et avant d’être produites elles avaient été choisies1. Leur qualité est déterminée par celle de cette production et de ce choix et si le choix a été mal orientée, si la production a été erronée, on ne pourra rien en tirer qui vaille car « garbage in, garbage out ». Disons-le en bon français : si vous stockez de la merde dans vos data lakes et autres datawarehouses, l’intelligence artificielle la plus puissante ne pourra fournir que de la merde. Cela arrive souvent dans les entreprises trop négligentes.

Les choix qui définissent les données d’une entreprise se font en trois étapes :
  • d’abord elle choisit, dans l’immensité du monde réel, d’observer quelques populations (j’emprunte ici son vocabulaire à la démographie) : clients, équipements, produits, agents, etc. ;
  • ensuite elle choisit les quelques attributs qu’il lui convient d’observer parmi les attributs innombrables des individus qui appartiennent à ces populations ;
  • enfin elle choisit la façon dont les observations seront codées : périodicité, unité de mesure, nomenclature pour les données qualitatives.

Ces choix doivent répondre aux besoins pratiques de l’entreprise, à sa relation avec les êtres qu’elle observe, aux exigences de l’action dans la situation qui est la sienne : ils sont donc soumis à un critère de pertinence. Ce critère n’est pas d’application facile ni évidente car comme la situation évolue ce qui était pertinent hier peut ne plus l’être aujourd’hui.

Il ne suffit pas d’avoir fait les bons choix, d’avoir défini les bons « concepts » : il faut encore que l’observation soit exacte, c’est-à-dire capable d’alimenter un raisonnement exact, une action judicieuse. Souvent un ordre de grandeur pourra suffire alors qu’un excès de précision serait fallacieux (il ne convient pas de mesurer la taille d’un être humain au micron près) : l’exactitude n’est pas la même chose que la précision.

Chaque « concept » est le couple que forment une idée et une définition. Ainsi pour se représenter un cercle l'idée d'un rond régulier peut suffire. Le concept de cercle lui ajoute une définition, « lieu des points d'un plan à égale distance d'un point donné », qui seule permet de déduire les propriétés du cercle (surface, longueur de la circonférence, etc.).
Il faudrait une infinité de concepts pour décrire entièrement un être concret, sa forme géométrique, sa composition moléculaire, son histoire, etc. La « grille conceptuelle » à travers laquelle il est perçu ne retient que quelques concepts et fait abstraction des autres. La qualité de cette grille s'évalue selon sa pertinence en regard des exigences de l'action.
Pour éviter malentendus les noms que l'entreprise donne aux concepts ne doivent comporter ni synonymes, ni homonymes.

Beaucoup d’erreurs seraient évitées si on remplaçait le mot « donnée » par le mot « observation ». Les observations peuvent être le fait d’un être humain ou de capteurs automatiques mais dans tous les cas la définition de ce qu’ils observent aura été choisie.

Des données sont enfin calculées en soumettant le résultat des observations à un algorithme : c’est ainsi que l’on obtient des indicateurs de gestion, le résultat d’une entreprise, le taux de croissance du PIB, etc. La qualité des données calculées dépend d’une part de celle des observations qui alimentent le calcul, d’autre part de celle de l’algorithme.

Pertinence des concepts, exactitude de l’observation, unicité du nommage et, pour les données calculées, justesse de l’algorithme : ce sont les quatre critères qui permettent de vérifier l’adéquation des données aux exigences de l’action.
____
1 Andrea Jones-Rooy, I’m a data scientist who is skeptical about data, Quartz, 24 juillet 2019.