mardi 29 mars 2022

De l’analyse des données à l’intelligence artificielle

J’ai inauguré le cours d’analyse des données à l’ENSAE de 1972 à 1982. Il a pris forme petit à petit et sa version la plus achevée est Analyse des données, 4ème édition, Economica, 1997.

Contrairement à l’apprentissage profond de l’intelligence artificielle, qui peut donner de bons résultats mais sans que l’on puisse savoir comment et pourquoi, l’analyse des données est logiquement transparente car elle utilise des opérations mathématiques bien définies et donc parfaitement claires.

Les données qu’il s’agit d’analyser donnent naissance, selon une formule judicieusement choisie, à un nuage de points munis d’une masse et plongés dans un espace métrique (ou plutôt à deux nuages, liés par une relation de dualité). Un algorithme récursif permet de trouver les « axes factoriels » le long desquels le nuage de points est le plus étiré. En projetant le nuage sur un couple d’axes, on obtient une visualisation et elle sera encore plus éclairante si l’on projette aussi le nuage dual.

Tout tableau de nombres est opaque : personne ne sait vraiment lire un tableau ayant plus d’une dizaine de lignes et de colonnes. L’image qu’en donne une analyse factorielle permet, moyennant une perte d’information aussi faible que possible, de voir ce qu’il contient : cette analyse est analogue à la radiographie qui surmonte l’opacité du corps humain et permet de voir ses organes.

Le calcul répétitif nécessaire pour trouver les axes factoriels était théoriquement possible avant que l’on dispose d’un ordinateur, mais épouvantablement fastidieux et donc en pratique impossible. Avec l’informatique, le processeur exécutera très rapidement les calculs que nécessite l’algorithme : c’est l’informatisation qui a permis de développer l’utilisation de l’analyse des données à partir des années 1960.

Elle comporte diverses méthodes adaptées chacune à une structure de données.

L’analyse en composantes principales convient pour visualiser la corrélation entre des variables quantitatives. L’analyse des correspondances s’applique à des « tableaux de contingence » dans lesquels une population d’« individus » est classée selon le croisement de deux variables qualitatives (« région » et « classe d’âge » en démographie par exemple). Ces deux méthodes, auxquelles on peut utilement associer des classifications automatiques, sont descriptives : mettant en évidence la structure géométrique et logique qui sous-tend les données, elles sont analogues au « unsupervised machine learning ».

L’analyse discriminante est, elle, analogue au « supervised machine learning » : à chaque point du nuage est associée une étiquette qui le classe selon une nomenclature, et l’analyse discriminante – qu’il s’agisse d’une analyse factorielle ou d’une machine à vecteurs de support – met en évidence la structure spatiale selon laquelle sont groupés les points ayant la même étiquette : par analogie avec la médecine, chaque point peut représenter un « individu », chaque coordonnée un « symptôme », chaque étiquette un « diagnostic ».

Si par la suite on considère un individu dont on connaît les symptômes, mais non le diagnostic, ce dernier pourra être estimé en attribuant au point qui le représente l’étiquette du groupe de points dont il est le plus proche (et en lui attribuant aussi, grâce à une régression, un « score » de vraisemblance). La qualité du diagnostic dépend évidemment de la qualité des données qui l’alimentent.

Je cite ici un commentaire dans mon cours (p. 208) qui s’applique aussi au « supervised machine learning » :

« Un peu de réflexion permet de voir que l’analyse discriminante présente certains dangers. Elle peut être considérée comme l’instrument statistique de l’indiscrétion, dans la mesure où elle permet d’estimer des variables qualitatives que les individus préféreraient cacher, à partir d’indications qu’ils donnent sans méfiance. Certes, elle ne fait que systématiser une démarche que tout un chacun pratique à petite échelle – lorsqu’on infère, par exemple, de l’aspect extérieur d’une personne (habillement, coiffure, accent, maintien) à ses opinions et à ses goûts. Mais elle donne à cette démarche toute la puissance du calcul automatique. »

Les réseaux neuronaux du « deep learning » apportent une technique puissante pour classer les individus et estimer des diagnostics. Mais cette technique n’a pas la clarté que les mathématiques procurent à l’analyse factorielle et à la classification automatique car elles mettent en œuvre, de façon très empirique, un enchevêtrement d’opérations dont la complexité défie la logique.

Ou du moins elle semble la défier. Car enfin les opérations répétitives qui permettent de paramétrer un réseau neuronal ressemblent beaucoup à celles qu’exécute l’algorithme récursif qui cherche les coordonnées d’un axe factoriel et s’arrête lorsqu’est atteinte une approximation jugée acceptable. Peut-être trouvera-t-on un jour la formule mathématique (et non plus seulement empirique) qui permet de comprendre exactement pourquoi et comment un réseau neuronal peut converger vers un résultat acceptable.

2 commentaires:

  1. D'Alain Lelu à Michel Volle

    Cher Michel,
    Merci pour tes analyses concises et pertinentes. Tu m'autoriseras seulement un léger correctif à "Les réseaux neuronaux du « deep learning » apportent une technique puissante pour classer les individus et estimer des diagnostics. Mais cette technique n’a pas la clarté que les mathématiques procurent à l’analyse factorielle et à la classification automatique".
    En effet les années récentes ont vu émerger en tant que domaine de recherche en soi celui de l'apprentissage automatique explicable [interprétable/ transparent/...] - faute de telles qualités l'intelligence artificielle ne peut guère se développer dans des applications à risque vital comme la médecine, la défense, les véhicules autonomes, nous sommes bien d'accord... On peut citer deux conférences :
    - IJCAI 2017 Workshop on Explainable AI,
    - ACM Conference on Fairness, Accountability and Transparency 2018.
    Le réglement européen RGPD introduit en 2018 aussi le "droit à l'explication".
    Dans le domaine qui m'est plus familier de l'analyse des données textuelles, Laurent Vanni et ses collègues sont parvenus à extraire des motifs linguistiques saillants complexes à partir de réseaux neuronaux "profonds" (L. Vanni et al. 2021 "From text saliency to linguistic objects: learning interpretable markers with a microchannels convolutional architecture" - HAL-CNRS).
    Tous mes encouragements,
    Alain Lelu

    RépondreSupprimer
  2. « L’instrument statistique de l’indiscrétion » est une jolie expression. Concrètement qu’est-ce que cela signifie ? Poser 10 questions bien choisies, a priori insignifiantes, à une personne et vous connaîtrez avec une probabilité de 95% ses orientations politiques, religieuses, sexuelle. Son niveau d’éducation, son taux d’imposition, ses revenus annuels, et même les événements futurs dont elle n’a pas connaissance. C’est ainsi que fonctionne la magie de la standardisation sociale qui facilite les calculs puis le contrôle de la population, espérons dans son intérêt.

    RépondreSupprimer