mardi 17 mars 2020

De l'analyse des données à la troisième IA

(Cet épisode fait partie de la série "Dynamique et ressort de l'intelligence artificielle".)

Épisode précédent : Les hivers des deux premières IA

Analyse des données = informatique + statistique

Les techniques de l’analyse des données développées dans les années 1960-70 ont anticipé la démarche qui sera celle de la troisième IA.

La statistique, avec ses « tris à plat » et ses « tris croisés », avait d’abord publié essentiellement des totaux et des moyennes, puis la régression multiple, qui estime une variable quantitative à partir de ses corrélations avec d’autres variables dont la valeur est connue, a fourni son principal outil à l’économétrie.

L’analyse systématique des corrélations nécessitait cependant une « analyse factorielle » qui suppose de pouvoir calculer les vecteurs propres d’un tenseur d’ordre deux de grande dimension. Seul l’ordinateur en était capable : les progrès de l’informatique permirent de la développer à partir des années 1960 selon diverses méthodes qui sont toutes (ainsi que la régression) des cas particuliers de l’analyse canonique généralisée5 :
  • l’analyse en composantes principales (ACP) de Hotelling6 visualise la corrélation de données quantitatives ;
  • l’analyse factorielle des correspondances (AFC) de Benzécri7 visualise la corrélation de données qualitatives, telle que la mesure leur chi2 ;
  • l’analyse factorielle discriminante (AFD) met en évidence la corrélation entre des symptômes et un diagnostic, technique qui sera comme nous le verrons enrichie et approfondie par la troisième IA ;
  • à ces analyses factorielles étaient associées des techniques de classification automatique qui permettent de délimiter des « clusters » dans un espace de grande dimension.
L’analyse des données a rencontré de façon précoce certains des problèmes auxquels l’IA est aujourd’hui confrontée :
  • la qualité des résultats d’une analyse dépend de celle des données qui l’alimentent : la règle « garbage in, garbage out » est implacable, mais il est parfois très difficile de « nettoyer les données » ;
  • l’examen des corrélations procure des « indices » utiles mais leur interprétation nécessite de se référer à un cadre théorique que la statistique à elle seule ne comporte pas ;
  • l’analyse discriminante permet des indiscrétions (estimer par exemple les opinions d’une personne à partir d'une observation de son comportement), ce qui peut se révéler à la fois contraire à l’éthique et dangereux.
La classification automatique suppose par ailleurs des choix qui doivent être pertinents en regard du but visé par l’étude. Il faut en effet choisir :
  • l'ensemble à classifier en définissant les éléments (« individus ») qui le composent ;
  • les attributs observés sur chaque individu ;
  • pour chaque couple d'individus une distance, fonction de la différence entre leurs attributs (« critère de classification ») ;
  • une distance entre les sous-ensembles (« stratégie d'agrégation »).
L'analyse des données fournit des graphiques (projection des « nuages de points » sur les plans définis par deux axes factoriels, « arbre » représentant une classification) et des « aides à l'interprétation » qui attirent l'attention sur les phénomènes les plus significatifs du point de vue de la statistique. Comme elle est cependant fondée sur les seules corrélations, elle ignore les causalités et ne procure donc aucune explication de ces phénomènes. L'expérience montre que l'interprétation doit sortir de la statistique pour se référer aux hypothèses causales que comporte la théorie du domaine observé.

L'un des résultats les plus féconds d'une analyse des données est l'éventuelle contradiction qu'elle apporte à la théorie, et qui révèle soit une erreur dans les données (c'est le cas le plus fréquent), soit un phénomène réel que la théorie n'a pas pris en compte (c'est le cas le plus intéressant) : mais il faut connaître la théorie pour pouvoir percevoir une telle contradiction.

 Troisième IA : automatiser le diagnostic

Vers 2000 l’augmentation de la puissance des ordinateurs a permis de relancer les recherches en IA. Alors que l'analyse factorielle discriminante8 procurait les combinaisons linéaires de symptômes qui distinguent au mieux les diagnostics, la recherche s’est alors appliquée à mettre au point des méthodes d’analyse discriminante pour la reconnaissance d’images et d’autres types de diagnostic9 :
  • une machine à vecteurs de support (Support Vector Machines10, SVM) indique la frontière, éventuellement sinueuse, qui sépare au mieux les individus selon leur diagnostic dans le nuage de points qui les représente dans l'espace des symptômes ;
  • un réseau neuronal est un ensemble d'algorithmes communiquant par des liaisons, nommées « synapses », dont la pondération non linéaire tâtonne jusqu'à ce que l'interprétation des symptômes soit conforme au diagnostic : c’est l’« apprentissage supervisé » (supervised learning) ;
  • le scoring permet d’associer à un diagnostic (ou de façon générale à un classement) une évaluation quantitative de sa vraisemblance : il s’obtient par une régression ;
  • l’« apprentissage non supervisé » (unsupervised learning) est une technique de classification automatique qui classe les « individus » selon leurs attributs et sans faire référence à un diagnostic : elle suppose de choisir un critère de classification et une stratégie d’agrégation.
Le réseau neuronal a été utilisée par exemple pour diagnostiquer le cancer du col de l’utérus11 : étalonné sur 100 000 images de cas pour lesquels le diagnostic est connu (tissu sain, inflammation bénigne, lésion pré-cancéreuse, suspicion de cancer), il fournit le petit logiciel qui équipera un iPhone et fournira une estimation du diagnostic.  

Alors que l’utilisation sur le terrain de cet outil « intelligent » est commode, sa préparation a nécessité un important travail humain pour constituer la base d’images, régler le réseau neuronal et tester la méthode sur un échantillon (un dixième des images de la base avait été réservé à cette fin).

Un réseau neuronal est une « boîte noire » car personne ne peut savoir pourquoi il est arrivé à un résultat. Cela contrarie les esprits logiques et certains praticiens jugent les SVM plus efficaces que les réseaux neuronaux. D'autres ont l'opinion contraire, d'autres encore estiment que la meilleure méthode s'appuie sur une combinaison des deux12.

Ces méthodes rencontrent les mêmes difficultés que l’analyse des données (« garbage in, garbage out », interprétation), auxquelles s’ajoute le risque d’un surapprentissage (excessive fidélité aux particularités de l’échantillon que contient la base de données). Dans tous les cas, la mise au point d’un outil d’« intelligence artificielle » fiable et d’usage commode suppose un important travail humain pour collecter les données, conforter leur qualité, régler les paramètres de l’outil et tester sa performance.

Épisode suivant :  Vers un troisième « hiver de l'IA » ?
 ___
5 Michel Volle, Analyse des données, Economica, 1997, p. 233.  
6 Harold Hotelling, « Analysis of a Complex of Statistical Variables with Principal Components », 1933, Journal of Educational Psychology, 1933.
7 Jean-Paul Benzécri, L’analyse des données, Dunod, 1982.
8 Michel Volle, op. cit., p. 206.  
9 Gérard Dreyfus et alii, Apprentissage statistique, Eyrolles, 2008.  
10 Corinna Cortes et Vladimir Vapnik, « Support-Vector Networks », Machine Learning 20, 1995.
11 Cary Champlin, David Bell et Celina Schocken, « AI Medicine Comes to Africa's Rural Clinics », Spectrum, mai 2017.
12 Yichuan Tang, « Deep Learning using Linear Support Vector Machines », International Conference on Machine Learning, 2013.

Aucun commentaire:

Enregistrer un commentaire