jeudi 24 janvier 2013

Comment utiliser le Big Data

(in English : How to use Big Data)

Stéphane Grumbach et Stéphane Frénot ou publié dans dans Le Monde du 7 janvier 2013 un article qui développe ce qui se dit souvent sur le Big Data : « Les données, puissance du futur ».

Il est vrai que l'Internet apporte des moyens éditoriaux puissants aux institutions qui produisent des statistiques, il est vrai aussi que les observations collectées par les processus informatiques permettent des traitements inédits. Il faut bien sûr être conscient des possibilités et des dangers nouveaux que cela comporte.

Les auteurs de cet article manient cependant avec trop peu de précautions les bombes sémantiques que sont les mots « donnée » et « information ». Des expressions comme « numérisation de tout », « société de l'information », « masse de données », « une ressource peu différente des matières premières comme le charbon ou le minerai de fer » sont en effet trompeuses : incitant à considérer les données selon leur volumétrie, elles font glisser sur la pente de la « théorie de l'information ».

Shannon, qui assimilait l'information qu'apporte un message au logarithme de sa longueur après compression, disait « meaning doesn't matter », « la signification n'a pas d'importance ». L'énergie impressionnante de cette affirmation masque mal son absurdité.

Voici ce que m'a enseigné la pratique du métier de statisticien :
  1. Les « données » sont en fait des observations sélectives : elles ne sont pas « données » par la nature mais définies a priori par un observateur afin que leur mesure puisse être ensuite « donnée » à l'ordinateur.
  2. L'« information » donne au cerveau de celui qui la reçoit une « forme intérieure » qui lui confère une capacité d'action. Cette capacité ne peut cependant se dégager que si les données sont interprétées, ce qui suppose de postuler un lien de causalité entre les concepts dont la mesure a été observée.
  3. L'analyse des données la plus pointue ne faisant qu'explorer des corrélations, il faut posséder une bonne maîtrise de la théorie du domaine observé pour pouvoir passer de la corrélation à la causalité.
Quelques mots sur le dernier point : une théorie, c'est le trésor des interprétations antérieures condensé sous la forme de liens de causalité entre les concepts – trésor qu'il faut souhaiter exempt du dogmatisme, du pédantisme et de l'étroitesse qui sont autant de maladies pour la théorie.

Celui qui ignore la théorie tombera fatalement, comme cela m'est arrivé, dans quelqu'une des naïvetés que l'expérience des théoriciens avait depuis longtemps repérées. L'observation dont les données résultent s'appuyait d'ailleurs elle-même sur une théorie (parfois implicite) qui lui a fourni ses concepts et dont il convient d'avoir au moins une intuition.

Le fonctionnement des services de renseignement montre que l'interprétation (qu'ils appellent « synthèse ») importe beaucoup plus que la collecte : mieux vaut collecter peu de données bien choisies, et que l'on sache interpréter, plutôt que de se laisser écraser par une collecte massive.

Il est donc périlleux de situer la valeur ajoutée dans les seuls stockage et traitement informatiques des données. Si l'on néglige cela le Big Data n'apportera que de la confusion. Par contre si l'on sait s'y prendre il constitue en effet une ressource - et donc, comme le disent Grumbach et Frénot, un enjeu.

5 commentaires:

  1. Tout à fait d'accord avec ce billet.

    La nuance, avec les Big Data, est le fait que ces montagnes de données sont déjà là, ou plutôt sont déjà produites (mais la plus grande partie se dissipe faute de pouvoir être stockées : les systèmes de gestion temps réel ne sont pas des entrepôts de données historiques). C'est en cela que leur nom de "données" se justifie.

    Comme vous le dites, il s'agit d'un "gisement" de nature différente des gisements de matière, puisque l'exploitation du gisement ne l'use pas, mais tend à l'enrichir.

    L'interprétation et l'usage des big data ne sont pas pour autant "à coût d'investissement nul" ; il y a un coût d'expertise des données elles-mêmes, un coût d'expertise métier (les deux permettant d'éviter les 'naïvetés que l'expérience avait depuis longtemps repérées') et un coût d'investissement informatique dans les outils qui retraiteront les "données".

    La question de la qualité des données — des référentiels, de la collecte, etc. — est toujours aussi importante, mais elle est *déportée* puisque celui qui constitue les données, et qui en paye le coût, n'est pas forcément leur utilisateur. Ce dernier doit donc gérer la non-qualité de la donnée pour ce qu'elle est, sans pouvoir rétroagir sur les conditions de production des données.

    Et il me semble que l'économie et l'économétrie américaine (sans parler des professionnels du marketing) sont bien plus habitués que nous à traiter, gérer, utiliser des quantités de données médiocres, sans états d'âme. Souvent pour en tirer des conclusions tout aussi médiocres — mais il n'empêche, c'est une technologie et un "art" à développer, de façon à améliorer le rapport "d'enrichissement" entre qualité médiocre du "minerai" données, et qualité des conclusions à en tirer.

    J'en donnerai un exemple (publicitaire) avec net-conversations.fr : quel processus *d'échantillonnage ex post*, sur l'ensemble des messages postés sur internet sur un sujet donné, permet d'en tirer des analyses probantes (réfutables, reproductibles, triangulables) sur ce que vivent ou pensent les consommateurs ou citoyens.

    RépondreSupprimer
  2. Je complète par un extrait du "Métier de statisticien", vers lequel vous aevez bien voulu renvoyer, et qui disait tout cela bien mieux que moi :

    Quand "la gestion administrative elle-même s'organise autour du fichier informatique" (ce qui est toujours le cas), "et si de surcroît la conception des documents de base et de la structure du fichier se fait en tenant compte des impératifs de la statistique" (ce qui n'est que partiellement vrai, mais l'est pour les entrepôts de données), cela "peut permettre d'importantes économies de collecte, et aussi ouvrir l'accès à des informations que l'on n'aurait jamais envisagé d'obtenir par voie d'enquête en raison du coût de l'opération".

    "Revenons-en à la représentation de l'information qui se trouve derrière l'image du " trésor " ... l'information est assimilée à de la monnaie, ou tout au moins à un produit éminemment échangeable, et la tâche du statisticien serait alors de la capter, de la canaliser et de la redistribuer (de même que la tâche du financier est de capter, canaliser et redistribuer l'épargne). Mais l'image monétaire est trompeuse ; … il vaudrait mieux comparer l'information à la marchandise, répartie selon des catégories dont chacune correspond à une technique de production et un besoin déterminés : … (cette analogie) permet … de considérer un " stock " d'informations d'origine administrative (gestionnaire)… comme un entrepôt rempli de biens dont une partie est avariée ou inutile, et qu'il faut trier avant usage."

    C'est précisément là, je crois, le métier de l'utilisation des big data.

    RépondreSupprimer
  3. Encore un complément ! Un partenaire m'envoie à un autre sujet une citation de Burt Perrin qui dit cela très bien aussi :

    “Information does not necessarily translate into knowledge. . . some form of knowledge management is critical. How else can one deal with ever-increasing amounts of disparate and seemingly contradictory information streaming in from numerous sources? But the primary challenge to KM is much greater than just dealing with a large quantity of information. How does one separate the wheat from the chaff, determine what information is potentially relevant and useful, and what is not? How does one decide what information is valid and trustworthy, and to what extent? More basically, how can one translate information into useful, practical knowledge than can be applied on a timely basis here and now in the real world?”

    Perrin, Burt. (2006) How Evaluation Can Help Make Knowledge Management Real (in Ray Rist and Nicoletta Stame – "From Studies to Streams: Managing Evaluative Systems", London, Transaction Publishers)

    RépondreSupprimer
  4. Pour une fois, je ne résiste pas à rappeler (de mémoire) cette formule de notre lointain temps de potache qu'il me semble bienvenue de faire remonter du fond de nos mémoires:
    les données ne sont pas données (il faut -beaucoup- de travail pour se les procurer)
    les données ne sont pas données (elles coûtent de l'argent pour être collectées, stockées, ...)
    les données ne sont pas données (leur signification constructive n'est pas d'évidence mais fruit d'une mise en perspective, statistique, économétrique, ...)

    Et, je me permettrais d'apporter un bémol au rôle premier et structurant du cadre théorique ... il faut aussi ne pas oublier de le réfuter (et donc changer de cadre)si les données ne valident pas.

    RépondreSupprimer
  5. Bonjour,

    Pour former les personnels des entreprises et les étudiants aux bases de la gestion des données, je peux dire qu'il y a beaucoup de travail.

    Pour l'essentiel de mes stagiaires, la compréhension même de ce qu'est une donnée et les rapports qui unissent les données entre elles (dépendance ou indépendance fonctionnelle), les règles de base du stockage ... terra incognita.

    Les fondations même de l'édifice sont absentes.

    Je ne ferai évidemment pas une critique de la statistique sur le site d'un de ses éminents professeurs mais à l'époque du data mining triomphant, n'aurions nous pas oublié la valeur de cette information simple donnée par un client lors d'un entretien téléphonique. Cette information n'est pas codifiable mais elle peut être précieuse. Et si tout cet arsenal informatique n'était qu'un palliatif à l'incapacité qu'ont nos organisations à gérer une "donnée complexe" qui certes ne se codifie pas aisément mais qui contient en elle-même la finesse et la nuance de la réalité et qui suffit à faire jaillir l'Idée.

    Thierry

    RépondreSupprimer