Stéphane Grumbach et Stéphane Frénot ou publié dans dans Le Monde du 7 janvier 2013 un article qui développe ce qui se dit souvent sur le Big Data : « Les données, puissance du futur ».
Il est vrai que l’Internet apporte des moyens éditoriaux puissants aux institutions qui produisent des statistiques, et aussi que les observations collectées par les processus informatiques permettent des traitements inédits. Il faut bien sûr être conscient des possibilités et des dangers nouveaux que cela comporte.
Les auteurs de cet article manient cependant avec trop peu de précautions les bombes sémantiques que sont les mots « donnée » et « information ». Des expressions comme « numérisation de tout », « société de l’information », « masse de données », « une ressource peu différente des matières premières comme le charbon ou le minerai de fer » sont trompeuses : incitant à considérer les données selon leur volumétrie, elles font glisser sur la pente de la « théorie de l’information ». Shannon, qui assimilait l’information qu’apporte un message au logarithme de sa longueur après compression, disait « meaning doesn’t matter », « la signification n’a pas d’importance ».
Voici ce qu’enseigne la pratique du métier de statisticien :
- Les « données » sont en fait des observations sélectives : elles ne sont pas « données » par la nature mais définies a priori par un observateur afin que leur mesure puisse être ensuite « donnée » à l’ordinateur.
- L’« information » donne une « forme intérieure » au cerveau de celui qui la reçoit et confère à celui-ci une capacité d’action. Celle-ci ne peut cependant se dégager que si les données sont interprétées : il faut pour cela postuler un lien de causalité entre les concepts dont la mesure a été observée.
- L’analyse des données la plus pointue ne faisant qu’exploiter des corrélations, il faut posséder une bonne maîtrise de la théorie du domaine observé pour savoir comment passer de la corrélation à la causalité.
Quelques mots sur le dernier point : la théorie, c’est le trésor des interprétations antérieures condensé sous la forme d’un ensemble de concepts reliés par des causalités – trésor qu’il faut souhaiter exempt du dogmatisme, du pédantisme et de l’étroitesse qui sont des maladies de la théorie.
Celui qui ignore la théorie tombera fatalement dans quelqu’une des naïvetés que l’expérience avait depuis longtemps repérées. L’observation dont les données résultent s’appuyait d’ailleurs elle-même sur une théorie (parfois implicite) qui lui a fourni ses concepts et dont il convient d’avoir au moins une intuition.
L’expérience des services de renseignement montre que l’interprétation (qu’ils appellent « synthèse ») importe beaucoup plus que la collecte : mieux vaut collecter peu de données bien choisies et que l’on sache interpréter, plutôt que de se laisser écraser par une collecte massive. Il est donc périlleux de situer la valeur ajoutée dans les seuls stockage et traitement informatique des données.
Si l’on néglige cela le Big Data n’apportera que de la confusion. Par contre si l’on sait s’y prendre il constitue en effet une ressource et donc, comme le disent Grumbach et Frénot, un enjeu.
Michel Volle
Michel Volle (Polytechnique - ENSAE) économiste, a été responsable des statistiques d'entreprise et des comptes nationaux trimestriels à l'INSEE puis chief economist au CNET (Centre Nationale d'Etudes des Télécommunications) avant de créer des sociétés de conseil en système d'information. Il est l'auteur de plusieurs ouvrages.