
Amitiés, pensées, échanges, déplacements : la plupart des activités humaines donnent désormais lieu à une production massive de données numérisées. Leur collecte et leur analyse ouvrent des perspectives parfois enthousiasmantes qui aiguisent l’appétit des entreprises. Mais la mise en données du monde risque aussi de menacer les libertés, comme le montre le tentaculaire programme de surveillance conduit aux Etats-Unis.
Au IIIe siècle avant notre ère, on disait de la bibliothèque d’Alexandrie qu’elle renfermait la totalité du savoir humain. De nos jours, la masse d’informations disponibles est telle que, si on la répartissait entre tous les Terriens, chacun en recevrait une quantité trois cent vingt fois supérieure à la collection d’Alexandrie : en tout, mille deux cents exaoctets (milliards de milliards d’octets). Si on enregistrait le tout sur des CD, ceux-ci formeraient cinq piles capables chacune de relier la Terre à la Lune.
L’hyperinflation des données est un phénomène relativement nouveau. En 2000, un quart seulement des informations consignées dans le monde existaient au format numérique. Papier, film et support analogique se partageaient tout le reste. Du fait de l’explosion des fichiers — leur volume double tous les trois ans —, la situation s’est renversée dans des proportions inouïes. En 2013, le numérique représente plus de 98 % du total. Les Anglo-Saxons ont forgé un terme pour désigner cette masse devenue si gigantesque qu’elle menace d’échapper au contrôle des gouvernants et des citoyens : les big data, ou données de masse.
Devant leur démesure, il est tentant de ne les appréhender qu’en termes de chiffres. Mais ce serait méconnaître le cœur du phénomène : l’immense gisement de données numériques découle de la capacité à paramétrer des aspects du monde et de la vie humaine qui n’avaient encore jamais été quantifiés. On peut qualifier ce processus de « mise en données » (datafication). (...)
A travers Facebook, même les goûts personnels, les relations amicales et les « j’aime » se changent en données gravées dans la mémoire virtuelle. Il n’est pas jusqu’aux mots qui ne soient eux aussi traités comme des éléments d’information depuis que les ordinateurs explorent des siècles de littérature mondiale numérisée.
Les bases ainsi constituées se prêtent à toutes sortes d’usages étonnants, rendus possibles par une mémoire informatique de moins en moins coûteuse, des processeurs toujours plus puissants, des algorithmes toujours plus sophistiqués, ainsi que par le maniement de principes de base du calcul statistique. (...)
Pareil usage suppose trois changements majeurs dans notre approche. Le premier consiste à recueillir et à utiliser le plus grand nombre possible d’informations plutôt que d’opérer un tri sélectif comme le font les statisticiens depuis plus d’un siècle. Le deuxième implique une certaine tolérance à l’égard du désordre : mouliner des données innombrables, mais de qualité inégale, s’avère souvent plus efficace qu’exploiter un petit échantillon impeccablement pertinent. Enfin, le troisième changement implique que, dans de nombreux cas, il faudra renoncer à identifier les causes et se contenter de corrélations. Au lieu de chercher à comprendre précisément pourquoi une machine ne fonctionne plus, les chercheurs peuvent collecter et analyser des quantités massives d’informations relatives à cet événement et à tout ce qui lui est associé afin de repérer des régularités et d’établir dans quelles circonstances la machine risque de retomber en panne. Ils peuvent trouver une réponse au « comment », non au « pourquoi » ; et, bien souvent, cela suffit. (...)
Google et l’algorithme de la grippe
De même qu’Internet a bouleversé les modes de communication entre individus, la manière dont la société traite l’information se trouve radicalement transformée. Au fur et à mesure que nous exploitons ces gisements pour élucider des faits ou prendre des décisions, nous découvrons que, à bien des égards, nos existences relèvent de probabilités davantage que de certitudes. (...)
Mais, dans un monde où les données de masse orientent de plus en plus étroitement les pratiques et les décisions des puissants, quelle place restera-t-il au commun des mortels, aux réfractaires à la tyrannie numérique ou à quiconque marche à contre-courant ? Si le culte des outils technologiques s’impose à chacun, il se peut que, par contrecoup, l’humanité redécouvre les vertus de l’imprévisibilité : l’instinct, la prise de risques, l’accident et même l’erreur. Pourrait alors se faire jour la nécessité de préserver un espace où l’intuition, le bon sens, le défi à la logique, les hasards de la vie et tout ce qui compose la substance humaine tiendront tête aux calculs des ordinateurs.
De la fonction attribuée aux données de masse dépend la survie de la notion de progrès. Elles facilitent l’expérimentation et l’exploration, mais elles se taisent quand apparaît l’étincelle de l’invention. Si Henry Ford avait interrogé des algorithmes informatiques pour évaluer les attentes des consommateurs, ils lui auraient probablement répondu : « Des chevaux plus rapides. »