Envoyer à un ami | Version à imprimer | Version en PDF

Les dangers d'une certitude construite sur les données

par Diane Coyle

CAMBRIDGE - Certains de mes amis, qui travaillent dans le domaine des arts ou dans celui des humanités, ont commencé à s'adonner à une activité étrange, du moins pour eux : scruter les données. Cela est dû à la pandémie, évidemment. Chaque jour, ils regardent le nombre de cas de Covid-19, la vitesse plus ou moins rapide à laquelle diminue le facteur R, et beaucoup de gens dans notre quartier sont vaccinés de la veille.

Pendant ce temps, les réseaux sociaux s'emplissent de déclarations et de réfutations de toutes sortes concernant les données. La pauvreté mondiale décroît-elle ? augmente-t-elle ? Quel est le véritable niveau du chômage aux États-Unis ? Cette insistance, qui conduit parfois à des débats tendus, provient du désir qu'ont les gens de s'appuyer sur l'autorité des données - ou de les contredire - pour corroborer leur point de vue ou leur vision du monde.

Mais dans d'autres domaines, où les données sont couramment utilisées, on ne s'intéresse que très peu, curieusement, à leur fiabilité ou à leur interprétation. J'en ai récemment fait l'expérience lors d'un de ces tests dits «CAPTCHA», conçus pour protéger les sites Web contre les robots, qui demande à l'internaute de prouver qu'il ou elle est un être humain en lui proposant d'identifier des images contenant des éléments aussi communs que des bateaux, des vélos ou des feux de signalisation. Si votre sélection, même correcte, diffère de celle de la machine qui utilise les cases que vous avez cochées pour alimenter un algorithme de reconnaissance d'images, vous serez classée dans la catégorie des non-humains.

Dans cet exemple, l'erreur de la machine est patente, bien qu'on ne puisse rien faire contre si l'on veut accéder au site dont elle garde l'entrée. Mais dans d'autres cas, il peut être impossible de savoir à quelles conclusions parviennent les systèmes d'apprentissage automatique ou les analystes humains lorsqu'ils font peser sur les données un poids plus important que celui qu'elles peuvent supporter.

Les économistes se précipitent pour adopter l'emploi des données de masse dans leurs recherches, tandis que nombre de décideurs politiques pensent que l'intelligence artificielle permettra d'obtenir une plus grande efficacité par rapport aux coûts et de prendre des mesures mieux ciblées. Mais avant de confier plus de décisions à l'apprentissage automatique fondé sur les données et aux systèmes d'intelligence artificielle, nous devons être conscients des limites de ces données.

Déjà, les incertitudes inhérentes aux données économiques ne retiennent que trop peu l'attention. Si les décideurs politiques comprennent généralement qu'une chose aussi importante que la croissance du PIB soit sujette à d'importantes incertitudes et à des révisions, il semble impossible d'empêcher les gens de construire des récits aux fondements les plus fragiles.

Ainsi les comparaisons d'un pays à l'autre des conséquences de la pandémie sur le PIB national sont-elles difficiles, en raison des différences dans les structures économiques et les méthodes statistiques. Mais cela ne constitue nullement un obstacle lorsqu'il s'agit de proclamer que telle ou telle économie a mieux (ou pire) qu'une autre réagi à la crise.

On pourrait aussi considérer le taux «vrai» de l'inflation. Des différends apparemment techniques sur la meilleure façon de construire un indice des prix masquent de profonds conflits quant à la distribution des ressources, tels ceux qui opposent les emprunteurs et les détenteurs de l'emprunt, ou encore les employés et les employeurs.

Les données que nous utilisons façonnent notre conception d'un monde complexe et changeant. Mais ces données représentent la réalité selon une certaine perspective. Celles qui sont invoquées dans le débat politique sont rarement dépourvues de liens avec le monde qu'elles décrivent, mais les lentilles qu'elles fournissent peuvent accentuer certains traits ou au contraire les estomper - il n'est donc pas possible d'échapper à la perspective qu'elles construisent.

L'une des causes possibles de la défiance actuelle envers l'«expertise» économique peut être imputée à l'écart qui se creuse entre des estimations techniques faites en surplomb, fondées sur des séries de données qu'on connaît bien et un monde parallèle de données plus granulaires, qui composent un tableau différent parce que vu d'en bas, en contreplongée. Les statistiques économiques ordinaires saisissent une expérience moyenne, qui cesse d'être générale lorsque divergent les situations vécues par les gens.

La plupart du temps, ceux qui plaident en faveur de politiques fondées sur des données scientifiques sont conscients des incertitudes inhérentes aux informations dont ils disposent. Les chercheurs sont très attentifs à tout ce qui concerne la représentativité de leurs échantillons, leur marge d'erreur et les limites même de la méthode employée pour recueillir leurs données. Mais le sentiment trompeur de la certitude tend à s'accroître à mesure qu'on se rapproche d'une traduction politique et des processus de prise de décision. Harry Truman, qui fut président des États-Unis, n'est pas le seul responsable politique, tant s'en faut, qui ait exprimé son impatience envers des économistes ambidextres qui ne savent écrire les choses d'une main que pour les réfuter de l'autre.

Mais l'appétit actuel de certitudes fondées sur les données devient de plus en plus dangereux à mesure que nous nous appuyons sur des procédures décisionnelles technocratiques - notamment sur les systèmes d'apprentissage automatique - pour décider des politiques qu'il convient de mener dans des domaines comme la justice pénale, la police ou les prestations sociales. Les démocraties s'appuient souvent sur l'ambiguïté constructive pour réconcilier les intérêts en conflit, notamment ceux qui concernent la distribution des rendements d'un actif, ou pour savoir s'il est préférable que les autorités chargées du maintien de l'ordre se trompent en emprisonnant des innocents ou en laissant libres des criminels. Revendiquer l'autorité des données, c'est minimiser ou éliminer le champ d'application de l'ambiguïté, avec des conséquences potentiellement importantes.

Je ne saurais qu'être en faveur de données plus nombreuses et de meilleure qualité, qui sont essentielles aux efforts des gouvernements pour contrôler la pandémie. Mais plus nous utilisons les données pour prendre des décisions, plus sensibles nous devons être au fait que ces données brossent un tableau du point de vue de l'expert - ou de la machine -, fondé sur des catégories conçues par des gens qui sont eux-mêmes des acteurs dans le jeu de rôles de la société. Faute de quoi nous aboutirons à des processus de prise de décision qui ressembleront à ces tests CAPTCHA incontrôlés - prétendant qu'un bateau est un vélo, et ne laissant d'autre choix à ceux qu'ils affectent que d'acquiescer.



Traduit de l'anglais par François Boisivon

*Professeure de politiques publiques à l'université de Cambridge  - Est l'autrice, pour son ouvrage le plus récent, de Markets, State and People: Economics for Public Policy.



Télécharger le journal