CAIRN.INFO : Matières à réflexion

1Avec le développement des innovations réalisées dans les domaines du recueil, du stockage et du traitement des données numériques (cf. le mouvement big data), les algorithmes prédictifs sont placés au cœur de ce gigantesque système d’information que composent les Technologies de l’Information et de la Communication (TIC). Ces machines, souvent qualifiées d’intelligentes, jouent aujourd’hui un rôle central dans la production et la régulation des informations que les humains communiquent par le biais des outils numériques. Ce rôle est d’ailleurs tellement central qu’à la suite d’Antoinette Rouvroy et de Thomas Berns (2013), un certain nombre de chercheurs en Sciences Humaines et Sociales (SHS) utilisent la notion de gouvernementalité algorithmique pour le désigner. Une des difficultés majeures que peuvent rencontrer ces chercheurs est alors que le fonctionnement des machines prédictives qui font exister la gouvernementalité algorithmique est souvent très obscur : les technologies d’apprentissage artificiel qui composent ces machines sont généralement de véritables boîtes noires (Cardon, 2015). Comment les chercheurs en SHS pourraient-ils donc étudier les formes de pouvoir exercées par la gouvernementalité algorithmique dans de telles conditions ? Le principal objectif de cette contribution est d’étudier les discours des concepteurs de manière à saisir comment ils essaient de fabriquer des machines susceptibles de produire des prédictions pertinentes aux yeux des professionnels qui les intègrent dans leurs organisations. Ce faisant, nous proposerons différents outils de description de la conception de ces machines qui permettent l’identification et la compréhension des normativités que recouvre leur développement au sein des collectifs sociotechniques.

2En référence à la « sociologie orientée programme » défendue par Cécile Méadel et Guillaume Sire, cet article a pour finalité de fournir un ensemble de notions facilitant l’observation « des coulisses du travail d’élaboration des programmes, [des] entrailles de la production du code » (2017, p. 27) qui constituent les machines à prédire. D’une manière générale, nos travaux se situent au croisement de ceux de Lev Manovich (2001) et d’Adrian Mackenzie (2006) qui ont joué un rôle important dans le développement des études des logiciels (i.e., les software studies ; Méadel et Sire, 2017). À la suite de Lev Manovich, nous mobiliserons des termes propres aux sciences informatiques afin de rendre compte des « opérations caractéristiques [de ces] médias programmables » (2001, p. 48) que sont les technologies d’apprentissage artificiel. Afin d’éviter de participer à la réification du phénomène social qu’est la conception d’une machine prédictive, nous prendrons toutefois certaines distances avec l’approche formaliste de Lev Manovich (2001). Dans le sens des études menées par Adrian Mackenzie (2006), les outils que nous proposerons pour décrire les activités de fabrication des technologies d’apprentissage artificiel seront également issus des sciences sociales. À l’instar de Matthew Fuller (2008) qui, sans rejeter les approches formalistes de Lev Manovich (2001) et culturelles d’Adrian Mackenzie (2006), a proposé une autre perspective dite matérialiste (Méadel et Sire, 2017), celle que nous exposons dans cet article a pour objet de rendre visible la manière dont les machines à prédire sont encastrées dans le faisceau de relations qui associe les acteurs qui les conçoivent, ceux qui les implémentent au sein de leur organisation et ceux qui les utilisent durant leurs activités de travail, ou encore, de consommation.

3Comme le suggère le titre de cette contribution, l’approche que nous exposons dans cet article constitue plus exactement un prolongement des études menées par Madeleine Akrich (1987, 1989). À nos yeux, un des apports les plus considérables de ces travaux est qu’ils exposent un appareillage conceptuel aussi élégant que pertinent pour décrire les dimensions sociale, cognitive d’un objet technique et permettre ainsi la compréhension du pouvoir qu’il exerce ou, si l’on préfère, de son agentivité (cf. Pickering, 1995). Rappelons que pour Madeleine Akrich (1987, 1989), toute conception fait l’objet d’un travail de script. Ce dernier se décompose en un triple mouvement de description, d’inscription et de prescription. En résumé, lors de la phase de description, les acteurs engagés dans la conception d’un objet technique construisent collectivement des représentations sur ce dernier ainsi que sur l’environnement à l’intérieur duquel il doit s’insérer. Une fois cette description réalisée, ces mêmes acteurs la matérialisent durant la phase d’inscription, qui correspond à celle de la fabrication concrète de l’objet. Dès lors qu’elles sont cristallisées dans la matérialité de l’objet, les représentations qui sous-tendent cette description peuvent jouer leurs rôles de prescriptions : elles composent des scenarii d’usage que doivent interpréter les utilisateurs. Les outils de description des activités de conception des technologies d’apprentissage artificiel que nous présentons en suivant ont alors pour objet de permettre la compréhension des phases de description et d’inscription qui caractérisent leurs fabrications.

4Outre sa finalité méthodologique, cet article a également un autre but qui, plus théorique, peut être présenté comme suit : à partir d’un ensemble d’observations et d’entretiens portant sur la conception de machines à prédire appliqué à la gestion de problèmes économiques, il vise à nuancer l’hypothèse selon laquelle ces technologies participent à instituer une nouvelle forme de rationalité a-normative (Rouvroy et Berns, 2013). Nos travaux montrent que les machines prédictives, comme tout autre objet technique (cf. Akrich, 1987, 1989), sont porteuses de normativités. À l’instar de l’algorithme prédictif élaboré dans le cadre de Predpol (cf. Benbouzid, 2017), les technologies d’apprentissage artificiel que nous avons étudiées encapsulent un ordre moral. Dans le sens des études menées par Antoinette Rouvroy et Thomas Berns (2013), nous soutiendrons toutefois que cet ordre est effectivement bien différent de celui que recouvre la gouvernementalité statistique étudiée par Alain Desrosières (1993) : il ne renvoie pas aux normativités « globales » qui sont sous-jacentes aux catégories statistiques traditionnelles et qui permettent à la société de se penser et de se projeter dans son ensemble (Cardon, 2015). Il n’en reste pas moins que cette gouvernementalité algorithmique que font exister les machines à prédire ne peut pas être considérée comme strictement a-normative. En référence aux travaux de Sylvain Parasie et d’Éric Dagiral (2017), les technologies d’apprentissage artificiel encapsulent bel et bien un ordre moral qui est par contre plutôt de type « local » : si ces dernières permettent l’institution de ce que nous appellerons un pluralisme prédictif qui comporte un caractère a-normatif, celui-ci n’en reste pas moins cadré algorithmiquement par les concepteurs et les implémenteurs qui les développent. Le deuxième objectif de cette contribution est ainsi de souligner que la conception de ce cadre est une façon de prêter à la machine les connaissances métier, et donc les formes de normativité qui y sont associées, afin de garantir la pertinence des apprentissages qu’elles réalisent.

5Pour atteindre les finalités méthodologique et théorique que nous venons d’exposer, nous proposons de développer notre argumentation à partir du problème empirique qui suit : comment est construit le besoin de fabriquer une machine prédictive ? Comment une telle technologie est-elle conçue ? Et comment l’efficacité de son fonctionnement est-elle évaluée ?

6Pour répondre à ces questions, nous organiserons nos propos en cinq sections. Dans la première, nous définirons ce que nous désignons par machine à prédire, puis nous exposerons brièvement les matériaux d’enquête sur lesquels reposera la suite de nos propos. Les trois sections suivantes nous permettront de rendre compte des activités de cadrage des environnements d’apprentissage, de traitement et politique qui permettent aux machines de réaliser leurs prédictions. Le but de ces trois parties sera alors de fournir un ensemble de concepts pour décrire et comprendre comment, par le biais des activités de cadrage susmentionnées, les humains « socialisent » les algorithmes prédictifs afin de leur conférer un sens, c’est-à-dire d’orienter normativement leur autonomie de fonctionnement. Dans la cinquième partie, nous mettrons en avant que ces activités de cadrage recouvrent in fine un mouvement exploratoire et itératif d’identification et de formalisation des connaissances métier qui sont nécessaires à l’organisation du problème d’apprentissage que doit résoudre toute machine prédictive. Nous soulignerons en conclusion que, si les technologies d’apprentissage artificiel développées par les professionnels interrogés contribuent à l’instauration d’un pluralisme prédictif qui n’est pas dénué de tout intérêt, elles participent par contre à l’institution d’une économie politique qui n’est ni très originale ni très élégante.

Des machines à prédire

7Qu’est-ce qu’une machine à prédire ? D’une manière générale, nous pouvons dire que c’est un automate ou, si l’on préfère, un agent artificiel, qui réalise des projections statistiques à partir d’un ensemble de données d’observation plus ou moins important. Par exemple, la technique de la régression linéaire, une fois intégrée au sein d’un système informatique adapté, peut être considérée comme une machine à prédire. Antoine Cornuéjols et Laurent Miclet (2010) considèrent en effet cet outil statistique comme une des plus anciennes techniques d’apprentissage artificiel, et donc, de prédiction [1]. À partir d’un échantillon de données quantitatives noté (x, y), qui est généralement représenté sur un plan à deux axes (x en abscisse et y en ordonnée), il est possible de tracer la droite f(x) permettant d’identifier et de comprendre la relation qui existe entre les deux variables x et y, mais aussi, de prédire l’état de y en fonction de celui de x. Plus concrètement, si x représente, par exemple, le revenu d’un consommateur et y la part relative de ce revenu qui est accordée aux dépenses alimentaires, la régression linéaire peut permettre de prédire que plus le revenu d’un consommateur augmente et plus la part relative de ce revenu qui est dédiée aux dépenses alimentaires diminue. Autrement dit, en référence aux travaux de Michel Callon (2017), les machines à prédire forment des agences de calcul matérielles qui recueillent et traitent des données numériques de façon à effectuer des prédictions qui, du moins dans le cas des organisations, doivent être utiles à la gestion des affaires.

8Pour examiner les activités de conception de ces machines à prédire, nous avons effectué, de 2012 à 2015, une « ethnographie multi-située » (Marcus, 1995) qui nous a permis de recueillir les matériaux présentés dans l’annexe 1. De manière générale, ces matériaux montrent que les activités de fabrication d’une machine prédictive se décomposent en trois groupes. Aussi, dans les sections qui suivent, nous allons voir comment chacun de ces groupes consiste à élaborer les cadres à l’intérieur desquels le système produit ses prédictions. Dans le sens des travaux de Gilbert Simondon (1989), notre objectif sera par là même de mettre en lumière comment l’existence de ces technologies n’est pas que matérielle, mais aussi culturelle : les machines prédictives que nous avons étudiées réalisent des calculs selon des mécanismes cognitifs qui sont produits par des collectifs humains et qui sont, par voie de conséquence, animés par les institutions que ces derniers font exister.

Cadrer l’environnement d’apprentissage

9Du point de vue des activités de conception d’une machine prédictive, un des premiers cadrages à être élaborés est celui de l’environnement d’apprentissage. Ce cadrage a pour but de déterminer, sur le plan cognitif, la relation que le système entretient avec les données qui composent son espace d’apprentissage. La réalisation de ce cadrage renvoie à deux grands ensembles d’activités : celles consistant à recueillir les observables que forment les données et celles destinées à régler les points de vue de la machine, c’est-à-dire à structurer les données recueillies de façon à orienter son apprentissage en fonction du problème de prédiction qu’elle doit résoudre.

Quel recueil de données ?

10Pour les professionnels qui les utilisent, les big data sont l’ensemble des données numériques que constituent celles disponibles sur Internet, celles que produisent les organisations durant leurs activités quotidiennes, ainsi que les données d’archives qui ont fait l’objet d’une numérisation (Ollion et Boelaert, 2015). Les données massives qui permettent aujourd’hui aux machines d’apprendre à prédire le futur forment de cette manière des données hétérogènes qui sont recueillies de multiples façons. Ces données peuvent être représentées en trois grandes catégories qui offrent à ces technologies trois types de points de vue sur les phénomènes qu’elles doivent prédire. La première catégorie est celle des données sociodémographiques que les organisations recueillent sur leurs clients, notamment par le biais des progiciels de gestion. Par exemple, à travers ce que les professionnels appellent le Customer Relationship Management (CRM), les systèmes de fidélisation permettent d’enregistrer systématiquement l’état civil, le prénom, le nom, l’adresse, le numéro de téléphone ou la date de naissance des clients (Barrey, 2004 ; Coll, 2014). La deuxième catégorie de données massives est celle des données comportementales qui sont recueillies durant les usages que les consommateurs font des technologies numériques (e.g., un site d’e-commerce, un compteur intelligent, ou encore, un automate de service). Ces données doivent permettre à la machine prédictive de quantifier les usages que les utilisateurs font de ces dispositifs, ou encore, l’attention qu’ils accordent aux produits et/ou aux services qui leur sont proposés (Cardon, 2015 ; Kessous, 2012). Il s’agit, par exemple, d’un historique de navigation, de consommation énergétique, d’une évaluation textuelle, numérique d’un produit ou d’un service. La troisième catégorie est celle des données environnementales. Celles-ci sont recueillies de façon à renseigner les situations à l’intérieur desquelles sont produites les données comportementales. Par exemple, les données environnementales peuvent indiquer la composition des espaces numériques traversés par les consommateurs (i.e., les pages d’un site Internet), ou encore, par le biais des open data, les infrastructures socio-matérielles des environnements physiques au sein desquels ils réalisent leurs activités de navigation (e.g., les équipements d’une gare ferroviaire).

11Étant donnée la grande diversité de données que forment les big data, ces dernières permettent aux technologies d’apprentissage artificiel de réaliser ce que nous pourrions appeler, en référence aux travaux de Jean-Michel Berthelot (1990), un pluralisme prédictif [2]. Grâce aux données sociodémographiques, ces systèmes peuvent évaluer, lors de leurs apprentissages, si les catégories sociales traditionnelles jouent oui ou non un rôle important dans la réalisation des phénomènes qu’ils doivent prédire. Les données comportementales et environnementales leur permettent alors d’adopter une posture moins structuraliste et plus interactionniste dans la mesure où elles leur offrent la possibilité d’évaluer, cette fois-ci, le poids des représentations, des pratiques et des cadres situationnels dans le déroulement des phénomènes que ces technologies doivent anticiper. Aussi, compte tenu du fait que les big data autorisent différentes granularités d’enregistrement des données comportementales et environnementales, les machines qui les traitent peuvent apprendre à prédire l’avenir selon des points de vue qui sont pluriels. Les données massives rendent ainsi possible, a minima jusqu’à un certain point, la variation automatique de ce que l’on appelle en sciences sociales les échelles d’analyses, c’est-à-dire les instruments cognitifs qui permettent de saisir la masse, la durée et la généralité qui forment les trois dimensions des phénomènes sociaux (Grossetti, 2006).

12En d’autres termes, les machines prédictives n’ayant aucun a priori sur l’importance qui doit être accordée aux données sociodémographiques, comportementales et environnementales, les big data leur permettent d’apprendre à prédire le futur en systématisant la mise à l’épreuve des perspectives qui sont associées à chaque catégorie de données. C’est d’ailleurs en vertu de ce pluralisme prédictif que certains spécialistes pensent que ces technologies ne véhiculent aucune forme de normativité. Comme nous l’avons dit en introduction, nous allons toutefois montrer que l’hypothèse selon laquelle les machines prédictives, une fois associées aux big data, instaurent une gouvernementalité algorithmique de type a-normatif (cf. Rouvroy et Berns, 2013), ne tient pas complètement. Car, si ces systèmes sont aujourd’hui dotés d’une capacité à prédire des avenirs de façon plurielle, ce pluralisme renvoie à un travail inférentiel qui fait l’objet d’une préparation. Nous soutiendrons par là même que cette préparation peut être comprise comme une manière de produire la socialisation algorithmique des machines dans le sens où elle consiste à cadrer leur autonomie de calcul dans le but de garantir leur pertinence et d’assurer leur intégration au sein des organisations.

Régler les points de vue

13La préparation du travail inférentiel que doit mettre en œuvre une machine prédictive commence par une phase de structuration des données recueillies. Cette phase est élaborée dans l’objectif de régler les points de vue que la machine porte sur les phénomènes qu’elle doit prédire. Elle recouvre quatre ensembles d’activités qui sont : la visualisation des données ; le nettoyage des données ; la création de variables ; l’ajout et la sélection de variables.

14Comme l’illustre l’extrait d’entretien exposé ci-dessous, la visualisation des données est une étape importante de la phase de leur structuration car c’est elle qui permet au concepteur de se faire une première représentation de l’environnement numérique à l’intérieur duquel la machine va réaliser ses apprentissages. Suite à notre demande d’explicitation des activités de conception qu’il a effectuées dans les domaines de la publicité personnalisée et de la maintenance prédictive, Ghislain (cf. E_04 ; annexe 1, figure 2) nous dit en effet que :

15

« Ce qui est très important, c’est, déjà, de visualiser avant même de commencer l’exercice des données [i.e., le travail de structuration des données] pour comprendre un petit peu la gueule qu’elles vont avoir ».
(Ghislain)

16À l’instar de Ghislain, Samuel (cf. E_08 ; annexe 1, figure 2), qui a également travaillé sur plusieurs projets de conception de technologies prédictives, considère la visualisation des données comme une manière d’explorer l’environnement à l’intérieur duquel la machine va réaliser ses apprentissages. Un des objectifs de cette étape est alors d’aider l’implémenteur, c’est-à-dire le groupe d’acteurs qui intègre le système au sein de son organisation, à mieux comprendre et définir les grandes trames du problème qu’il veut résoudre grâce à ce dispositif. Autrement dit, la phase de visualisation des données est une façon d’aider l’implémenteur à saisir et à formaliser l’« intention » qui motive son souhait d’intégrer la machine prédictive au sein de son entreprise. Par exemple, lors d’un projet consistant à développer, pour une grande institution financière publique, une machine capable de prédire l’acceptation d’un brevet par l’Office Européen des Brevets (OEB), Samuel a pris un certain temps pour visualiser les données et faire progressivement émerger l’intention du problème qui y était associé. Ceci lui a permis de repérer que ce problème pouvait être décomposé en deux dimensions. La première recouvrait l’ensemble des éléments définissant la composition des brevets. La seconde renvoyait à l’ensemble des critères qui régissaient leur acceptation. Samuel s’est alors renseigné, auprès de l’institution financière en question et de l’OEB, sur ces deux dimensions. Il a de cette manière pu mieux saisir la réalité que représentait le jeu de données dont il disposait. Compte tenu du fait que l’objectif de l’implémenteur était de prédire la réussite des demandes de brevet, Samuel a commencé par sélectionner ceux qui étaient déjà approuvés afin de pouvoir les examiner. Il a ensuite mobilisé différents outils de visualisation de façon à élaborer divers graphes et tableaux en essayant d’établir des liens avec les connaissances qu’il avait jusqu’ici pu développer sur le sujet, notamment à l’aide des informations qu’avaient bien souhaité lui fournir l’implémenteur et l’OEB.

17Comme le souligne Adrian (cf. E_09 ; annexe 1, figure 2) dans l’extrait d’entretien qui suit, la phase de visualisation des données débouche souvent sur la fabrication d’une première version de machine qui, bien que souvent assez mauvaise, constitue une base autorisant la production concrète de prédictions. Afin de nous décrire les activités de conception qu’il a réalisées lors du développement, pour un grand groupe bancaire, d’une machine capable de prédire le non-règlement des créances par ses clients, Adrian nous explique la logique de travail qu’il met généralement en œuvre lorsqu’il se lance dans ce type de projet.

18

« J’ai ouvert les données. Je les ai observées, un peu comme un physicien. J’ai regardé. J’ai vu quelque chose de surprenant. J’ai voulu comprendre ce qui se passe et j’ai fait un premier modèle comme ça ».
(Adrian)

19Pour la majorité des professionnels que nous avons interrogés, l’intérêt de ce « premier modèle » est qu’il permet d’ouvrir la discussion avec l’implémenteur. En favorisant les échanges entre ce dernier et le concepteur, cette ébauche de machine, souvent bricolée rapidement, favorise la constitution de représentations collectives qui sont nécessaires à la bonne coordination de la suite des activités de conception du système prédictif. Ces représentations jouent alors un rôle crucial dans la fabrication de la machine puisque ce sont elles qui permettent son amélioration progressive. Notons pour le moment que cette amélioration prend concrètement la forme de multiples petites révisions et perfectionnements qui sont opérés par diverses activités de nettoyage des données, de création, d’ajout et de sélection de variables.

20Le nettoyage des données recouvre ce que l’on appelle en SHS le recodage des variables et le remplissage des valeurs manquantes. Si, du point de vue des professionnels interviewés, cette étape dite de tuning est souvent considérée comme fastidieuse, elle n’en reste pas moins importante du point de vue des apprentissages de la machine. Par exemple, les techniques d’apprentissage par découverte reposent sur des mesures de distance entre les différentes entités que représentent les données. Les concepteurs qui souhaitent réaliser ce type d’apprentissage sur des données qualitatives doivent par conséquent recoder ces dernières en des données quantitatives. C’est par exemple ce qu’a fait Genès (cf. E_13 ; annexe 1, figure 2) lors de la conception d’une machine à prédire le prix de vente de véhicules d’occasion. Lors de l’entretien, ce dernier nous explique plus exactement que, pour réaliser cette fabrication, il disposait :

21

« [de] l’âge de la voiture et [de] la valeur de la voiture neuve. Il […] manqu[ait…] la valeur de la voiture actuelle. Et ça peut jouer. Si la valeur de la voiture est élevée, on a peut-être tendance à la vendre plus cher ? Et, du coup, j’ai combiné ces deux features-là en créant une nouvelle variable : la valeur actuelle de la voiture. J’ai combiné l’âge de la voiture, qui était un entier, et la valeur de la voiture, qui était une lettre que j’ai transformée en chiffre pour pouvoir avoir une opération numérique dessus. Donc, c’est tout simple, mais ça peut jouer énormément ».
(Genès)

22Il est important de bien comprendre que ce type de recodage renvoie à des représentations particulières sur la manière dont il est possible de traduire des valeurs qualitatives en des valeurs quantitatives, de façon à rendre mesurables les distances qui les séparent. Bien évidemment, ceci n’est pas sans poser quelques problèmes métrologiques. Le recodage des variables recouvre souvent une part d’arbitraire qui est plus ou moins consciemment associée à différentes formes de normativité, c’est-à-dire à des représentations particulières de ce qu’il convient ou non de faire.

23Le remplissage des valeurs manquantes consiste à les remplacer par des valeurs qui peuvent être déterminées de diverses manières. Par exemple, il est possible de réaliser ces remplissages en calculant la moyenne ou la médiane des valeurs correspondant à la variable considérée. Il existe toutefois des techniques plus complexes qui consistent, non pas à calculer cette moyenne/médiane pour l’ensemble des observations correspondant à la variable considérée, mais pour celles qui sont associées à des groupes d’entités définis en fonction d’une ou plusieurs caractéristiques propres aux autres variables. Cette technique a par exemple été mobilisée par Samuel pour concevoir la machine à prédire l’acceptation des brevets dont nous avons parlé plus haut. Pour remplir les données manquantes de la base dont il disposait (i.e., les dates des dépôts des brevets), Samuel a commencé par faire une régression logistique afin de déterminer les variables qui expliquaient le mieux l’acceptation des brevets. Le modèle de cette régression lui a alors permis de repérer que le domaine de conception du brevet et son pays d’attribution étaient dotés des plus forts indices de prédiction (i.e., les odds). Samuel a ensuite calculé, pour chaque pays et en fonction du domaine, la moyenne des dates des dépôts des brevets pour remplir chaque donnée manquante. Une nouvelle fois, il est important de bien saisir que ce type de manipulation de l’environnement d’apprentissage, aussi anodin qu’il paraisse, est déjà une façon d’organiser normativement le travail inférentiel de la machine : en choisissant d’utiliser la méthode que nous venons de présenter, Samuel cherche à maximiser la performance prédictive de la machine, quitte à complexifier et à biaiser [3] son fonctionnement ; et cela, parce que c’est ce qui lui apparaît le plus pertinent au regard de ce qu’il comprend des attentes de l’implémenteur. Ajoutons que, dans son ensemble, la phase de tuning est, plus ou moins explicitement, co-élaborée avec l’implémenteur dans la mesure où le concepteur est généralement amené à lui rendre régulièrement des comptes. Dans le sens de ce que nous avons dit en amont, c’est d’ailleurs lors de ces comptes rendus, souvent effectués de façon « agile » et peu formalisée, que le concepteur et l’implémenteur produisent les représentations collectives qui autorisent le co-développement de la machine.

24Les activités de création, d’ajout et de sélection de variables sont, quant à elles, dites de feature engineering. La création de variables est effectuée à partir d’une combinaison plus ou moins complexe d’un nombre de variables quelquefois important. C’est lors de cette étape que vont être créés, par exemple, des delta de temps qui peuvent être cruciaux du point de vue des apprentissages de la machine. En soustrayant les heures, les minutes et les secondes correspondant à un clic en t à celles associées à un clic en t+1, le concepteur permet à sa fabrication d’observer la durée des pages consultées par un consommateur. De telle sorte que, dans le cas des trois sociétés que nous avons observées (cf. annexe 1, figure 1), ces delta de temps sont primordiaux du point de vue des apprentissages que réalisent les machines qu’elles conçoivent pour personnaliser les environnements numériques des commerçants qui les mobilisent. Et s’ils sont aussi importants, c’est parce que ces sociétés les considèrent comme de bons indicateurs de l’attention des consommateurs.

25Pour les professionnels interviewés, l’ajout de variable est une étape passionnante dans le sens où elle renvoie à un véritable travail d’enquête. Elle consiste en effet à rechercher et à recueillir, sur le web et au sein des données ouvertes (i.e., open data), des variables susceptibles d’offrir au système des points de vue pertinents pour effectuer ses activités d’apprentissage. Par exemple, au moment où nous avons conduit notre enquête, la société DataCrawler (cf. S_01 ; annexe 1, figure 1) souhaitait connecter son système de recommandation aux données publiques de Météo-France afin que celui-ci puisse apprendre à anticiper l’effet du temps sur les comportements d’achat des consommateurs. Précisons toutefois que, s’il est aujourd’hui possible d’accéder à une grande diversité de données par le biais d’Internet, l’automatisation de leur recueil n’est pas toujours facile à déployer ; que ce soit pour des raisons techniques, mais aussi juridiques. La sélection de variables est, quant à elle, souvent réalisée de manière automatique. Elle consiste à choisir, au sein de l’ensemble de la base de données, les variables qui sont dotées des plus forts niveaux de corrélation vis-à-vis du phénomène qui doit être anticipé. Par exemple, la technique de la régression logistique mobilisée par Samuel pour choisir les variables qui expliquent le mieux l’acceptation d’un brevet est une manière d’automatiser la phase de sélection de variables. À l’instar de la phase de tuning, celle dite de feature engineering implique la participation active de l’implémenteur selon des modes d’interaction qui sont, une nouvelle fois et la plupart du temps, agiles et peu formalisés.

26En somme, pour Solveig (cf. E_02 ; annexe 1, figure 2), le travail de structuration des données consiste à « biaiser » [4] le point de vue de la machine, c’est-à-dire à organiser son environnement d’apprentissage en fonction des besoins et des connaissances métiers de l’implémenteur. En ce sens, l’extrait d’entretien qui suit met en avant que ce biais, que les spécialistes qualifient d’apprentissage, n’est pas institué par le seul concepteur : il est la résultante d’une collaboration réalisée avec l’implémenteur. Lors de la présentation des activités de conception qu’elle effectue dans le cadre de la société qu’elle a créée, Solveig nous explique par exemple que la structuration des données, c’est-à-dire ce que nous appelons le cadrage de l’environnement d’apprentissage, occupe une part importante de son travail. Suite à notre demande de précision sur ce qu’elle entend par structuration des données, Solveig nous répond :

27

« Le travail de structuration consiste à trouver par quel biais on veut regarder le problème. C’est-à-dire que, si on a quelque chose qui va varier en fonction du temps, en fonction du lieu, en fonction du sexe de la personne et en fonction du temps qu’il fait, quand on cherche à savoir comment est-ce qu’il varie, on va regarder plusieurs observations et on va regarder leur différence. Mais, est-ce que je regarde la différence au même endroit pour une femme dans un environnement ensoleillé et je regarde juste deux jours ; ou alors, le même jour à deux endroits différents pour une femme et un homme ? Alors, ça fait déjà trop de différence, parce que est-ce que la différence est due au fait que c’est une femme, au fait qu’il fait moche, etc. ? Donc, on commence par structurer les données en fonction du problème qu’on peut extraire. Et ça, ce n’est pas quelque chose qui est simple, qui est automatique : ça demande pas mal d’échanges avec les experts métier ».
(Solveig)

28Ajoutons que, comme Solveig, les autres professionnels que nous avons interviewés ont pointé l’importance de l’expertise métier de l’implémenteur dans le travail de structuration des données. De telle sorte que ce dernier peut être considéré comme une façon d’injecter, au sein de la base de données, une partie de cette expertise, et donc des formes de normativité qui y sont associées, afin de cadrer les activités d’apprentissage de la machine.

Cadrer l’environnement de traitement

29La conception d’une machine à prédire est associée à différentes activités de structuration des données qui ont pour finalité d’organiser son environnement d’apprentissage en fonction de l’expertise qui est propre à l’implémenteur. À lui seul, ce cadrage ne peut cependant soutenir aucune forme concrète d’apprentissage automatique. Sans l’architecture cognitive lui permettant d’inférer des connaissances sur les phénomènes que représentent les données, une machine ne peut apprendre à prédire aucun futur puisque c’est cette architecture qui rend possible la traduction des données d’observation en des données de prédiction. Elle forme l’environnement de traitement qui permet au système d’apprendre à prédire l’avenir.

Choisir le régime d’anticipation

30Pour l’ensemble des professionnels que nous avons rencontrés, la première question à se poser lorsque l’on commence la phase de fabrication de l’architecture cognitive d’une machine prédictive est la suivante : est-il nécessaire de comprendre l’apprentissage qui lui permettra de réaliser ses prédictions ? Si la réponse est négative, c’est qu’il est possible de munir le système d’une méthode d’apprentissage complexe, peu importe que celle-ci fonctionne ou non comme une boîte noire. Selon Solveig, résoudre le problème du choix du régime d’anticipation de la machine est une décision importante qui est généralement réalisée de manière collégiale avec l’implémenteur. Solveig a pu noter durant son expérience professionnelle que, lorsque cet implémenteur est représenté par un ou plusieurs ingénieurs polytechniciens, la réponse est souvent positive : ces derniers ont, selon elle, beaucoup de mal à accepter de ne pas comprendre l’apprentissage d’une machine prédictive. A contrario, Solveig a remarqué que les spécialistes de la relation client ne manifestent que peu de résistance à faire usage des boîtes noires. Les physiciens de formation apporteraient une certaine attention aux moyens qui permettent au système d’effectuer ses prédictions, tandis que les spécialistes de la relation client s’intéresseraient, quant à eux, avant tout aux résultats [5].

31Ceci explique sans doute pourquoi les spécialistes des données que nous avons interrogés s’entendent souvent assez bien avec les professionnels de la relation client qui font appel à leurs services. Comme le montre le verbatim qui suit, à l’instar de ces derniers, les concepteurs que nous avons interviewés privilégient souvent le pragmatisme du résultat à la connaissance du moyen.

32

« Même si je devais confier mon argent à un algorithme, à un robot qui jouerait pour moi, j’aurais tendance à préférer le tester avec des cas un petit peu borderline avant qu’il passe à l’action plutôt que d’espérer que ça se passe bien parce qu’il se conforme à une logique et à des règles de décision que moi je peux comprendre. Plutôt que d’essayer de comprendre le modèle final qui sort de l’algorithme et essayer de se dire que c’est quelque chose qu’on peut comprendre parce que telle variable va plutôt faire pencher les résultats vers telle classe et telle classe, je préfère me dire que la façon dont le modèle est élaboré est quelque chose que je peux comprendre, quelque chose qui me semble raisonnable et juste plutôt que de me concentrer sur comment est obtenu le résultat final ».
(Ghislain)

33Dans le domaine de l’apprentissage artificiel, il existe ce que nous pourrions appeler une loi de traduction qui veut que plus les apprentissages réalisés par le système sont humainement compréhensibles et moins ce dernier est capable de considérer la complexité du réel que représente la base de données. Ainsi, les boîtes noires que sont les réseaux de neurones profonds (i.e., le deep learning) ou les forêts aléatoires (i.e., les random forest) connaissent aujourd’hui un certain succès chez les professionnels de la relation client. Comme le souligne Ghislain dans le verbatim qui suit, si les spécialistes de la finance et de l’assurance ont besoin de comprendre les apprentissages des systèmes qu’ils conçoivent afin d’être capables de rendre des comptes sur les modèles qu’ils produisent, il n’en est pas de même des marketers[6]. Un peu à la manière de Facebook, ces derniers développent et intègrent des machines qui doivent avant tout prédire des offres de biens qui sont susceptibles d’intéresser les consommateurs. Pour reprendre les termes d’un des professionnels interviewés, l’erreur n’est, dans ce dernier cas, pas « létale ».

34

« Et ça, c’est une façon de voir les choses qui est complètement absente de la finance ou de l’assurance. Mais ça l’est aussi pour des raisons réglementaires. Parce qu’eux ont besoin de justifier des risques qu’ils prennent. Du coup, s’ils n’ont pas des évaluations du risque qui sont fondées sur des modèles qui s’y prêtent bien, […] ils peuvent avoir des emmerdes. Maintenant, les classes de problèmes ne sont pas toujours les mêmes. Quand on est Facebook, par exemple, et qu’on veut prédire quels événements vont être utiles dans la news feed de quelqu’un, […] finalement, on n’a pas forcément envie de connaître les détails de pourquoi telle décision a été prise. On préfère se dire que tel algorithme a marché parce qu’on voit que les gens utilisent concrètement plus leur truc et que la méthode est fiable plutôt que d’essayer de comprendre. Quand on essaie de mettre les bons éléments dans une news feed, on ne prend pas, non plus, beaucoup de risque ».
(Ghislain)

35Pour autant, au regard de nos matériaux d’enquête, il semble que les implémenteurs souhaitent, encore aujourd’hui, pouvoir saisir les modèles qui permettent aux machines d’effectuer leurs prédictions. Lors de l’explicitation des différentes activités de conception de technologies prédictives que Janis a réalisées dans le secteur de la gestion, ce dernier nous confie en effet que :

36

« après, ce que je vois dans la vraie vie, les gens ont quand même besoin, je pense que cela les rassure, même si le modèle est complètement, on va dire abstrait, de sortir une ou deux variables explicatives pour rassurer les gens et montrer que, oui, le modèle a quand même compris ça. Et que d’ailleurs, il y a quand même une rationalité. Même si cette unique rationalité est loin de faire toute la performance du modèle et si la performance du modèle est en fait inexplicable. Parce que, quand on commence à accumuler et à faire ce qu’on appelle des ensembles de modèles, il n’y a plus d’explicabilité facile à démontrer. Donc, il faut quand même exhiber quelques variables pour rassurer la nature humaine qui a besoin de constater que la machine a bien travaillé ».
(Janis ; cf. E_01 ; annexe 1, figure 2)

37Dans le cas de Lisbeth (cf. E_05 ; annexe 1, figure 2), ces contraintes d’explicabilité structurent de manière rigide les activités de fabrication des machines à prédire qu’elle développe au sein de la plateforme en ligne de vente de magazines qui l’emploie. Ne réalisant jamais seule la conception de telles machines, Lisbeth travaille en collaboration avec plusieurs collègues qui ne sont pas des spécialistes de l’intelligence artificielle. Il suffit qu’elle prononce les termes « réseau de neurones » pour « perdre tout le monde ». C’est pourquoi Lisbeth n’utilise que rarement les boîtes noires durant ses activités professionnelles. En outre, Lisbeth ajoute, lors de l’entretien, que les concepteurs de machines prédictives sont, la plupart du temps, soumis à des contraintes de simplicité qui rendent parfois difficile l’usage des boîtes noires. Ces dernières peuvent en effet être de véritables « usines à gaz » difficilement intégrables au système d’information de l’implémenteur. Adrian nous confirmera ce point en ajoutant que ces contraintes de simplicité le conduisent souvent à tester ce qu’il appelle la « mise en production », ou encore, l’« industrialisation » des machines qu’il conçoit.

Concevoir l’architecture cognitive

38Une fois que le concepteur et l’implémenteur ont déterminé le régime d’anticipation de la machine prédictive, il est nécessaire d’élaborer matériellement son architecture cognitive. Sur le plan théorique, cette architecture peut être représentée comme une structure algorithmique permettant d’associer trois espaces : l’espace des entrées notées x, celui des hypothèses notées h et celui des sorties notées y. L’espace des entrées correspond aux données associées à ce que l’on appelle, en sciences sociales, les variables indépendantes, qui sont également dites explicatives. Par exemple, dans le cas de la prédiction de l’acceptation de brevet sur lequel a travaillé Samuel, il s’agit de l’ensemble des données permettant de définir la composition des brevets. L’espace des sorties correspond aux données qui sont associées aux variables dépendantes, qui sont aussi qualifiées de variables à expliquer. Toujours en référence au cas de Samuel, il s’agit, par exemple, des données dont ce dernier disposait pour renseigner l’acceptation des demandes de brevets. L’espace des hypothèses est un environnement abstrait qui correspond à l’ensemble des hypothèses mathématiquement plausibles qui peuvent permettre d’associer les données d’entrées à celles des sorties. L’architecture cognitive d’une machine prédictive doit alors lui permettre de trouver, au sein de l’espace des hypothèses h, celle qui permet de lier, de la façon la plus cohérente possible, l’espace des entrées x et celui des sorties y. En d’autres termes, cette architecture est un système de traitement de données qui a pour fonction de résoudre le problème d’optimisation que recouvre la fonction f(x) = y.

39Ce problème d’optimisation peut prendre des formes diverses compte tenu du nombre de technologies d’apprentissage artificiel qui est aujourd’hui disponible. Par exemple, la programmation logique inductive peut permettre de représenter l’espace des hypothèses sous la forme d’attributs reliés par des connecteurs de conjonction ou de disjonction. Après apprentissage, une machine équipée de ce type de technique peut par exemple prédire qu’un consommateur qui a observé plusieurs vélos et qui n’a pas consulté de casque préfère les vélos de route à ceux dits tout terrain. Les inférences grammaticales et les chaînes de Markov peuvent, quant à elles, autoriser une représentation de l’espace des hypothèses sous la forme d’attributs connectés de manière séquentielle. Par le biais de ces deux technologies, une machine peut ainsi apprendre à prédire les futurs de divers processus. Ces processus peuvent par exemple correspondre à des parcours de navigation. Grâce à ce type de technique, un système apprenant peut anticiper le prochain clic d’un consommateur à partir de la séquence des pages qu’il a précédemment observées durant sa visite. Les arbres d’inférences permettent de représenter l’espace des hypothèses comme une suite de problèmes divisés en plusieurs sous-problèmes prenant la forme de conditions/actions de type SI… ALORS. Ainsi, une machine équipée de cette technologie peut par exemple prédire que SI le consommateur est une femme, qu’il est entre 22 h et minuit, que cette femme à moins de 25 ans et qu’elle a cliqué sur plusieurs vêtements noirs, ALORS ce consommateur aime des produits de la catégorie gothique. Ajoutons qu’il existe bien d’autres techniques d’apprentissage artificiel qui autorisent différentes représentations de l’espace des hypothèses et que nous ne pouvons pas lister de manière exhaustive dans cet article. En outre, ces technologies peuvent être comprises comme des modules d’apprentissage qui sont combinables de façon à autoriser la résolution de problèmes de prédiction qui peuvent être complexes.

40Nous souhaitons alors insister sur le fait que le choix du régime d’anticipation et celui d’utiliser ou de combiner telle et telle technique d’apprentissage artificiel renvoient à des représentations spécifiques sur la manière dont il convient de poser un problème d’apprentissage automatique. La phase de conception de l’architecture cognitive d’un système prédictif constitue en ce sens le prolongement de celle de structuration des données : elle est une manière de formaliser, en termes d’inférence statistique, l’intention du problème que souhaite lever l’implémenteur de façon à la traduire en un problème d’apprentissage automatique. Comme dans le cas de l’étape de structuration des données, la conception de l’architecture cognitive de la machine recouvre, de la part du concepteur, un important travail d’accompagnement visant à aider l’implémenteur dans le processus d’identification, de mobilisation et de formalisation de ses connaissances. De façon analogue au cadrage de l’environnement d’apprentissage, celui de l’environnement de traitement est une co-création.

Cadrer l’environnement politique

41Il en va un peu différemment du cadrage de l’environnement politique. Cependant, avant d’exposer nos arguments, il nous faut préciser ce que nous entendons par environnement politique. Pour pouvoir apprendre à prédire le futur, les machines ont besoin, à tout le moins de manière générale et en bout de chaîne, d’un ou plusieurs objectifs. Ces objectifs recouvrent systématiquement des stratégies d’action particulières qui orientent, de manière mécanique, l’ensemble des apprentissages réalisés par le système. Ces objectifs renvoient de ce fait à une politique (au sens large du terme) qui régule de façon stricte le travail inférentiel effectué par la machine. Aussi, si nous qualifions ce cadrage de politique, c’est parce qu’il n’intervient pas directement dans la relation que la machine entretient avec son environnement d’apprentissage, ni dans la détermination de son environnement de traitement. Par contre, il contraint de manière extrêmement rigide l’orientation de l’ensemble de son travail inférentiel. Nous souhaitons en ce sens souligner que si les environnements d’apprentissage, de traitement et politique sont des espaces qui peuvent être distingués sur le plan analytique, ils forment in fine un ensemble inextricable du point de vue des prédictions que fabriquent les technologies d’apprentissage artificiel. Et c’est d’ailleurs pourquoi le cadrage de l’environnement politique occupe une place fondamentale dans la conception des machines prédictives : sans lui, ces dernières ne peuvent bien souvent produire aucune prédiction. Sans objectifs permettant d’orienter leurs activités d’apprentissage, les machines sont en effet souvent rapidement perdues.

Déterminer les critères d’optimisation

42Sur le plan formel, les objectifs d’une machine prédictive sont intégrés à son architecture cognitive par le biais d’un ou plusieurs critères d’optimisation. Dans le cas de l’agent de recommandation qu’a développé la société DataCrawler, ces critères sont, par exemple, de trois types : le nombre de clics effectués par les consommateurs sur les recommandations ; la durée de consultation de ces recommandations ; et le taux de conversion, c’est-à-dire de transformation des visiteurs en acheteurs. Cela veut dire que les recommandations que ce système propose aux consommateurs sont systématiquement choisies afin de maximiser ces trois indicateurs de performance. En formant l’environnement politique à l’intérieur duquel la machine réalise son travail inférentiel, ces indicateurs jouent un rôle fondamental dans la manière dont cette dernière se représente le futur. Les avenirs que produit cette technologie prendraient en effet des formes totalement différentes si elle avait, par exemple, pour objectif d’optimiser un ou plusieurs indicateurs de désorientation.

43Si les critères d’optimisation influent sur le travail inférentiel effectué par les machines prédictives, ils jouent également un rôle important dans leurs fabrications : ils en constituent le fil rouge. Certains des professionnels interviewés nous ont en ce sens expliqué qu’une des premières tâches qu’ils réalisent durant leurs activités de conception est d’identifier et de comprendre les critères que l’implémenteur souhaite optimiser. Même si, au départ, l’implémenteur n’a souvent qu’une idée vague de la machine qu’il souhaite intégrer à son organisation, il sait par contre, a minima globalement, les critères que cette dernière doit maximiser. Comme l’exemplifie le cas de l’agent de recommandation élaboré par la société DataCrawler, ces critères sont souvent en lien étroit avec les indicateurs de mesure de performance qui sont propres à la culture gestionnaire de l’entreprise qui souhaite mobiliser la machine. C’est précisément pourquoi le cadrage de l’environnement politique est souvent principalement déterminé par l’implémenteur. Bien entendu, lorsque ce dernier n’a aucune idée des objectifs qui pourraient permettre d’orienter le travail inférentiel du système, ce qui arrive quelquefois, le concepteur est conduit à l’aider à les dégager. Ainsi, si cet implémenteur souhaite développer un système de recommandation, le concepteur peut par exemple être amené à le conduire à répondre au questionnement suivant : comment identifier les préférences des consommateurs à partir des données disponibles et pourquoi chercher à les anticiper ?

Éviter le sur-apprentissage

44Une fois déterminés, les critères d’optimisation permettent au concepteur d’élaborer différents tests qui ont pour fonction d’évaluer les performances des prédictions réalisées par la machine. Il est possible de dégager deux grands types de tests. Le premier est effectué d’une manière qui est plutôt exploratoire. Il consiste à élaborer ce que les professionnels interviewés appellent une grind search, c’est-à-dire une grille de plusieurs paramétrages de l’architecture cognitive de la machine. Cette grille a pour fonction d’autoriser l’identification et la préservation automatique des paramètres qui donnent les meilleurs résultats. Ces paramètres peuvent prendre des formes multiples selon la ou les techniques d’apprentissage mobilisées pour constituer l’architecture cognitive du système. Après avoir demandé à Samuel de nous expliquer les formes concrètes de ces paramétrages, celui-ci nous expose le cas des forêts aléatoires qu’il utilise beaucoup durant ses activités professionnelles, tout comme un certain nombre de ses collègues.

45

« Prenons un exemple classique : ce qu’on appelle les random forests [i.e., les forêts aléatoires]. On peut paramétrer le nombre d’arbres, c’est-à-dire le nombre de sous-modèles qu’il doit agréger. On peut paramétrer la profondeur maximale pour chacun des arbres. Donc, on peut paramétrer la puissance de chaque sous modèle. On peut paramétrer les critères d’informations de chaque modèle, c’est-à-dire la capacité d’un sous-modèle à distinguer deux sous-groupes afin de construire des arbres binaires. Donc ça va être une mesure sur la manière dont on construit l’arbre. Il y a plein d’autres paramètres. Dans les API, on peut regarder ça. Mais, globalement, ce sont ces genres de paramétrages qui sont laissés libres ».
(Samuel)

46Le deuxième type de tests a une vertu plus probatoire. Les professionnels interviewés parlent d’AB Testing. Comme le présente Lisbeth dans l’extrait d’entretien exposé après, l’AB Testing s’apparente à ce qu’Ester Duflo (2009) appelle des expériences randomisées, c’est-à-dire des études expérimentales visant à comparer un groupe test, un groupe témoin et où chaque individu est réparti dans chaque groupe de manière aléatoire.

47

« J’avais été sollicitée sur une analyse pour arriver à caler une séquence d’emails et de notifications sur les premiers jours de la vie d’un utilisateur. Ce sont des analyses statistiques qui avaient démontré qu’il valait mieux mettre un message à tel jour, tel jour et tel jour, plutôt que tel autre, tel autre et tel autre puisque c’était là que les gens répondaient le mieux. Finalement, cette analyse-là, on l’a testé en AB-Testing sur un échantillon, une population sur laquelle on a appliqué mes recommandations, avec le même message ; enfin, toutes choses égales par ailleurs. On fait simplement changer le moment où on délivrait le message, en comparant sur une population témoin où on n’a pas changé. Et, finalement, voilà, quels sont les impacts sur le business ? Est-ce que cela rapporte de l’argent ? Mais aussi, des choses plus métier, en disant, est-ce qu’effectivement les gens réagissent mieux, ouvrent mieux, cliquent mieux, etc. ? Quels sont les aspects positifs et négatifs ? ».
(Lisbeth)

48Au final, les performances des prédictions produites par une machine sont généralement évaluées afin d’éviter ce que les spécialistes appellent le sous-apprentissage et le sur-apprentissage. Le sous-apprentissage se manifeste par des situations où le modèle appris par la machine est trop général, de telle sorte qu’il ne permet pas de rendre correctement compte de la complexité de la réalité. À l’inverse, le sur-apprentissage se manifeste, cette fois-ci, par des situations où la machine se construit un modèle du réel trop spécialisé, c’est-à-dire trop proche de la complexité empirique que traduisent les données d’apprentissage. Notons que pour les professionnels que nous avons rencontrés, c’est surtout le sur-apprentissage qui pose problème lors de la conception d’une machine. Afin de nous expliquer ce dernier point, Solveig nous dit :

49

« On peut toujours réduire en statistique. On peut toujours chercher une analyse très fine, aller chercher jusqu’au cas particulier. Mais, en général […], on a une grosse barrière qui est le sur-apprentissage. C’est-à-dire que si on va chercher trop finement, l’analyse ne s’appliquera qu’à ces données-là, et donc, sera inexploitable pour le reste des projets. Et si on regarde des données comportementales, par exemple, si on va chercher le plus finement possible, on ne peut pas appliquer le modèle à quelqu’un d’autre ».
(Solveig)

Un mouvement exploratoire de formalisation de connaissances métier

50La conception d’une machine à prédire peut être décrite par le biais des activités de cadrage des environnements d’apprentissage, de traitement et politique que nous venons de présenter. Dans cette section, nous souhaitons souligner que la réalisation de ces activités ne répond pas à une logique de production de type rationnel. Elle renvoie plutôt à une logique de bricolage opérée selon un régime d’action exploratoire qui n’est pas sans rappeler les pratiques des hackers qui intéressent Nicolas Auray (2011).

Une co-création exploratoire et itérative

51La conception d’une machine à prédire peut être comprise comme un processus exploratoire à travers lequel le concepteur accompagne l’implémenteur durant l’ensemble des phases d’exploration et de formalisation du problème d’apprentissage qui lui est sous-jacent. Car, au départ, le projet de développement et d’intégration d’une machine prédictive est souvent assez flou du point de vue de l’implémenteur. Lors de la présentation de ces activités professionnelles, Solveig nous dit plus exactement que :

52

« Avec le buzz des big data, aujourd’hui, avec l’avènement du mot big data, la plupart des données sont devenues importantes. Elles sont surtout mises à prix. Et les gens qui accumulent des données, que ce soit pour accumuler des données, pour leur corps de métier ou quoi que ce soit, vont penser qu’elles ont de la valeur sans savoir quoi en faire. Donc, toute une partie de mon travail consiste à recevoir ces gens qui ont plein de données. Souvent, ils ne savent même pas spécialement qu’est-ce qu’il y a dans ces fameuses données et ils cherchent à en tirer de l’information. Ils arrivent et ils disent : “Je suis sûr qu’il y a quelque chose dans mes données.” Et après, c’est à nous d’éplucher les données, d’essayer d’en tirer une problématique et éventuellement d’aller au bout, de faire une étude et d’aider à la résolution de la problématique ».
(Solveig)

53Tout l’art de la conception d’une machine prédictive consiste ainsi, pour le concepteur, à aider l’implémenteur à découvrir, à partir de ses données, une problématique qui lui apparaît pertinente en fonction du contexte organisationnel qu’il connaît. Une fois cette problématique identifiée, le concepteur réalise un travail d’accompagnement actif de façon à aider l’implémenteur à repérer, à mobiliser et à formaliser l’expertise métier nécessaire à la réalisation des activités de cadrage des environnements d’apprentissage, de traitement et politique qui composent la machine prédictive. Toujours dans le but de nous expliquer les activités qu’elle réalise dans le cadre de l’entreprise qu’elle a créée, Solveig ajoute que :

54

« Ce sont des jeux de va-et-vient. On travaille sur nos données, on en tire des paramètres, des explications, des moyennes plus ou moins complexes des données. Puis après, on retourne vers le client qui reconnaît ou qui découvre des choses propres à son métier. Et à partir de là, on peut ré-avancer : soit aller chercher plus loin, soit faire de la prédiction. […]. Et donc, entre notre expertise statistique et celle du client, on redéfinit qu’elle est le problème. Qu’est-ce que c’est qu’une moyenne ? Comment on structure les données ? Essayer de réduire les dimensions, on se met en groupe homogène, on travaille sur des sous-ensembles, et après, on teste des méthodes plus ou moins évoluées de prédiction en fonction des besoins du client ».
(Solveig)

55Une machine à prédire est donc le produit d’une relation de co-création : sa fabrication fait l’objet de nombreuses explorations et itérations par le biais desquelles le concepteur co-élabore, avec l’implémenteur, les cadrages des environnements d’apprentissage, de traitement et politique dont a besoin la machine pour effectuer ses prédictions (cf. annexe 2, figure 3). Du point de vue de la relation qui se joue entre le concepteur et l’implémenteur, ces cadrages sont alors d’une importance fondamentale puisque ce sont eux qui sont garants de la pertinence du travail inférentiel réalisé par le système : ils permettent de socialiser algorithmiquement la machine en contraignant son autonomie de calcul afin d’assurer sa bonne intégration au sein de l’organisation.

Un processus de formalisation de connaissances métier

56Dans les sens des travaux d’Éric Dagiral et de Sylvain Parasie (2017), les activités de cadrage des environnements d’apprentissage, de traitement et politique que nous venons d’exposer sont une façon de formaliser et de prêter aux machines les connaissances métier dont elles ont besoin pour apprendre à prédire des avenirs intéressants, à tout le moins aux yeux des acteurs socioéconomiques qui les mobilisent. Pour reprendre les termes des auteurs, ce sont ces connaissances qui offrent aux machines une certaine sensibilité « à la fois aux questions et aux problèmes qui sont jugés importants par les acteurs des mondes sociaux considérés » (Dagiral et Parasie, 2017, p. 97). La formalisation de ces connaissances se manifeste concrètement par une multitude de choix sur la façon dont doivent être structurés les environnements d’apprentissage, de traitement et politique. Empiriquement, ces choix prennent la forme de petites manipulations informatiques du type de celles réalisées, par exemple, par Samuel pour calculer les valeurs « actuelles » des voitures d’occasion. Comme nous l’avons vu plus haut, ce calcul repose sur l’hypothèse que la valeur « actuelle » d’une voiture d’occasion peut être inférée à partir de sa valeur d’origine et de son âge. Et, pour Samuel, cette hypothèse n’est rien d’autre qu’une manière de formaliser les connaissances, plus ou moins naïves, de l’implémenteur a qui été destinée la machine à prédire les prix des voitures d’occasion qu’il concevait et en fonction des données dont il disposait.

57Aussi, en insistant sur les dimensions exploratoire et itérative de la co-création que compose une machine à prédire, notre objectif est de souligner le caractère non planifié du mouvement de formalisation des connaissances métier qui lui est sous-jacent. Car celui-ci se construit d’une manière qui s’apparente au modèle de la poubelle proposé par Michael D. Cohen et al. (1972) dans la mesure où il accompagne cet autre mouvement qu’est celui de la formalisation du problème d’apprentissage de la machine et qui est réalisé d’une façon à la fois un peu anarchique et un peu organisée. Ce problème d’apprentissage se décompose en effet en une multitude de sous-problèmes qui émergent, souvent de manière imprévue, dans le même temps que se nouent les relations qui associent le concepteur, l’implémenteur, la machine ainsi que les environnements socio-matériels au sein desquels ils évoluent. Par exemple, la société DataCrawler, lors de son lancement, souhaitait développer un système de recommandation pour les e-commerçants qui permette d’hybrider les algorithmes de filtrage collaboratif et de filtrage basé sur le contenu. Au fur et à mesure des interactions qu’elle a entretenues avec ses clients, cette société a progressivement redéfini le problème que devait résoudre sa technologie. De telle sorte que celle-ci n’a plus eu pour seules fonctions de prédire les préférences des consommateurs selon les propriétés des biens disponibles dans les catalogues des e-commerçants (cf. les algorithmes de filtrage basé sur le contenu) et selon les appétences des autres consommateurs (cf. les algorithmes de filtrage collaboratif). Elle devait également permettre de recommander aux consommateurs des produits en fonction de spécificités qui sont censées les intéresser. La société DataCrawler a pour cela développé ce qu’elle appelle un algorithme de similarité basé sur la rareté qu’elle n’avait pas imaginé élaborer au départ. Et l’histoire de la conception de cet algorithme recouvre une multitude de choix qui compose in fine les activités de cadrage des environnements d’apprentissage, de traitement et politique dont nous avons parlé en amont, notamment pour permettre à la machine de repérer, dans les textes et les photographies de présentations des produits, les spécificités qui sont censées plaire aux consommateurs.

58De manière plus générale, notre étude montre ainsi que la cohérence de l’enchaînement des sous-problèmes qui forment le problème d’apprentissage n’est pas organisée à l’avance : elle se construit durant le processus de conception. Il en est alors de même pour les connaissances métier qui y sont associées : les processus de formalisation et de matérialisation de ces dernières ne trouvent leur sens général que de manière progressive et constructive. Dans certains cas, ce travail de mise en pertinence de la machine prédictive, c’est-à-dire de signification du problème d’apprentissage qu’elle doit résoudre, peut être relativement long. Par exemple, la société DataCognitiv (cf. S_03 ; annexe 1, figure 1) a consacré plusieurs années de recherche, de développement et d’échange avec les e-commerçants intéressés par sa technologie pour lui prêter le sens sans lequel sa mise en marché aurait été largement compromise. À l’instar du processus d’économicisation du système de fabrication de briquettes qu’étudie Madeleine Akrich (1989), cette signification doit être comprise comme dynamique étant donné qu’elle n’a jamais été durablement stabilisée au cours de l’histoire de la technologie. Pour autant, au moment où nous avons effectué notre enquête, cette signification peut être résumée ainsi. La machine prédictive développée par DataCognitiv se présente comme pertinente dans la mesure où elle doit permettre :

  • de personnaliser les environnements numériques marchands des consommateurs en fonction de leurs comportements de navigation (c’est-à-dire de l’ensemble des actions qu’ils effectuent sur les sites des e-commerçants et de la manière dont elles s’enchaînent) et des situations qu’ils traversent (c’est-à-dire des différents éléments qui permettent de définir les pages des sites marchands qui sont en train d’être consultées) ;
  • de réaliser cette personnalisation sans mobiliser ce que DataCognitiv considère comme des données à caractère personnel, c’est-à-dire celles qui permettent de renseigner les identités sociales des consommateurs, par exemple leurs noms, prénoms, âges, sexes, adresses, ou encore, statuts professionnels ;
  • de réaliser cette personnalisation sans tracer les consommateurs dans le sens où le système conçu par DataCognitiv fonctionne essentiellement selon une logique d’identification de situations de consommation, et non de consommateurs ;
  • de réaliser cette personnalisation de façon à maximiser, de manière autonome et systématique, les intérêts financiers des e-commerçants ;
  • de contrôler l’autonomie du système dans la mesure où les e-commerçants peuvent paramétrer certaines dimensions de son travail inférentiel.

59En référence aux travaux de Michel Callon (2017), la machine prédictive élaborée par DataCognitiv réalise donc un programme d’enquête qui est de part en part traversé par diverses formes de normativité : cette technologie fait exister une intelligence économique particulière qui reflète les visions que ses concepteurs et ses implémenteurs se font de la manière dont il convient d’automatiser une partie des activités de gestion de la relation client.

Conclusion

60Un peu à la manière des humains, les machines prédictives n’opèrent pas leurs activités d’apprentissage dans le vide. Leur travail inférentiel n’est pas effectué sur une table rase. Pour apprendre à prédire, elles ont besoin de cadre. Et c’est en ce sens que nous proposons de parler de socialisation algorithmique. Si, à la différence des humains, les systèmes cognitifs que recouvrent ces dispositifs ne sont en rien biologiques, ils sont, par contre, de part en part culturels : chez les machines prédictives, rien n’est inné, tout est acquis. Leur architecture cognitive n’est pas préconfigurée par la nature, mais par des collectifs d’humains qui font société. Cela veut dire que ces technologies sont incapables d’atteindre un niveau de connaissance strictement a-normatif. Bien entendu, leur autonomie de calcul, couplée aux mégadonnées, leur permet d’adopter une posture de pluralisme prédictif qui participe à l’institution d’une certaine « liberté » de calcul. Pour autant, nous avons montré que ce pluralisme fait l’objet d’une préparation qui est opérée lors des activités de cadrage des environnements d’apprentissage, de traitement et politique. Il nous semble alors qu’en focalisant l’attention sur ces trois activités de cadrage, notre étude doit pouvoir permettre de mieux saisir les controverses qui sont associées au développement des machines à prédire. Car ce sont ces activités de cadrage qui sont respectivement en jeu lorsque les professionnels et les scientifiques dénoncent le fait que :

  • les machines prédictives apprennent et, par voie de conséquence, reproduisent des biais de représentation, par exemple, sexiste, ou encore, raciste (cf. le cadrage de l’environnement d’apprentissage ; O’Neil, 2016) ;
  • les apprentissages de ces machines sont, a minima dans certains cas, extrêmement difficiles à comprendre pour les humains [7] (cf. le cadrage de l’environnement de traitement) ;
  • ces machines ont pour principale fonction d’économiciser les comportements des humains (et plus particulièrement leur attention ; cf. Kessous, 2012), c’est-à-dire de les transformer en une source de plus-value ou, si l’on préfère, en marchandises (cf. le cadrage de l’environnement politique).

61En outre, en décrivant les activités de conception des machines à prédire à l’aide des trois activités de cadrages susmentionnées, nous avons cherché à pointer comment, à la différence des intelligences artificielles traditionnelles, ces technologies n’encapsulent plus vraiment de connaissances générales sur ce qu’est le marché, ou encore, la société. Leurs intelligences sont produites de façon locale et relationnelle dans la mesure où elles sont intriquées aux ressources et aux contraintes que connaissent ceux qui intègrent ces machines au sein de leurs organisations. Cet attachement renforcé avec les enjeux opérationnels a alors un coût : celui du détachement avec les connaissances les plus fondamentales que les hommes ont pu créer dans le domaine des SHS. Autrement dit, cette socialisation algorithmique que les humains produisent pour encadrer le travail inférentiel effectué par les machines à prédire est d’abord conçue pour fabriquer une intelligence de type pragmatique. Aussi, si cette nouvelle forme de socialisation participe à l’institution d’un pluralisme prédictif qui est à la fois nouveau et intéressant, elle contribue en retour à l’instauration d’une économie politique qui n’est, quant à elle ni très novatrice ni très élégante : les machines à prédire doivent généralement permettre d’optimiser des critères de performance gestionnaire qui sont extrêmement conventionnels. Nous souhaitons en ce sens insister sur l’importance que recouvre, du point de vue de l’étude que nous venons de présenter, le troisième type de dénonciation mentionné dans le paragraphe précédent. Bien sûr, le paradoxe des conséquences de Max Weber (1959) nous a appris que les externalités négatives et positives d’un phénomène social sont difficiles, pour ne pas dire impossibles, à anticiper. Pour autant, rien n’interdit les humains de se questionner sur la légitimité de cette socialisation algorithmique que les acteurs socioéconomiques conçoivent pour cadrer l’autonomie des machines prédictives qu’ils développent et mobilisent.

Annexes

Annexe 1. Présentation des matériaux d’enquête

62Afin d’effectuer notre enquête, nous avons commencé par réaliser trois projets de collaboration avec trois start-up engagées dans le développement de machines prédictives. Sur ces trois projets, un a donné lieu à un partenariat de dix-huit mois (cf. figure 1 ; S_01). Ces différents projets de collaboration et partenariat nous ont permis de réaliser des entretiens, des observations et de recueillir des documentations sur la manière dont ces entreprises ont conçu ce qu’elles appellent leurs solutions.

Figure 1

Présentation des startups enquêtées

Figure 1

Présentation des startups enquêtées

Source : auteur.

63Afin de mettre à l’épreuve les explorations effectuées dans le cadre des projets de collaboration et partenariat susmentionnés, nous avons conduit une campagne d’entretiens semi-directifs auprès de treize professionnels des données (i.e., datascientists ; cf. figure 2). Précisons que nous avons recruté un panel d’enquêtés exerçant dans des secteurs économiques divers afin de nous ouvrir la possibilité d’identifier des régularités dans les activités de conception des machines à prédire, peu importe leur domaine d’application. Autrement dit, nous avons effectué cette campagne d’entretiens dans le but de compléter les données recueillies lors des projets de collaboration et partenariat présentés plus haut. Par le biais des représentations exprimées par les professionnels interviewés, ces entretiens nous ont en effet permis d’accéder à plusieurs dizaines de cas de conception de machines à prédire. Si les projets de collaboration et partenariat que nous avons réalisés étaient une manière d’explorer de façon approfondie les activités de fabrication d’un nombre restreint de ces technologies, la campagne d’entretiens que nous avons conduite avait pour finalité d’examiner un nombre de cas plus important et de nous donner, par là même, les moyens de repérer les régularités qui structurent ces mêmes activités de conception.

Figure 2

Présentation des professionnels enquêtés

Figure 2

Présentation des professionnels enquêtés

Source : auteur.

Annexe 2. Schéma de présentation de la conception d’une machine à prédire

Figure 3

La fabrication d’une machine prédictive

Figure 3

La fabrication d’une machine prédictive

Source : auteur.

Notes

  • [1]
    Car, si les systèmes d’apprentissage artificiel n’ont pas toujours pour fonction de permettre la compréhension des phénomènes que représentent les données qu’ils traitent, ils ont par contre souvent pour finalité d’autoriser leur prédiction.
  • [2]
    Rappelons que Jean-Michel Berthelot (1990) a développé la notion de pluralisme explicatif pour montrer qu’il existe, dans le champ de la sociologie, plusieurs modes d’intelligibilité qui éclairent, chacun à leur façon, des processus spécifiques du monde social. L’auteur propose ainsi un plaidoyer pour le pluralisme explicatif en soutenant que le raisonnement sociologique ne se réduit pas à se positionner au sein d’une suite d’oppositions (e.g., holisme versus individualisme, ou encore, déterminisme versus actionnisme), mais à mettre en relation des éléments selon divers schèmes d’intelligibilité. Précisons toutefois que, dans le cas des machines prédictives qui nous intéressent ici, il ne s’agit en rien de mettre en œuvre le raisonnement sociologique tel que le décrit Jean-Michel Berthelot (1990). Pour autant, la capacité de ces technologies à articuler différents points de vue sur les réalités qu’elles doivent prédire rappelle certains aspects du pluralisme que soutient l’auteur.
  • [3]
    Rappelons que la régression logistique que mobilise Samuel est paramétrée pour expliquer l’acceptation des brevets.
  • [4]
    Précisons que nous reprenons ici les termes des professionnels interrogés. Nous souhaitons d’ailleurs souligner l’ambiguïté de cette expression dans la mesure où elle laisse entendre que les machines prédictives peuvent effectuer leurs apprentissages sans « biais », c’est-à-dire d’une façon « naturelle ». Or de tels apprentissages automatiques ne sont évidemment pas possibles.
  • [5]
    Nous souhaitons toutefois préciser que ce point de vue ne peut pas être généralisé puisqu’il existe de nombreux marketers qui acceptent mal de se laisser déposséder d’une partie de leur expertise par les boîtes noires que fabriquent les professionnels des données. Rappelons en ce sens que Solveig nous parle essentiellement des professionnels de la relation client qui ont volontairement fait appel à ses services.
  • [6]
    Il convient une nouvelle fois d’ajouter que ces propos ne valent que dans le cadre de l’étude que nous avons réalisée. Nous souhaitons en ce sens mentionner que Dominique Boullier (2016) montre, par exemple, le contraire : les boîtes noires connaissent un certain succès dans le domaine de la finance alors que, dans celui du marketing, l’intelligibilité des algorithmes est plutôt appréciée. Notons alors que cette contradiction est probablement liée aux spécificités des expériences des professionnels que nous avons interviewés. Dans les cas du marketing, de la finance et de l’assurance, il existe en effet une grande diversité d’applications des technologies algorithmiques. De telle sorte qu’il n’est pas impossible que la nécessité de pouvoir expliquer le fonctionnement de ces algorithmes varie en fonction des secteurs d’activité au sein desquels ses applications sont développées.
  • [7]
    Le programme TransAlgo conduit par l’Institut National de Recherche en Informatique et en Automatique (INRIA) est, notons-le, une initiative intéressante pour faire face à ce problème.
Français

Aujourd’hui, nous sommes tous conduits à produire quotidiennement de grandes quantités de données numériques. Du point de vue des acteurs socioéconomiques, la valeur de ces données souvent qualifiées de massives réside essentiellement dans leur capacité à autoriser une meilleure domestication du futur. Pour ce faire, de nombreux professionnels conçoivent un arsenal de machines qui ont pour fonction de prédire l’avenir. Dans cet article, nous proposons d’étudier les discours des concepteurs afin de dégager différents outils de description de la fabrication de ces machines. Notre objectif est ainsi de permettre l’identification et la compréhension des normativités que recouvre leur développement au sein des organisations.

Mots-clés

  • big data
  • intelligence artificielle
  • prédiction
  • conception
  • normativité

Références

  • AKRICH M. (1987), Comment décrire les objets techniques ? », Techniques et culture, n° 9, pp. 49-64.
  • En ligneAKRICH M. (1989), « La construction d’un système socio-technique : esquisse pour une anthropologie », Anthropologie et sociétés, vol. 13, n° 2, pp. 31-54.
  • AURAY N. (2011), « Les technologies de l’information et le régime exploratoire », in P. VAN ANDEL, D. BOURSIER (dir.), La sérendipité. Le hasard heureux, Paris, Hermann, pp. 329-343.
  • BARREY S. (2004), Le travail marchand dans la grande distribution alimentaire : la définition des relations marchandes, Toulouse, Université Toulouse Mirail.
  • En ligneBENBOUZID B. (2017), Des crimes et des séismes : la police prédictive entre science, technique et divination, Réseaux, n° 206, pp. 95-213.
  • BERTHELOT J.-M. (1990), L’intelligence du social : le pluralisme explicatif en sociologie, Paris, Presses universitaires de France.
  • BOULLIER D. (2016), Sociologie du numérique, Paris, Armand Colin.
  • En ligneCALLON M. (2017), L’emprise des marchés : comprendre leur fonctionnement pour pouvoir les changer, Paris, La Découverte.
  • CARDON D. (2015), À quoi rêvent les algorithmes. Nos vies à l’heure des big data, Paris, Seuil.
  • En ligneCOHEN M. D., MARCH J. G., OLSEN, J. P. (1972), « A garbage can model of organizational choice », Administrative Science Quarterly, vol. 17, n° 1, pp. 1-25.
  • COLL S. (2014). Surveiller et récompenser. Les cartes de fidélité qui nous gouvernent, Genève, Seismo.
  • CORNUÉJOLS A., MICLET L. (2010), Apprentissage artificiel : concepts et algorithmes, Paris, Eyrolles.
  • En ligneDAGIRAL É., PARASIE S. (2017), « La “science des données” à la conquête des mondes sociaux : ce que le big data doit aux épistémologies locales », in P.-M. MENGER, S. PAYE (dir.), Big data et traçabilité numérique : les sciences sociales face à la quantification massive des individus, Paris, Collège de France, pp. 85-104.
  • DESROSIÈRES A. (1993), La politique des grands nombres : histoire de la raison statistique, Paris, La Découverte.
  • En ligneDUFLO E. (2009), Expérience, science et lutte contre la pauvreté, Paris, Fayard.
  • En ligneGROSSETTI M. (2006), « Trois échelles d’action et d’analyse. L’abstraction comme opérateur d’échelle », L’Année sociologique, vol. 56, n° 2, pp. 285-307.
  • En ligneFULLER M. (2008), Software Studies : a Lexicon, Cambridge MA, MIT Press.
  • En ligneKESSOUS E. (2012), L’attention au monde : sociologie des données personnelles à l’ère numérique, Paris, Armand Colin.
  • MACKENZIE A. (2006), Cutting Code : software and sociality, New York, Peter Lang.
  • MANOVICH L. (2001), The Language of New Media, Cambridge MA, MIT Press
  • En ligneMARCUS G. E. (1995), « Ethnography in/of the world system : the emergence of multi-sited ethnography », Annual Review of Anthropology, n° 24, pp. 95-117.
  • En ligneMEADEL C., SIRE G. (2017), « Les sciences sociales orientées programmes. État des lieux et perspectives », Réseaux, n° 206, pp. 9-34.
  • OLLION E., BOELAERT J. (2015), « Au-delà des big data : les sciences sociales et la multiplication des données numériques », Sociologie, vol. 6, n° 3, http://sociologie.revues.org/2613.
  • O’NEIL C. (2016), Weapons of math destruction : how big data increases inequality and threatens democracy, New York, Crown Publishers.
  • En lignePICKERING A. (1995), The mangle of practice : time, agency, and science, Chicago, University of Chicago Press.
  • En ligneROUVROY A., BERNS T. (2013), « Gouvernementalité algorithmique et perspectives d’émancipation. Le disparate comme condition d’individuation par la relation ? », Réseaux, n° 177, pp. 163-196.
  • SIMONDON G. (1989 [1958]), Du mode d’existence des objets techniques, Paris, Aubier.
  • WEBER M. (1959 [1919]), Le savant et le politique, Paris, Plon.
Jean-Sébastien Vayre
Institut Mines-Télécom Business School et membre du LITEM (EA 7363)
Mis en ligne sur Cairn.info le 16/11/2018
https://doi.org/10.3917/res.211.0069
Pour citer cet article
Distribution électronique Cairn.info pour La Découverte © La Découverte. Tous droits réservés pour tous pays. Il est interdit, sauf accord préalable et écrit de l’éditeur, de reproduire (notamment par photocopie) partiellement ou totalement le présent article, de le stocker dans une banque de données ou de le communiquer au public sous quelque forme et de quelque manière que ce soit.
keyboard_arrow_up
Chargement
Chargement en cours.
Veuillez patienter...