CAIRN.INFO : Matières à réflexion

1Les machines contemporaines – d’information, de communication, de surveillance et de divertissement – évoluent progressivement vers le domaine de la gestualité. D’une part, les appareils électroniques et numériques sont de plus en plus guidés par des gestes qui s’incorporent progressivement à notre répertoire quotidien : les différentes façons de faire glisser les doigts sur les écrans pour déclencher des fonctions spécifiques ; les mouvements orientés des capteurs qui activent les commandes de portes, de lumières, de robinets, etc. D’autre part, les machines sont programmées pour reconnaître, détecter et « lire » nos gestes selon des schémas qui permettent de prédire la conduite et les actions futures. Il existe tout un champ de la vision par ordinateur qui se tourne vers la détection et la prédiction des mouvements et des gestes, particulièrement dans le domaine de la sécurité. Il s’agit là d’une reconfiguration non seulement dans le domaine du geste, mais aussi de la vision, notamment de la vision machinique [1]. En effet, la gestualité est l’un des domaines les plus prometteurs de la recherche et du développement de la vision par ordinateur et des caméras dites intelligentes [2]. La prolifération des appareils qui possèdent la fonction gesture recognition atteste la place centrale du geste dans les priorités que se donnent les développeurs [3].

2Bien que l’intensification des rapports entre la machine et le geste s’accélère aujourd’hui, cette relation a une histoire ancienne. Reprendre l’histoire moderne de ces relations nous permet de comprendre la progressive absorption du geste par l’image technique, d’abord par la photographie et plus tard par le cinéma, et maintenant par la vision computationnelle. Nous proposons de montrer dans cet article comment la décomposition, l’interprétation et l’anticipation des mouvements intéressent, depuis la modernité, différents domaines de connaissance et d’application : la sécurité, l’industrie, la psychiatrie et la science de l’art. Nous soulignons dans cette note généalogique deux vecteurs de transformation dans les visions machiniques de la gestualité.

3Le premier est une progressive abstraction et expropriation des gestes. Nous remarquerons comment, à travers la photographie et le cinéma, les gestes ont été extraits des corps et des individus en vue d’élaborer une connaissance spécifique à leur sujet et surtout en vue de les rendre plus productifs, expressifs ou efficaces. Il y a là un processus d’appropriation du geste par l’appareil machinique (le caméscope ou la machine industrielle) auquel ils vont finalement appartenir, c’est-à-dire, selon Adorno, suivre « les exigences des choses » (Adorno, 2005, p. 40).

4Le second est un effacement relatif de l’identité et de la subjectivité lorsque le biais prédictif de l’image technique est renforcé. La décomposition du mouvement et la lecture machinique des gestes changent de cible. Surtout dans le domaine de la sécurité et de la surveillance, la dimension prédictive se renforce en s’éloignant du paradigme de l’identification qui était dominant dans la modernité. La photographie et le cinéma promettaient l’enregistrement de gestes visant à reconnaître les criminels. L’expropriation progressive des gestes par les appareils modernes a créé des conditions pour que les caméras intelligentes actuelles fassent la promesse d’éviter de futures infractions, sans nécessairement passer par l’identification. Les systèmes prédictifs actuels basés sur la détection algorithmique des gestes et des mouvements se tournent vers la reconnaissance de modèles et d’anomalies qui permettent de prédire et d’intervenir sur des actions et des comportements sans connaissance préalable de l’identité de leurs « auteurs ».

5Nous allons analyser ces vecteurs de transformation dans les trois sections de notre article. La première est consacrée à la façon dont la reproductibilité technique de l’image – photographique et cinématographique – est mise au service de la réplication du geste, de son abstraction et de son expropriation dans plusieurs domaines : sécurité et autodéfense, science, art et industrie. Ensuite, nous verrons comment la matrice du modèle machinique contemporain, visant à la prédiction des comportements, est partiellement définie par la cybernétique. Enfin, nous analysons les investissements machiniques actuels sur la gestualité, montrant une fois de plus leur transversalité dans différents domaines (design, communication, divertissement, marketing, sécurité et surveillance). Nous porterons notre attention sur les dispositifs de vision par ordinateur et les caméras intelligentes basées sur la détection et la lecture automatisée de gestes et de mouvements, en cherchant à comparer les machines modernes d’anticipation et d’identification avec les machines contemporaines de prédiction et de contrôle algorithmique de la conduite.

L’image vivante du geste et sa reproductibilité technique

6Dans un article paru dans La Vie au Grand Air le 6 décembre 1906, le champion d’escrime Jean-Joseph Renaud mettait le lecteur en garde contre les « mauvais trucs » de la bande des « Apaches », qui effrayaient les gentilshommes bourgeois dans les rues de Paris : comment savoir si ce citoyen qui traverse la route et nous salue de son chapeau ne se penchera pas trop pour nous cogner d’un violent coup de tête [4] ? Dans les premières années du XXe siècle, « l’apachisme » était considéré comme une grande menace pour la vie normale des Parisiens. Chez les « Apaches », tout était gestes et ruses, pas seulement l’approche, les coups, mais aussi une danse particulière, probablement inspirée par le tango argentin, dans laquelle le couple simulait un combat de rue. L’analyse minutieuse de ses mouvements (ses « trucs »), à la fois pour la reconnaissance et pour l’autodéfense, était un sujet récurrent dans la presse. Cette analyse est, dès le début, inséparable d’une machination, puisque l’objectif principal d’un Apache est de « dégringoler leurs victimes » : en s’approchant pour demander des informations ou du feu, « il s’avance timidement, la mine très humble », mais soudain le rythme change, le chapeau est projeté contre le visage, il adresse un violent coup de tête dans le ventre et les mains essaient de ramasser les jambes de la victime et de la faire tomber. Le découpage de ces mouvements (Image 1), avec l’aide de la photographie, était considéré comme une méthode très efficace pour diffuser des techniques d’autodéfense, qui, à leur tour, étaient basées sur les principes mécaniques de l’action et de la réaction (Renaud, 1906, p. 948).

Image 1

J.-J. Renaud, « Trucs d’apaches et leur Parades », 1906

Image 1

J.-J. Renaud, « Trucs d’apaches et leur Parades », 1906

Source : Gallica, Biliothèque nationale de France.

7La décomposition, l’interprétation et l’anticipation des mouvements n’intéressaient pas seulement les défenseurs de l’ordre public. Dans la première moitié du XXe siècle, les rapports entre geste et intention étaient des sujets de réflexion dans différents domaines de connaissance. Quand l’historien de l’art Erwin Panofsky essaie d’expliquer les fondements de sa méthode de recherche – qui privilégie le sens des œuvres d’art au détriment de leur forme –, dans les premières pages de Studies in Iconology (1939), il ne se sert pas comme exemple d’une œuvre du canon occidental, mais de l’événement d’un « familier » qui « me salue dans la rue en levant son chapeau » (Panofsky, 1972, p. 3). Panofsky considère qu’un geste isolé tel qu’une salutation polie ne peut pas manifester tout cela « compréhensiblement », mais seulement « symptomatiquement » : « Nous ne pouvons pas construire un portrait mental d’un homme en nous basant sur une seule action, mais en coordonnant un grand nombre d’actions similaires et en les interprétant selon nos informations générales de l’époque, la nationalité, la classe, les traditions intellectuelles de ce monsieur et ainsi de suite » (ibid., p. 5).

8L’insuffisance prédictive du geste pris en lui-même est reconnue. Il faut qu’il soit associé à un vaste ensemble d’informations pour devenir pleinement lisible. Une lisibilité pourtant qui n’est possible que quand la dimension expressive ou conventionnelle du geste est dépassée pour approcher sa dimension symptomatique, inconsciente (Panofsky, 1972, p. 7). Le cinéma a sans doute été le grand responsable de la diffusion de l’idée selon laquelle le geste possédait une dimension inconsciente. Sans le découpage des prises cinématographiques il est peu probable que les récits de Renaud et de Panofsky, provenant de champs si différents, eussent marché sur le même trottoir, se saluant réciproquement d’un léger coup de chapeau. En effet, depuis les expériences des chronophotographes comme Étienne-Jules Marey, Edward Muybridge et Albert Londe, on assiste à une véritable prise de conscience de la lisibilité des gestes dans des domaines aussi disparates que l’industrie, la psychiatrie et la science de l’art. En 1931, Walter Benjamin donne enfin un nom à ce phénomène – « inconscient optique ».

9

« On aperçoit en général le mouvement de l’homme qui marche, mais on n’aperçoit rien de son attitude à la fraction de seconde où il fait un pas. La photographie nous montre cette attitude à travers ses recours auxiliaires : ralenti, agrandissement. Seule la photographie révèle cet inconscient optique, comme seule la psychanalyse révèle l’inconscient pulsionnel ».
(Benjamin, 1985, p. 94)

10Il n’est donc pas surprenant que dès le premier Congrès de Police judiciaire internationale en 1914 à Monaco, dans lequel la « fiche parisienne » de Bertillon est prise comme modèle pour créer une « fiche signalétique internationale », une des participantes, Agathe-Berthe Dyvrande, avocate à la Cour d’appel de Paris, ait suggéré que les caméras cinématographiques pourraient être utilisées dans les laboratoires d’identification criminelle pour filmer les individus dans « leurs attitudes habituelles ». Ce Congrès, dont les actes n’ont été publiés qu’en 1926 à cause de la guerre, a fait apparaître un effort impressionnant pour créer une plateforme européenne commune pour combattre le crime ; après tout, « L’univers est un, et les criminels ne s’arrêtent pas aux barrières que dressent la politique ou l’histoire » (Premier congrès…). Mais le congrès est aussi le chant du cygne du bertillonnage comme système d’identification et la délégation française accepte que la grande archive judiciaire universelle soit classifiée selon le système dactyloscopique argentin, créé par Vucetich, et déjà utilisé en plusieurs pays du monde (ibid., p. 47).

11Dans ce contexte, le propos présenté par Mlle Dyvrande cherchait à rétablir le caractère pionnier perdu par la criminologie française. Ce n’était pas, originellement, une idée de la police, mais d’Albert Gaveau, directeur du Pathé-Journal, qui l’a soumis à l’attention de Célestin Hennion, chef de la Police de Paris (entre 1913 et 1914) qui avait créé la première école de formation des policiers, en 1910. Le Pathé-Journal, lancé en 1909 et pionnier dans le domaine des actualités cinématographiques, proposait également de réaliser des films qui serviraient d’entraînement aux policiers dans cette école. Les députés ont adhéré avec enthousiasme à cette idée : des films réalisés en Russie montraient, par exemple, comment le comportement de la foule dépendait de la position des agents de sécurité ; comment comparer les bonnes et les mauvaises attitudes des policiers ; comment les preuves sont collectées dans une scène de crime ; ou encore, comment illustrer le modus operandi de certains criminels (ibid., p. 93). Apparemment, le Pathé-Journal a produit quelques images qui, disparues, n’ont pas été montrées à Monte-Carlo par Mlle Dyvrande. Elles ont été remplacées par une rhétorique enthousiaste. L’avocate reconnaissait que la photographie facilite la recherche et la reconnaissance, « mais elle n’est que la représentation d’un buste, d’une face, d’un profil – il manque l’animation, la vie, qui permet de découvrir les attitudes, les gestes familiers, les signes particuliers, manies, tics, de l’individu » (ibid., p. 209). Dans la rigidité de la pose du studio anthropométrique, les « attitudes naturelles » seraient perdues. Le cinéma à son tour produirait une « image concrète vivante » au lieu seulement de « mots abstraits inscrits sur une fiche peu évocatrice » [5]. Le caractère vivant de l’image était indissociable de la nature intrinsèquement mécanique du mouvement, une fois qu’avec le concours du cinématographe les gestes pouvaient « être lentement décomposés et étudiés » (ibid., p. 210). La valeur de la proposition de Mlle Dyvrande était tellement évidente que le président du Congrès déclara : « C’est un progrès. Je ne vois pas pourquoi on n’accepterait pas » (ibid., p. 93). Un mois après, le journal Le Film informait que la police de Paris utiliserait le cinéma dans un nouveau cours pour former ses « agents de la paix ». Grâce à Pathé, l’agent apprendra à protéger « l’enfant égaré », « le vieillard infirme » ou comment conduire en sécurité les « aliénés dangereux ». La revue salue cette initiative : « L’avenir confirmera que le cinéma est seul capable d’instruire sans ennuyer » (Bernard, 1914, p. 7).

12Dans ce qui a peut-être été la première formulation de l’usage systématique de l’image en mouvement à des fins policières, nous observons clairement deux tendances antagoniques : la première marque la décomposition du mouvement qui conduit à l’abstraction du geste et l’autre la recomposition qui essaie de retrouver l’image vivante. Cependant, toutes les deux sont clairement subordonnées au paradigme de l’identification. Dans un contexte où la fiche signalétique anthropométrique perdait rapidement sa place en faveur du modèle anglo-saxon, qui privilégiait et réduisait l’identification judiciaire aux empreintes digitales, les défenseurs de Bertillon, en faisant appel au cinéma, se sont attachés à la dimension ineffable du geste, c’est-à-dire, à la « vie » elle-même.

13Trois décennies après le Congrès, Léon Lerich, un prestigieux juge d’instruction adjoint au Tribunal de la Seine, se plaint du fait que le projet proposé par Mlle Dyvrande n’ait pas été suivi (Lerich, 1949, p. 65). En fait, le processus d’abstraction du geste, sans lequel les machines prédictives contemporaines ne sauraient comment opérer, a avancé beaucoup plus lentement dans la police que dans d’autres domaines. Depuis le milieu des années 1870, la photographie et la chronophotographie étaient au service de l’élaboration de la « grande crise hystérique », comme une succession de figures et de poses affichées par les patients du Dr Charcot (Didi-Huberman, 2003). D’un patient, Charcot dira, par exemple, qu’il « semble un automate tiré par un fil » (Agamben, 2000, p. 51). Dans la décennie suivante, en 1889, Mauricio Vidal Portman initie son travail exhaustif de documentation des Andamanais où des dizaines de photographies sont employées pour « montrer chaque étape de la production d’une arme, etc., si clairement […] qu’il serait possible à un ouvrier européen d’imiter son travail » (Pinney, 2011, p. 38). La reproductibilité technique de l’image est mise au service de la réplication du geste. La décomposition du mouvement assume ici clairement son caractère d’expropriation. On y attendait donc que la réalisation la plus réussie de cette décomposition du geste – comme expropriation et abstraction – ait lieu dans le domaine de l’« administration scientifique » du travail industriel, dans le cadre du taylorisme. Dans les cyclographies de Frank B. Gilbreth, la trajectoire des gestes est marquée par des lumières attachées aux extrémités des membres des ouvriers (Image 2). Une double machination apparaît ici : la première concerne le corps, dont les traits individuels, en particulier les caractéristiques du visage, sont effacées, pour que la cinématique du geste soit enregistrée ; la deuxième est le contrepoint des lignes lumineuses face au diagramme anthropométrique – d’usage courant dans les études anthropologiques ainsi que dans l’identification des criminels. La projection sur le diagramme ne vise pas ici la singularité d’un individu ou la définition d’un type, mais la cartographie des « mouvements maladroits inefficaces ou mal dirigés » qui « ne laissent aucune trace tangible ou visible derrière eux » (Oubiña, 2009, p. 36), mais qui causent des pertes au procès industriel. Le dessin du geste efficace est le résultat non seulement d’une dépersonnalisation de l’ouvrier, mais aussi d’une épuration de toutes ses maladresses et tics idiosyncratiques qui, dans le contexte de la ligne de production, contribuent au gaspillage de temps et de matériel. La différence par rapport au paradigme de l’identification se présente ici clairement, parce que ce sont ses mêmes maladresses, grimaces et tics qu’Agathe Dyvrande avait pour but d’enregistrer pour mieux reconnaître les criminels.

Image 2

Frank Gilbreth. Cyclographie. Étude sur l’efficacité du mouvement

Image 2

Frank Gilbreth. Cyclographie. Étude sur l’efficacité du mouvement

Copyright : © National Museum of American History.

14Dans les usages postérieurs de la technique créée par Gilbreth, l’ambivalence du registre visuel du geste est très clairement aperçue. En associant la longue exposition à la lumière stroboscopique (fondamentalement une combinaison des procédures de Gilbreth et Jules-Marey), Gjion Mili a fait le portrait non seulement des ouvriers, mais aussi des chefs d’orchestre, des danseurs, des joueurs de jazz et, dans sa séquence la plus connue, du peintre Pablo Picasso (Image 3). Le geste gaspillé dans la ligne de production devient maintenant l’excès – de talent et de mouvement – qui singularise un artiste et son œuvre. Une année avant cette photographie, Sigfried Giedion avait observé, dans son essai sur la mécanisation de la vie quotidienne, la ressemblance entre les cyclographies de Gilbreth et les peintures de Paul Klee, Vassily Kandinsky et Joan Miró, en signalant que pour le scientifique les « trajectoires » sont devenues des « entités avec des lois indépendantes » alors que pour les peintres la « pure forme du mouvement s’est convertie en objet artistique de plein droit » (Giedion, 1948, pp. 104-113).

Image 3

Gjion Mili. Pablo Picasso, peintre, 1949

Image 3

Gjion Mili. Pablo Picasso, peintre, 1949

Copyright : © Gettyimages.

15Parmi les nombreux personnages montrés par Mili, il en est un qui nous intéresse particulièrement : il s’agit de l’agent du FBI Delf « Jelly » Bryce (Image 4). Considéré comme le tireur le plus rapide de l’Amérique – il était capable de sortir un revolver et de tirer, en touchant la cible, en 0.4 seconde à peine. D’après la légende, dans les années 1940, il suffisait d’annoncer l’arrivée de « Jelly » sur le lieu du crime pour que les bandits se rendent immédiatement. Au contraire de Picasso dont le geste suggère imagination et spontanéité, l’action de Bryce est minutieuse et millimétrique. Il avait l’habitude de s’entraîner à dégainer pendant des heures devant le miroir où il cherchait à être plus rapide que lui-même.

Image 4

Gjion Mili. Delf Bryce, agent du FBI, 1945

Image 4

Gjion Mili. Delf Bryce, agent du FBI, 1945

Copyright : © Gettyimages.

16Le peintre ainsi que le détective ont leurs gestes emprisonnés par la photographie dans son « étrange espace confiné » (Price, 1994), mais l’image de l’agent Bryce devant son miroir nous est, aujourd’hui, trop familière : « Are you talking to me ? » – aurait-il dit à son double, en défi, comme Robert de Niro dans Taxi Driver, de Martin Scorsese. Parce que son espace de confinement n’est autre que l’espace filmique lui-même, tel qu’il est originellement constitué par l’alternance entre plan et contre-plan. Walter Benjamin avait déjà signalé que l’invention de la photographie avait été aussi importante pour la criminologie moderne que la presse l’avait été pour la littérature – et, évidemment, pour la combinaison des deux dans le développement du polar. Désormais, remarque-t-il, « les efforts pour capturer un homme dans son discours et dans ses actions ne se sont pas arrêtés » (Benjamin, 2003, p. 27). Capturé par le miroir cinématographique, l’agent Bryce est condamné à répéter à l’infini le même geste dans ce duel imaginaire. Comme Giorgio Agamben l’a suggéré avec acuité, « pour les êtres humains qui ont perdu tout sens de naturalité, chaque geste singulier devient un destin » (Agamben, 2000, p. 52). L’ambivalence de l’enregistrement visuel du geste est aussi mise en relief par le philosophe, pour qui « chaque image est animée par une polarité antinomique : d’un côté, les images sont la réification et l’oblitération d’un geste […] ; de l’autre, elles préservent la dynamis intacte » (ibid., p. 54). C’est pourquoi le cinéma peut être le lieu où une société qui « a perdu ses gestes essaie en même temps de revendiquer ce qu’elle a perdu et d’enregistrer cette perte » (ibid., p. 52). Mais, de quelle perte s’agit-il ? Se perdre de quoi et pour qui ?

17Quand Elia Kazan a créé, en 1947, l’Actors Studio, à New York, il a mis la méthode des actions physiques de Stanislavski au service d’une technique d’interprétation qui a permis de connecter directement un geste à un « personnage » ou un « rôle ». Son adéquation à la production cinématographique ne découle pas seulement du caractère naturaliste des leçons du maître russe. En reconnaissant à l’intérieur de chaque scène une variété d’« unités » qui sont mises en corrélation avec des « objectifs » et des « actions », la méthode promet de regrouper les actions découpées et produites sans linéarité chronologique ou causale dans une quelconque instance supérieure (le film, le récit ou l’humanité). Chaque geste de l’acteur ou de l’actrice, décomposé par le cinématographe (cadre à cadre et, principalement, plan à plan) est sauvé, accueilli ; et sa vie et son sens sont rétablis par l’esprit qui habite la bobine du film, comme avant il habitait le corps de l’acteur.

18Hors du cinéma, pourtant, la décomposition mécanique du geste et la perte qui lui est associée ne trouvent de place dans des formes de transcendance. Theodor Adorno a peut-être été le premier philosophe à le reconnaître à propos de l’automatisme des portes. Dans « Entrer sans frapper », note écrite en 1944, publiée dans Minima Moralia, il affirme que « la technologie rend les gestes précis et brutaux, et les hommes avec eux ». Déshabillés de toute hésitation, les gestes auraient été convertis en « exigences des choses ». Les portes de réfrigérateurs et de voitures doivent être « claquées », et « personne ne sait plus fermer une porte avec gentillesse, mais d’une façon ferme ». Les portes à ressort, qui sont devenues populaires au début des années 1940, ont imposé de mauvaises habitudes aux gens, comme celles de ne pas regarder pour voir s’il y a quelqu’un derrière. Sous la loi de la fonctionnalité, le contact avec l’objet serait limité à la seule opération et tout ce qui ne peut pas être « consommé » en ce moment – ce d’où pourrait venir une « expérience » – est banni de l’action (Adorno, 2005, p. 40). Quelques paragraphes plus loin, il note, à propos de la perte de gentillesse :

19

« Toute membrane interposée entre les hommes et leurs transactions est sentie comme une perturbation au fonctionnement du dispositif, auquel ils sont non seulement objectivement incorporés, mais avec lequel ils s’identifient avec fierté. Donc au lieu d’enlever leur chapeau, ils se saluent les uns les autres avec des “bonjours” d’une familière indifférence ».
(ibid., p. 41)

Contrôle et prédiction : la cybernétique

20La mécanisation du geste, inséparable de sa décomposition et de sa reproductibilité, visait, tout compte fait, sa conformation à une finalité. Il s’agissait fondamentalement d’un ajustement biodynamique de la machine à visser, à écrire ou à se battre en duel, sans laquelle les objets techniques ne pourraient pas fonctionner correctement comme des « dispositifs », au sens éclairé par Foucault – c’est-à-dire comme une dimension où se matérialisent les relations de pouvoir dans les institutions, les discours, les techniques, les règles et les processus de subjectivation (Agamben, 2009). L’apogée paradoxale de cette mécanisation du geste a été la cybernétique. D’après la brillante synthèse produite par Norbert Wiener, « la théorie du contrôle en ingénierie, qu’elle soit humaine, animale ou mécanique, est un chapitre de la théorie du message » (Wiener, 1989, pp. 16-17). Dans l’utopie cybernétique, la porte automatique de la Pennsylvania Station à New York (l’exemple est de Wiener) est le paradigme des machines sensibles : la moindre information provenant du « monde extérieur » déclenche l’action la plus exacte et la plus précise du mécanisme. Les machines automatiques ont évolué selon le même principe que le règne animal : « contrôler l’entropie par la rétroaction » (ibid., p. 26). Avec la cybernétique, le dernier vestige du paradigme cartésien des organismes vivants en tant qu’horloger disparaît, puisque la machine elle-même n’est plus qu’un simple rouage. L’automate cybernétique cohabite avec notre univers thermodynamique et assimile les propriétés du vivant.

21Revenons à l’agent du FBI qui est resté tout ce temps devant le miroir, en essayant de dégainer son pistolet de plus en plus vite. À quoi sert toute cette amélioration si ce qu’il a devant ses yeux est un bombardier et dans ses mains un canon antiaérien ? Que peut-il faire d’autre que suivre la cible en cherchant vainement à la frapper dans une action qui semble se dérouler au ralenti ? Mais, suggère Wiener en 1950, un nouveau canon antiaérien peut être construit ‒ celui qui « surveille par lui-même les statistiques concernant l’avion ciblé » ‒, car leurs manœuvres évasives, si variés que soient les pilotes et les avions, sont soumises à des régularités. Ainsi, le canon est engagé non seulement dans une action de combat, mais dans une action d’apprentissage qui lui permet d’anticiper les manœuvres possibles du pilote. Pour que les machines soient capables d’anticiper les mouvements et devenir des prediction machines, elles devraient pouvoir apprendre (ibid., pp. 86-88). Cet étrange duel qui met d’une part un pilote dans une cabine ergonomiquement optimisée pour réagir à la moindre commande – c’est-à-dire pour que chaque mouvement soit aussi précis, exact et sans gaspillage possible – et, d’autre part, une machine capable d’anticiper la trajectoire erratique à partir de schémas statistiques déduits d’expériences antérieures, voilà la scène d’origine de l’autonomisation du geste dans la contemporanéité.

22Un des ancêtres du canon rêvé par Wiener était le Kerrison Predictor, un ordinateur analogique créé à la fin des années 1930 en Angleterre pour guider les tirs d’un canon antiaérien. Le British Pathé a produit en 1939 un film de propagande à ce sujet, qui a été montré dans les théâtres anglais à la veille de la Seconde Guerre mondiale. Il s’appelait Predictions while you wait et son but était double : présenter une machine capable de prédire les trajectoires des avions ennemis et démontrer en même temps que le gouvernement anticipait des mesures préventives en cas de guerre. Devant un diagramme de machine, un locuteur annonce qu’il s’agit d’un Predictor, « l’un des équipements les plus ingénieux de notre système de défense ». Anticipant sans doute l’étonnement du public face à son format inhabituel, il ajoute : « il ressemble à un caméscope/boîte à filmer » (Predictions…, 1939). La similitude entre les deux appareils atténuait l’étrangeté, édulcorait l’inquiétude résultant de la rencontre entre des machines bizarres et les peurs de la guerre, renvoyant le Predictor à l’univers familier du divertissement de masse.

23À la décomposition du geste dans la photographie et dans le cinématographe, qui a simultanément mécanisé le vivant (à des fins de discipline, de contrôle, d’examen, de diagnostic et de performance) et nous a charmés avec la restitution éphémère de son mouvement dans les salles de cinéma, la cybernétique a ajouté l’animation thermodynamique des machines automatiques et, plus tard, prédictives. Que cette confrontation dramatique ait eu lieu sur un champ de bataille et non dans une salle d’identification judiciaire révèle les limites auxquelles la criminologie a historiquement fait face pour opérer en dehors du paradigme de l’identification (puisque le droit impute nécessairement le crime à un coupable particulier).

24La cybernétique établit cependant la base d’un modèle prédictif qui prévaudra sur le paradigme de l’identification, y compris dans le domaine de la sécurité. La machine prédictive idéalisée par Wiener (le « prédicteur antiaérien (AA) ») était programmée par les entrées statistiques des performances des vols passés, en vue de prédire mathématiquement la position future de l’avion ennemi. Peter Galison (1994), dans son excellente analyse de la vision cybernétique, montre comment le système prédictif conçu par Wiener (valable pour les humains et pour les machines) est étroitement lié à une ontologie de l’ennemi. Dans le champ de bataille mécanisé de la Seconde Guerre mondiale, un « abîme de distance, de vitesse et de métal » nous éloigne du pilote ennemi qui lance des missiles d’en haut (Galison, 1994, p. 233). C’est un ennemi caché, tellement mêlé à son armure machinique que les frontières entre humain et non-humain deviennent floues. La construction d’une machine capable de prédire la position de l’avion-pilote à temps pour l’abattre dépendait de la connaissance de son comportement, malgré son opacité. Wiener et Bigelow notent que le pilote ennemi sous stress présente des régularités et des schémas dans son histoire comportementale, semblable à un servomécanisme. Le servomécanisme, déjà présent dans les études de Wiener sur des dispositifs capables d’autoréguler son action en fonction d’un but et de ses échanges informationnels avec l’environnement, devient le modèle à la fois du pilote ennemi et de la machine qui le vaincra [6].

25Il est important de souligner que la connaissance du comportement de la machine-pilote ennemie et les calculs mathématiques concernant sa position future sont établis sans aucune référence à sa constitution et/ou à ses états internes. L’accent mis sur le comportement manifeste est fondé sur une approche behavioriste qui privilégie les manifestations directement observables au détriment de toute référence à des états mentaux ou internes animés par des intentions, des croyances ou des désirs. Galison souligne que cette opacité de l’Autre est à la base de la perspective cybernétique de l’ennemi et aussi de l’organisme humain et non humain, de la machine et du monde. « Nous sommes vraiment, dans cette vision du monde, comme des boîtes noires avec des entrées et des sorties et sans accès à la vie intérieure de quelqu’un d’autre » (ibid., p. 256).

26Ce modèle de machine prédictive, visant à anticiper les actions futures d’acteurs initialement conçus comme des boîtes noires, persiste, avec quelques variations, dans les dispositifs actuels de prédiction des gestes et des comportements dans plusieurs domaines, notamment dans le secteur de la sécurité.

27La cybernétique pose ainsi les bases d’un modèle prédictif qui prévaut sur l’identification, mais ne l’annule pas. Nous allons montrer que l’accent mis sur la prédiction de l’action (plutôt que sur l’identification de l’acteur) va de pair avec un détachement relatif des connaissances préalables sur l’identité ou la subjectivité des individus observés. On notera également que les modèles machiniques actuels de détection et de prédiction des comportements radicalisent l’expropriation et l’abstraction du geste aussi bien dans le domaine de la sécurité que dans celui de la consommation et des interactions homme-machine.

Détection et anticipation automatisée des gestes

28Reprenons d’abord la méthode de la bande des Apaches employée pour décomposer et anticiper les gestes, en la comparant aux mécanismes automatisés de « détection de bagarres », aujourd’hui incorporés aux systèmes de vidéosurveillance dans les prisons, dans les écoles et dans les espaces urbains comme des gares ou des parkings. De tels mécanismes sont constitués de programmes d’ordinateur capables de reconnaître des gestes et des conduites qui indiquent des situations de dispute. La plupart des programmes de ce type ont pour but de surveiller et de détecter les comportements au sein de petits groupes ou de foules [7]. L’inscription de cette fonction de reconnaissance dans la machine la rend capable de différencier dans une image ce qui est défini comme régulier et irrégulier. L’irrégularité, dans ce cas, indique un combat imminent ou déjà en cours. Une telle habilité implique, comme dans la méthode employée avec la bande des Apaches, la décomposition du mouvement, mais ici, le principe est surtout algorithmique, et non plus visuel. Il ne s’agit pas de segmenter les déplacements des parties du corps pour voir mieux et plus lentement les tricheries cachées parmi les contretemps du geste chorégraphié, mais de suivre l’image afin de détecter plus rapidement les changements dans ses paramètres. L’abstraction du geste s’est radicalisée et s’est traduite en caractères spatiaux et temporels de l’image vidéo, lisibles aux yeux de la machine en tant que vecteurs de mouvement, de direction, de magnitude, de vitesse ou de texture (Image 5).

Image 5

Détection des bagarres dans les vidéos de surveillance

Image 5

Détection des bagarres dans les vidéos de surveillance

Source : Esen et al., 2013. Copyright © 2013, IEEE.

29La détection de l’irrégularité dans l’image doit être quasi simultanée à l’intervention qui essaie, dans ce cas, de détourner le cours de l’action. Connecté aux contrôles de sécurité, le système fait sonner une alarme dans le champ attentionnel des opérateurs de vidéosurveillance, en permettant qu’une intervention ait lieu au moment de l’incident prévu, ou même avant. L’image, déjà dotée d’un pouvoir d’observation en temps réel, vise maintenant un temps réel de réaction. Plus encore, l’idéal de cette détection automatisée est d’arriver avant le désastre, de façon à l’anticiper et à éviter l’incident qui pourrait venir. Même si l’horizon de tous les systèmes de détection de bagarres est, dans une certaine mesure, prédictif, il existe des projets qui sont spécifiquement focalisés sur la détection des attitudes et des gestes propres aux moments qui précèdent une dispute ou une situation violente. C’est le cas de la recherche Pre-fight detection : Classification of Fighting Situations Using Hierarchical AdaBoost (Blunsden et Fisher, 2009). La forme potentielle du geste violent doit être détectée à temps pour le conjurer.

30Les mécanismes de détection des bagarres nous offrent un contrepoint à la lecture moderne des gestes potentiellement violents, nous permettant de comprendre certains des principes qui régissent le processus actuel d’automatisation de la prédiction des conduites. De tels mécanismes intègrent toute une génération de systèmes de vidéosurveillance et de vision par ordinateur dotés d’une couche, dite « intelligente », capable non seulement d’observer, de transmettre et d’enregistrer les images en temps réel, mais de « lire » ces images selon des paramètres précédemment définis. Dans le domaine de la sécurité, ces paramètres sont généralement destinés à détecter des comportements ou des situations considérés comme suspects ou anormaux. La prolifération au début du XXIe siècle des caméras de vidéosurveillance partout dans le monde témoigne de la réussite partielle et tardive du propos de Mme Dyvrande et de M. Gaveau, puisque l’image en mouvement a été finalement incorporée au quotidien de la sécurité publique. Pourtant, et malgré sa presque omniprésence, la vidéosurveillance conventionnelle ne s’est pas montrée assez efficace dans le combat contre le crime en raison, entre autres, des limites de la perception et de l’attention humaines dans le traitement de telles images volumineuses et monotones. La connaissance de cette limitation est bien antérieure à la popularisation des systèmes de vidéosurveillance et renvoie en amont aux problèmes associés à la surveillance par radar pendant la Deuxième Guerre mondiale. La fatigue et les failles des opérateurs de radar dans la détection de signes ont mobilisé des études sur les limites de l’attention qui, à cette même période, se sont associées au terme de « surveillance » dans le domaine de la psychologie. Le type d’attention employé par ces opérateurs a reçu le nom de surveillance afin de désigner une attention soutenue ; ces deux termes sont encore de nos jours utilisés comme synonymes par certaines théories de l’attention. Jusque-là, dans ce domaine de recherche, la surveillance désignait un état ou un sens physiologique d’activation et de réceptivité par rapport au fonctionnement général du système nerveux (Head, 1923 apud Gómez-Iniguez et al., 1999). À travers les opérateurs de radar (Mackworth, 1948 apud Gómez-Iniguez, op. cit.), le terme « surveillance » est venu signifier une forme spécifique de l’attention définie par la focalisation, la sélection, la continuité, la finalité et l’anticipation. Les recherches de Mackworth montrent comment, chez l’homme, l’attention soutenue décline après une demi-heure d’activité focalisée. Les radars modernes intègrent alors la détection automatisée de tout signal inattendu ou non familier.

31Nous retrouvons les mêmes problèmes et des solutions similaires dans le domaine de la vidéosurveillance des premières décennies du XXIe siècle. La réduction de la performance attentionnelle de l’opérateur des caméras, après une certaine période d’exposition à ces images, peut effectivement compromettre sa perception quand quelque chose de pertinent se produit. L’addition d’une couche « intelligente » est justement destinée à dépasser cette limite et à sélectionner dans les images, des moments et des régions vers lesquels l’attention des opérateurs humains doit se diriger. L’utilité pédagogique de l’image en mouvement pour la défense sociale, entrevue par M. Gaveau, est maintenant destinée, non plus aux policiers, mais aux machines elles-mêmes. Ce sont elles qui doivent apprendre à reconnaître dans chaque scène, des situations suspectes, risquées ou dangereuses. Il ne s’agit plus de rendre visibles des actions qui se déroulent au-dessous des seuils perceptuels humains (« inconscient optique ») ou d’améliorer, par l’observation des mouvements, les habiletés cognitives des agents. L’idéal d’une machine ergonomique aussi rapide que la pensée humaine était voué à l’échec, comme le rêve de l’agent Jelly, qui voulait être plus rapide que lui-même. Cet idéal a succombé face à la distraction fatale à laquelle tôt ou tard les vigilants succombent eux aussi.

32Seule la vidéosurveillance « intelligente » peut soutenir l’idéal commercial et sécuritaire des 24 heures de veille omniprésente, sans être hantée par son propre excès. La vision algorithmique des caméras promet une surveillance continue et efficace, permettant une plus grande mobilité à la fois des agents de sécurité humaine et des corps surveillés. La publicité du groupe Thalès, qui a développé le système intelligent de détection de comportements suspects mis en place par la SNCF, annonce cette promesse pour la surveillance des aéroports :

33

« Grâce à cette solution innovante, l’opérateur de sécurité – derrière ses écrans ou circulant dans l’aéroport, car le système permet également d’afficher et de contrôler les flux vidéos sur des terminaux mobiles pour une surveillance “nomade” – dispose désormais d’un puissant outil de détection et de suivi des comportements anormaux pour assurer une sécurité optimale des milliers de personnes évoluant quotidiennement dans les grands aéroports internationaux ».
(Thales Group, 2015) [8]

34L’inspection des corps s’effectue sans que soit interrompu le cours de leurs actions et de leur mobilité quotidienne, sauf en cas de suspicion ou d’irrégularité. En plus de la surveillance en temps réel, l’observation des corps mouvants dans leurs déplacements habituels a une fonction cognitive importante, parce qu’elle permet de connaître les schémas de comportement de chaque individu et de la foule dans un environnement naturel. Cette connaissance est décisive pour apprendre aux machines à reconnaître aussi bien des disputes et des situations de violence que d’autres types de comportements considérés comme suspects, risqués ou simplement indésirables : des corps qui marchent à contresens, qui rentrent dans lesdites « zones d’intérêt », qui restent trop de temps dans des lieux d’intense mobilité (aéroports, stations de métro, centres commerciaux), qui effectuent des trajets atypiques en contextes spécifiques (comme des parkings ou sur les routes urbaines encombrées) ou encore, dans le cas des machines orientées vers la surveillance de la foule, qui changent de forme, de rythme ou de densité au sein des agglomérations.

35Dans le domaine de la sécurité publique, nous observons toujours l’importance médiatrice des acteurs humains. Jean-Yves Dufour, en écrivant sur l’implémentation des systèmes intelligents de vidéosurveillance au sein des réseaux de transport public en France, parie sur l’irréductibilité de la faculté humaine de juger une situation détectée comme suspecte par la machine.

36

« Cette communication avec les acteurs humains est représentative d’une approche dans laquelle le capteur est utilisé pour détecter une situation à risque potentiel, la décision et les moyens d’intervention revenant à l’homme, seul jugé compétent pour évaluer finement la situation réelle sur laquelle le système automatique donne très efficacement des indices. Les situations critiques et les fonctions identifiées lors de l’analyse du besoin utilisateur sont la détection de chute sur le sol (malaise ou agression), la détection de bagarre, le suivi d’un passager dans le réseau (utile par exemple pour interpeller un individu ayant commis un délit) ».
(Dufour, 2012, pp. 47-48)

37Si l’évaluation fine des images de vidéosurveillance est toujours prise en charge par les acteurs humains, il faut souligner une couche plus subtile d’anticipation qui reste, même dans le domaine sécuritaire, déléguée aux machines intelligentes. L’article intitulé « Pre-Emptive camera activation for Video-Surveillance » présente « une nouvelle technique de visualisation de l’information qui vise à réduire l’effort mental des opérateurs de sécurité » (Martinel et al., 2011, p. 189). À partir du diagnostic de l’inhumanité de l’effort requis pour surveiller un objet ou un individu en mouvement à travers des espaces décomposés en plusieurs champs de vision, les chercheurs ont développé un système automatique de vidéosurveillance.

38Au lieu de montrer les images de toutes les caméras disponibles, ce sont les anomalies des flux qui seront montrées aux agents de sécurité. Afin de déterminer de tels flux, le système doit prévoir les trajectoires régulières des individus avec les caméras qui les enregistrent (ibid., p. 190). La capacité d’anticipation dans ce système n’est pas exclusivement orientée vers une analyse automatisée des actions effectivement réalisées devant les caméras. Il s’agit plutôt d’une stratégie liée à un haut degré de normalisation des conduites qui indique aux opérateurs du système les déplacements suspects dans l’espace surveillé. Le système se dirige vers ce qui n’est pas prévu par l’architecture d’un tel espace.

39Deux images (Images 6 et 7) présentées dans l’article cité illustrent bien le type de logique anticipatrice en opération.

40Dans l’Image 6, nous avons accès aux deux couches qui intègrent ce système visuel de vidéosurveillance. La première figure est l’image d’un parking tel qu’il est capturé par la vidéo en temps réel, alors que la deuxième et la troisième image (à l’horizontale, de gauche à droite) correspondent aux diagrammes qui confrontent algorithmiquement l’image enregistrée par les caméras de vidéo, en signalant des éventuels détours dignes d’une attention supplémentaire. Dans le parking sous surveillance, le piéton qui se trouve au point C1 de l’image a tendance à se déplacer vers C2, C3 et C4, et chacune de ces possibilités est estimée par un algorithme. Dans la deuxième ligne de l’Image 6, nous voyons la procédure analogue d’estimation de la trajectoire et le calcul de probabilité pour une voiture qui rentre dans le même parking. Comme les déplacements des piétons et des voitures suivent différents protocoles (l’espace par lequel une personne peut passer ne permet pas forcément le passage d’une voiture), nous sommes confrontés à deux diagrammes de suivi et de prédiction de mouvement. Ils orientent l’attention des agents de sécurité en fonction de n’importe quel détour non prévu par de tels paramètres.

Image 6

Exemple de l’association de la trajectoire et la probabilité du chemin futur

Image 6

Exemple de l’association de la trajectoire et la probabilité du chemin futur

Source : Martinel et al., 2011, p. 192. Copyright © 2011, Springer-Verlag Berlin Heidelberg

41L’Image 7 présente la façon dont l’anticipation des trajectoires des individus surveillés par ce circuit peut servir au développement d’une interface plus facile à maîtriser par l’agent de sécurité. Les chercheurs ont dû résoudre le problème de l’automatisation de la sélection des images à montrer dans un circuit de vidéosurveillance à grande extension, comptant plusieurs caméras. Dans cette deuxième image, nous voyons le diagramme du déplacement d’un objet ou d’un individu mobile traversant les champs de vision couverts par plusieurs caméras. À un moment donné de la trajectoire existe la possibilité d’une bifurcation où l’un des chemins possibles est prévu comme le plus probable par le système, ce qui fait que la caméra 3 ait priorité par rapport à la caméra 14. Dans le champ inférieur droit du diagramme, nous voyons l’interface telle qu’elle est visualisée par l’opérateur, où les images montrent où l’objet se trouve en temps réel et où il sera probablement dans un futur proche. Ce dispositif nourrit un état d’attention et d’attente de l’opérateur du système qui focalise aussi le chemin qui peut, alternativement, être parcouru par l’individu surveillé.

Image 7

Module d’interaction humain-ordinateur, exemple d’organisation de flux, activation et visualisation de données

Image 7

Module d’interaction humain-ordinateur, exemple d’organisation de flux, activation et visualisation de données

Source : Martinel et al., 2011, p. 192. Copyright © 2011, Springer-Verlag Berlin Heidelberg.

42En revenant sur la question de la gestualité, on observe que la recodification de la gestualité et des mouvements des corps est centrale pour l’automatisation de la prédiction. L’animation et la vitalité du geste mises en relief par Mlle Dyvrande ne sont plus orientées vers le dévoilement des particularités et des tics de l’individu, mais plutôt vers la reconnaissance automatisée, à une large échelle, de schémas de comportement qui ne renseignent plus, en utilisant la machine, le regard d’un homme sur un autre. L’abstraction du geste se présente comme condition de l’anticipation visée par les machines intelligentes.

43Les modèles prédictifs sont les héritiers des techniques d’abstraction du geste qui priorisaient l’analyse des conduites, des comportements et des trajectoires. On a vu comment ces techniques ont été initialement développées dans la psychiatrie et surtout dans l’industrie. Dans la cybernétique, l’analyse et la prédiction des conduites vont se dissocier de toute référence aux états internes de l’agent (humain ou non humain) qui réalise l’action. Dans les machines prédictives que nous venons de décrire, la reconnaissance comme action préventive de sécurité (qui d’ordinaire visait à surprendre et bannir des rues les « récidivistes ») ne se dirige plus vers un individu donné, préalablement connu. La détection (et le contrôle) de l’action est devenue plus importante que l’identification, en se dispensant de la connaissance préalable des motivations psychologiques ou des traits qui sous-tendent le comportement ou le geste.

44L’accent sur l’activité et la conduite ne peut pas être séparé de la rationalité machinique qui l’accompagne et de l’échelle qu’il essaie d’englober. Dans le langage technique des développeurs d’algorithmes prédictifs dans le champ de la sécurité, la vision par ordinateur est spécialement programmée pour la double fonction de reconnaissance des schémas et de détection des anomalies. Ce sont des fonctions que les machines peuvent opérer à grande échelle, de façon continue, rapide et relativement efficace. En plus, de telles fonctions s’alignent avec les idéaux prédictifs et leurs principes actuariels, basés sur des modèles mathématiques orientés vers l’anticipation d’occurrences et d’incidents qui ne sont pas associés à des individus préalablement identifiés. Dans la vision algorithmique et prédictive, l’accent sur la gestualité, la conduite et le mouvement des corps est donc lié à un relatif effacement de l’identité et de la subjectivité. Il ne s’agit plus de reconnaître ou de diagnostiquer la personnalité criminelle sous la gestualité et les grimaces capturées par l’image, mais d’anticiper, dans la surface de l’image et dans le mouvement des corps, un possible crime ou incident à venir, en détectant des comportements ou des situations anomales. L’individu visé par les systèmes de vidéosurveillance intelligents est le résultat des calculs dans lequel il ne rentre pas comme un élément a priori. Il émerge d’une zone pixellisée anomale ou atypique dans l’immanence de l’image.

45Ces machines prédictives poursuivent et rendent plus sophistiqués les principes des dispositifs créés par Wiener et Bigelow, en élargissant leur seuil d’automation. Dans le cadre militaire contemporain, les drones – véhicules aériens sans pilote – sont sans doute l’application limite des principes prédictifs automatisés déjà présents dans la vidéosurveillance algorithmique. Chamayou (2013) montre comment le paradigme de l’intelligence basée sur l’activité est au cœur de la récente doctrine « contre-insurrectionnelle » :

46

« Contrairement à ce que l’on pourrait penser, l’objectif principal de ces dispositifs de surveillance persistante est moins de prendre en filature des individus déjà connus que de voir émerger des éléments suspects se signalant par leurs comportements anomiques. Parce que ce modèle de renseignement est “fondé sur l’activité”, c’est-à-dire sur une analyse des conduites plutôt que sur la reconnaissance d’identités nominales, il prétend paradoxalement “identifier” des individus qui demeurent anonymes, c’est-à-dire les qualifier par la typicité de leur comportement comme relevant d’un profil déterminé : identification non plus singulière, mais générique ».
(Chamayou, 2013, p. 64)

47L’accent mis sur l’activité est, ici aussi, accompagné du principe de détection d’anomalies et d’anticipation préventive (ibid., pp. 64-5). Dans le langage militaire même, il s’agit de surveiller et de comprendre des « schémas de vie » et leurs détournements, de façon à anticiper des menaces potentielles. Les schémas de vie appris et reconnus par les drones sont dérivés du croisement d’images et d’une série de données et de métadonnées qui émergent des trajectoires, des communications et des actions d’une foule d’individus qui restent anonymes jusqu’à ce qu’ils deviennent la cible privilégiée du champ de vision des machines prédictives.

48Rappelons que cette modalité de regard prédictif et de détection des schémas et des anomalies n’est pas exclusive du champ policier ou militaire. Elle est présente de façon relativement similaire dans le suivi quotidien de nos actions en ligne et dans l’ensemble du commerce de données et de services qui leur est attaché, dans les modèles de gestion de la « ville intelligente » (smart city), dans les fluctuations des marchés financiers, dans la circulation de nouvelles, dans les campagnes politiques, etc. Le repérage, l’archivage et l’anticipation des gestes et des activités quotidiennes prennent des échelles vertigineuses et arrivent à des niveaux toujours plus élevés d’abstraction. Graphiques, courbes, ondes, histogrammes, vecteurs, nœuds et arêtes qui, peu lisibles aux yeux humains, deviennent l’image contemporaine des traces et des données émanant de gestes et de mouvements des populations connectées aux dispositifs d’information. Nous n’y voyons plus les contours de l’individu et de son identité, mais à leur place les projections de ses actions et ses comportements, qui sont aussi des cibles d’interventions potentielles. La cible – terme propre au domaine militaire ainsi qu’à celui de la publicité – est l’effet plutôt que le référent de cette vision prédictive.

49Cette expropriation et abstraction de la gestualité pointe vers une possibilité inédite de convergence du monde visible avec des bases de données d’autres natures, qui intègrent des régimes contemporains de surveillance. De tels régimes ne sont plus exclusivement restreints au domaine de l’optique, comme nous a appris Michel Foucault dans sa lecture du panoptique de Bentham.

50Karl Palmås (2011) évoque la notion de Panspectric Surveillance afin d’analyser le passage du mode de production industriel au scénario postindustriel, qui serait marqué par l’émergence des nouvelles formes d’organisation corporative dont les incarnations seraient Google, Amazon, Wal-Mart, etc. Palmås montre comment la logique en opération dans le panoptique de Bentham ne rend pas compte du fonctionnement de ces nouvelles entreprises, basées non plus sur l’individu constitué au sein des institutions disciplinaires, mais sur la notion de l’être « dividuel » (Deleuze, 1990). Au sein de cette transition, selon l’argumentation de Palmås, se trouve l’entrée des technologies de data mining dans le domaine marchand et dans celui du marketing.

51

« En bref, le “data mining” est devenu impératif pour plusieurs entreprises, et un best-seller récent du champ du business s’intitule “Competing on Analytics : the new science of winning” (Davenport et Harris, 2007). Les auteurs soutiennent qu’en utilisant le type d’algorithmes d’auto-apprentissage que Google a mis au point, les entreprises de divers secteurs peuvent faire des prédictions sur le comportement futur des utilisateurs. […] les données collectées étudient les sujets non pas en tant qu’individus, mais en tant que modèles et propensions de comportement extraits à partir de très grandes bases de données ».
(Palmås, 2011, p. 347)

52La complexification des systèmes prédictifs de surveillance panspectrique, structurés autour de plusieurs paramètres et des données hétérogènes est, peut-être, indicatrice de l’intentionnalité non subjective sous-jacente aux processus d’abstraction des gestes que nous venons de décrire. Soit pour intervenir avant qu’un accident ou une agression ait lieu dans une gare, soit pour prévoir la propension à l’achat des consommateurs au moment où ils font déjà la queue pour payer leurs courses, l’observation des gestes et des mouvements des corps intègre les calculs algorithmiques du futur proche. La vision machinique de la gestualité n’est pas un chapitre à part des systèmes de prédiction basée sur les données. Les gestes et les mouvements des corps sont abstraits sous la forme de données, et expropriés des corps qui les ont exécutés, pour se redéployer au sein des calculs multiparamétriques qui sont en train de modéliser le futur.

53L’état de l’art des machines prédictives contemporaines nous permet de comprendre la portée des investissements technopolitiques dans la gestualité. Ces investissements concernent non seulement le domaine de la sécurité publique, mais également les opérations militaires, les stratégies de marketing, le design et les interfaces des dispositifs de communication. Nous avons vu dans cet article que l’image technique, de différentes manières et à différents moments, s’annonce capable de saisir ou anticiper les gestes, de révéler leur dynamique, leurs rythmes, leurs trajectoires, leurs intentions ou leurs développements futurs. Dans chacun de ces cas, il était possible de voir les changements dans les rapports entre la vision, la machine, le corps et le temps.

54Dans la brève généalogie que nous avons proposée, le processus d’abstraction et d’expropriation du geste qui a commencé dans la modernité arrive à notre époque dans l’anticipation des actions futures basée sur la détection automatisée des comportements suspects. La contrepartie politique de ce processus est l’émergence d’un nouvel État policier où l’anticipation des gestes précède l’identité – et s’en passe.

55Le geste se rend de plus en plus abstrait au fur et à mesure que l’image technique s’écarte de la dimension humaine et d’une référence préalable à un individu identifié. On a vu que dans un premier temps la décomposition du geste par l’image technique est liée à des mécanismes de contrôle où l’identification occupe une place centrale. Aussi bien dans la photographie que dans le cinéma, la vision machinique des gestes décomposés, abstraits et expropriés des corps qui les ont effectués avait permis de mieux reconnaître les individus. Parmi les exemples mentionnés dans cet article, les seules exceptions modernes sont les cyclographies de Frank et Lillian Gilbreth visant à optimiser le travail industriel dans le cadre du taylorisme. Dans ce cas, l’abstraction du geste enregistrée par une cinématique de lignes lumineuses finissait par effacer les traits singuliers de l’individu.

56Cet effacement de l’identité augmente progressivement à mesure que la vision machinique prédictive devient plus forte. À partir des développements de la cybernétique, la figure humaine, toujours centrale pour l’échelle d’appréhension du geste, va devenir plus faible. Déjà les techniques de combat aérien pendant la Seconde Guerre mondiale rendaient impossible l’évaluation des intentionnalités des acteurs humains. La cybernétique propose donc une ontologie de l’ennemi (Galison, 1994) et une façon de prédire le comportement qui n’est plus liée à la lecture du corps humain et de sa subjectivité. Le traitement algorithmique de la gestualité est sans doute la dernière étape de ce processus d’abstraction et d’écart par rapport à l’échelle humaine. Dans la dernière partie de l’article, nous avons présenté différentes applications de la détection automatisée des gestes et des mouvements, en soulignant celles visant à prédire les comportements. Dans chacune d’elles, on constate que la vision algorithmique se tourne vers la reconnaissance de schémas gestuels et d’anomalies dés-identifiés, basée sur des paramètres de direction, de densité, de texture et de rythme des images techniques analysées par les dispositifs soi-disant « intelligents ». La prédiction automatisée de comportements prend désormais des formes qui ne peuvent plus renvoyer à un individu identifié qu’a posteriori. Cette relative absence de l’individu et de l’identité n’atténue nullement le contrôle sur les actions et la conduite de ceux qui deviennent les cibles privilégiées de ces machines de vision. Il reste à comprendre les possibilités de subversion de ce type de contrôle qui paradoxalement se nourrit de et intervient sur nos conduites en prétendant qu’il ne sait pas qui nous sommes.

Notes

  • [1]
    Nous concevons comme vision machinique une série d’appareils de vision automatisés (caméras et vidéos intelligentes, vision par ordinateur, etc.).
  • [2]
    Caméras qui fonctionnent par des algorithmes (parfois couplés à des capteurs de mouvement et de présence), visant la détection automatisée de schémas dans l’image.
  • [3]
    Selon une étude publiée par l’agence Juniper (Moar, 2016), nous aurons un demi-million d’appareils disponibles pour détecter ou suivre les gestes d’ici jusqu’à 2020.
  • [4]
  • [5]
    Comme cela a déjà été remarqué, le sujet de la production d’une « image vivante » à partir des éléments mécaniquement décomposés apparaît pour la première fois dans le roman d’Auguste Villiers de L’Isle-Adam, L’Ève future, de 1880. Dans un beau paysage, l’inventeur promet à son ami, fou amoureux, de s’approprier « mathématiquement » et « avec les recours de la science » de la grâce des gestes, du parfum de la chair, du timbre vocal, de la lumière des yeux, des mouvements et de la façon de marcher et de toute autre caractéristique qui fait d’une femme la femme idéale, pour finalement la reproduire avec exactitude, « avec l’aide sublime de la lumière » (Oubiña, 2009, p. 28).
  • [6]
    Le prédicteur AA faisait face à un problème de rétroaction différent des servomécanismes précédemment étudiés par Wiener, tels que les thermostats et les torpilles autoguidées. Le temps entre l’action et l’effet était plus grand et devait être calculé et contrôlé, puisque l’obus mettait quelques secondes à atteindre sa cible.
  • [7]
    Un autre contexte dans lequel nous trouvons les détecteurs de combats est celui de la classification indicative d’âge automatisée par les plateformes de vidéos en ligne. Le grand nombre de productions audiovisuelles mis en circulation aujourd’hui pose le problème de la force de travail employée dans la classification de ces images en fonction de leurs contenus. Les scènes de violence et de sexe, considérées inadaptées à certains publics, peuvent être actuellement classifiées à partir des mêmes algorithmes de reconnaissance des gestes et des mouvements opérant dans les systèmes de vidéosurveillance. Cf. E. Bermejo, O. Deniz, G. Bueno, R. Sukthankar, « Violence detection in video using computer vision techniques », 14th International Congress on Computer Analysis of Images and Patterns, 2011, pp. 332-339.
  • [8]
Français

L’article propose une généalogie des visions machiniques de la gestualité, commençant par la reproductibilité technique de l’image, et arrivant aux machines prédictives contemporaines. Le texte est structuré en trois parties. La première décrit comment la reproductibilité technique de l’image – photographique et cinématographique – est mise au service de la réplication du geste, de son abstraction et de son expropriation dans plusieurs domaines (sécurité et autodéfense, science, art et industrie). La deuxième partie montre que la matrice du modèle technique contemporain, visant la prédiction des comportements, était déjà partiellement définie par la cybernétique. Finalement, la dernière partie analyse les dispositifs de vision par ordinateur et les caméras intelligentes basées sur la détection automatisée de gestes et de mouvements envisageant la prédiction et le contrôle de la conduite. Ce parcours généalogique met en évidence deux vecteurs de transformation. Le premier est une progressive abstraction et expropriation des gestes par l’image technique. Le second est un effacement relatif de l’identité et de la subjectivité lorsque le biais prédictif de l’image technique est renforcé. Surtout dans le domaine de la sécurité et de la surveillance, la dimension prédictive se renforce en s’éloignant du paradigme de l’identification qui est dominant dans la modernité.

Mots-clés

  • reconnaissance gestuelle
  • machines de vision
  • image technique
  • prédiction algorithmique
  • vision computationnelle

Références

  • ADORNO T. (2005), Minima Moralia, London, Verso.
  • AGAMBEN G. (2000), Means without end, Minneapolis, University of Minnesota Press.
  • AGAMBEN G. (2009), What is an Apparatus ? and other essays, Stanford, Stanford University Press.
  • BENJAMIN W. (1985), Obras Escolhidas I, São Paulo, Brasiliense.
  • BENJAMIN W. (2003), Selected Writings (vol. 4), Cambridge, Belknap Press.
  • En ligneBERMEJO B., DENIZ O., BUENO G., SUKTHANKAR R. (2011), « Violence detection in video using computer vision techniques », 14th International Congress on Computer Analysis of Images and Patterns, pp. 332-339.
  • BERNARD H. (1914), « L’Éducation des agents par le cinéma », Le Film (Paris), n° 14, pp. 7-8.
  • BLUNSDEN S. J., FISHER R. B. (2009), « Pre-fight detection : Classification of Fighting Situations Using Hierachical AdBoost », disponible sur : http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.156.8148, consulté le 20 août 2018.
  • CHAMAYOU G. (2013), Théorie du drone, Paris, La Fabrique.
  • DELEUZE G. (1990), « Post-scriptum sur les sociétés de contrôle », L’Autre Journal, mai 1990, n° 1.
  • DIDI-HUBERMAN G. (2003), Invention of Hysteria, Cambridge MA, MIT Press.
  • DUFOUR J.-Y. (dir.) (2012), Outils d’analyse vidéo : pour une pleine exploitation des données de vidéo-protection, Cachan, Lavoisier.
  • ESEN E., ARABACI M. A., SOYSAL M. (2013), « Fight detection in surveillance videos », 11th International Workshop on Content-Based Multimedia Indexing (CBMI), IEEE, pp. 131-135.
  • En ligneGALISON P. (1994), « The ontology of the enemy : Norbert Wiener and the cybernetic vision », Critical Inquiry, vol. 21, n° 1, pp. 228-266.
  • GIEDION S. (1948), Mechanization takes command, New York, Oxford University Press.
  • HEAD H. (1923), « The Conception of Nervous and Mental Energy : A Physiological State of the Nervous System », British Journal of Psychology, n° 14, pp. 126-147, in C. GÓMEZ-IÑIGUEZ et al. (1999), « Análisis conceptual del término vigilancia desde principios del s.XX hasta la actualidad : Una perspectiva histórica », Revista de historia de la psicología, vol. 20, n° 3-4, pp. 415-428.
  • LÉRICH L. (1949), La Police scientifique, Paris, Presses universitaires de France.
  • MACKWORTH N. H. (1948), « The breakdown of vigilance during prolonged visual search », The Quarterly Journal of Experimental Psychology, n° 1, pp. 6-21, in C. GÓMEZ-IÑIGUEZ et al. (1999), « Análisis conceptual del término vigilancia desde principios del s.XX hasta la actualidad : Una perspectiva histórica », Revista de historia de la psicología, vol. 20, n° 3-4, pp. 415-428.
  • MARTINEL N., MICHELONI C., PICIARELLI C. (2011), « Pre-emptive Camera Activation for Video-Surveillance HCI », in G. MAINO, G. L. FORESTI (eds.), Image Analysis and Processing – ICIAP 2011. ICIAP 2011. Lecture Notes in Computer Science, vol. 6979, Berlin-Heidelberg, Springer.
  • MOAR J. (2016), « Gesture, Motion & Haptics : Future Use Cases, Shipments & Revenue Forecasts 2016-2021 », Juniper.
  • OUBIÑA D. (2009), Una Juguetería filosófica, Buenos Aires, Manantial.
  • PALMÅS K. (2011), « Predicting What You’ll Do Tomorrow : Panspectric Surveillance and the contemporary Corporation », Surveillance & Society, vol. 8, n° 3, pp. 338-354.
  • PANOFSKY E. (1972), Studies in iconology, New York, Harper and Row.
  • PINNEY C. (2011), Photography and Anthropology, London, Reaktion Books.
  • PREDICTIONS WHILE YOU WAIT. British Pathé, 1939, disponble sur https://www.britishpathe.com/video/predictions-while-you-wait, consulté le 10 février 2018.
  • Premier Congrès de Police judiciaire internationale Monaco avril 1914 (1926), Actes de Congrès publiés sous la direction de F. Larnaude, par J.-A. Roux, Paris, Marchall et Billard.
  • En lignePRICE M. (1994), The Photograph : a strange confined space, Stanford, Stanford University Press.
  • RENAUD J.-J. (1906), « Trucs d’apaches et leurs parades », La Vie au Grand Air (Paris), Ano 9, n° 429, 8 décembre 1906, pp. 948-949, disponible sur http://gallica.bnf.fr/ark:/12148/bpt6k9607877r/f82.item., consulté le 20 août 2018.
  • SHAO J., CHANGE LOY C., WANG X. (2014), « Scene-independent group profiling in crowd », Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, p. 2219-2226.
  • WIENER N. (1989), The Human use of human beings : cybermetics and society, Avon, Bookcraft.
Fernanda Bruno
Université Fédérale de Rio de Janeiro/UFRJ, médialab
Maurício Lissovsky
École de Communication de l’Université Fédérale de Rio de Janeiro/UFRJ
Icaro Ferraz Vidal Junior
Université Tuiuti du Paraná, MediaLab à l’UFRJ
Cette publication est la plus récente de l'auteur sur Cairn.info.
Cette publication est la plus récente de l'auteur sur Cairn.info.
Cette publication est la plus récente de l'auteur sur Cairn.info.
Mis en ligne sur Cairn.info le 16/11/2018
https://doi.org/10.3917/res.211.0105
Pour citer cet article
Distribution électronique Cairn.info pour La Découverte © La Découverte. Tous droits réservés pour tous pays. Il est interdit, sauf accord préalable et écrit de l’éditeur, de reproduire (notamment par photocopie) partiellement ou totalement le présent article, de le stocker dans une banque de données ou de le communiquer au public sous quelque forme et de quelque manière que ce soit.
keyboard_arrow_up
Chargement
Chargement en cours.
Veuillez patienter...