CAIRN.INFO : Matières à réflexion

Ce document vise à introduire auprès du lecteur quelques notions principales sur l’intelligence artificielle, et de proposer des éléments de réflexion sur des perspectives d’emploi de l’intelligence artificielle au profit de la cyberdéfense. Ces éléments de prospection à moyen terme évoquent les changements attendus et proposent un aperçu du potentiel encore peu exploité dans ce domaine.

1 Intelligence artificielle (IA), machine learning, deep learning… sont autant de termes que le lecteur nous excusera de parfois mentionner en langue anglaise, mais qui recèlent un potentiel certain dont on peine encore à en mesurer l’impact et à imaginer toutes les possibilités d’emploi. Le développement continu des systèmes informatiques, pour lequel la loi de Moore reste encore valable (prédiction du doublement de la puissance des processeurs tous les dix-huit mois), permet de repousser sans cesse les limites du numérique et de créer de nouveaux usages.

2 La menace et son armement numérique, tout comme le cyberespace à défendre, évoluent tellement vite qu’il n’est plus concevable aujourd’hui de ne pas exploiter toutes les possibilités pour conserver notamment la maîtrise de l’information et une liberté de manœuvre dans l’espace numérique. Les ressources humaines cyber, seules, ne pourront répondre à ces défis en raison de leur déficit quantitatif structurel. L’intelligence artificielle, en particulier l’apprentissage automatique, est un domaine dont la cyberdéfense doit profiter et cela, dès aujourd’hui, grâce à l’innovation ainsi qu’à la concentration et la cohérence des efforts pour disposer des capacités au moment opportun dans le tempo numérique.

IA, origine et potentiel

3 Tous les secteurs d’activité cherchent à valoriser au mieux l’information, la quatrième révolution industrielle est amorcée et elle est symbolisée principalement par l’arrivée de l’hyper-connectivité avec, en particulier, Internet et le tout numérique.

4 Les trois précédentes révolutions peuvent être synthétisées brièvement de la manière suivante :

  • La première, estimée du XVIIIe au XIXe siècle et théorisée par Adam Smith, vit apparaître la mécanisation grâce à l’extraction massive du charbon, la chimie, la métallurgie et l’invention de la machine à vapeur.
  • La deuxième, vers la fin du XIXe et début du XXe siècle, a pour source l’invention et la généralisation du moteur à combustion interne, la mise à disposition d’électricité, l’industrialisation et l’organisation du travail.
  • Enfin, la troisième, dans la seconde partie du XXe siècle, est caractérisée par l’essor de l’énergie nucléaire, des transports, de l’électronique et surtout de l’informatique. Cette automatisation de l’industrie ouvre la voie à la production de masse dans un contexte mondial.

5 De nombreux débats ont fleuri autour des véritables impacts de l’ère du numérique, ainsi que sa légitimité à incarner une rupture, jusqu’à la mettre au même niveau que l’invention de l’écriture par les Sumériens ou de l’imprimerie par Gutenberg.

6 La maturité atteinte dans le numérique et l’hyperconnectivité, permet technologiquement de disposer aujourd’hui de capacités de stockage, de traitement et de transport finalement sans véritables limites. C’est dans ce contexte que l’intelligence artificielle s’est démocratisée tout naturellement dans l’industrie du numérique, qui manipule des quantités considérables d’informations, et s’étend progressivement aussi dans tous les secteurs d’activité. L’intelligence artificielle n’est donc plus conditionnée à un problème technologique mais elle nécessite au moins trois conditions pour se concrétiser dans une activité : des données métier en quantité et en qualité suffisante, une expertise du métier et un savoir-faire algorithmique pour le mettre en œuvre.

7 Quel peut être le potentiel de l’intelligence artificielle dans la cybersécurité et en particulier dans la cyberdéfense ? À terme, cela concernera potentiellement la totalité des activités.

8 Aux origines de l’informatique, la sécurité n’était pas considérée comme essentielle pour des systèmes relativement fermés et qui ne constituaient pas une composante vitale. Les attaques étaient rares et les réactions réalisées sur mesure par des spécialistes. À la suite d’une progression exponentielle du numérique et surtout de la prise de conscience du niveau de risque révélé par des cyberattaques de plus en plus destructrices et déstabilisatrices, la prise en compte par les dirigeants a été assez soudaine de la fragilité du cyberespace, d’une hyperconnectivité et d’une numérisation réalisées souvent hâtivement avec une sécurité très perfectible. L’Internet des objets, qui se constitue maintenant, est clairement un des enjeux de sécurité de demain.

9 Face à cet univers numérique en pleine expansion, le vivier de ressources humaines disponible ne permet pas de couvrir tous les besoins de cybersécurité. Le fossé continue même de se creuser entre l’expansion numérique d’un côté, et de l’autre un vivier de ressources humaines qui ne croît pas à la même cadence et atteindra mécaniquement tôt ou tard un décrochage sans une transformation radicale. Le numérique, et plus spécifiquement la cybersécurité, est un domaine d’une complexité exponentiellement croissante, pour lequel la formation des spécialistes est longue et dont le savoir-faire acquis est même périssable sans pratique.

10 Suite à cet état de fait et des origines, il est nécessaire de devoir s’adapter et mener des transformations.

11 La première transformation est intuitivement de mettre en place des procédés automatisés simples (détection, blocage, nettoyage de certaines parties d’un système précédemment infectées). L’antivirus, les sondes de détection d’intrusion sont des parfaits exemples de cette application. Ces moyens utilisent des règles, chargées de réagir à un événement donné/redouté, conçues par l’homme. C’est un emploi typique de l’informatique qui renvoie au début de l’industrie. C’est une forme de mécanisation de la cybersécurité, couplée souvent avec une stratégie de château fort, une défense en profondeur et une posture défensive relativement statique et prédéterminée.

12 La deuxième transformation est celle de l’anticipation et de l’agilité pour absorber la croissance des besoins du numérique et des menaces devenues aussi agiles et ciblées. En s’appuyant sur l’étape de maturité précédente, elle vise à poursuivre au maximum l’automatisation de la protection des systèmes pour atteindre un niveau de risque défendable (et pas uniquement acceptable), de la détection et de la capacité de réaction pour faire face aux menaces, le tout dans une approche globale du système à défendre. Par exemple sur le métier de la détection, l’homme assisté par l’ordinateur étudie des attaques ou des comportements numériques pour en retirer des signatures, des marquants ou encore des algorithmes d’événements redoutés. Il s’agit ensuite de mettre à disposition ces informations le plus instantanément possible au profit d’une organisation et de tous ses moyens techniques. Véritable clé de voûte d’une défense agile et adaptée, l’activité duale du « threat intelligence »/« renseignement d’intérêt cyber » connaît un essor depuis quelques années. Mais cette automatisation de tous les procédés cherche finalement à faire face à des scénarios déjà rencontrés soit dans des incidents, soit des scénarios évités suite à un contrôle/audit ou éventuellement anticipés suite à une démarche d’analyse de risque. Cette transformation reste une étape industrielle de production de masse en s’appuyant sur l’organisation du travail, l’automatisation autour de la connaissance de la menace et des vulnérabilités.

13 La troisième transformation visera à s’appuyer sur l’intelligence artificielle pour d’abord systématiser et démultiplier la démarche précédente. La machine défendant la machine. L’acquisition de données massives et la prise en compte du contexte permettront de proposer des décisions ou de réagir face à une cyber-attaque avec un tempo adapté. La deuxième étape peut être épuisante pour les ressources spécialisées et source d’erreur humaine.

14 La troisième transformation, celle qui nous intéresse, a besoin, pour avoir lieu et exploiter au mieux son potentiel, de s’appuyer sur les derniers algorithmes d’apprentissage automatique. Ainsi, il faut rendre les systèmes de cyberdéfense plus efficaces, plus réactifs et donc autonomes. Transformer ces derniers en entités « intelligentes » est le moyen le plus naturel d’y arriver. Si l’on s’en tient à sa définition étendue, il ne s’agit pas forcément de rendre les machines véritablement intelligentes, mais d’en simuler les actions, ou de les faire agir comme si elles l’étaient. Alan Turing a d’ailleurs proposé un test, qui vise justement à évaluer une machine supposée intelligente. Sur la base d’une conversation avec un humain, ce dernier doit déceler s’il a en face de lui une machine ou non. Les dernières avancées dans le domaine permettent aujourd’hui de produire des images, des vidéos et des photos dont il sera de plus en plus difficile d’en déceler la provenance, humaine ou artificielle. La lutte contre la propagande, et toutes les opérations d’influence dans l’espace numérique vont subir une profonde transformation dans les années à venir avec une place centrale de l’IA.

15 Pendant longtemps, l’IA a été basée sur des règles préétablies à l’aide de système expert. Ces programmes sont capables de reproduire des mécanismes cognitifs d’un expert. C’est un raisonnement apparenté à de l’intelligence, composé d’un ensemble de faits, de règles et d’un moteur dit d’inférence. L’ensemble de règles est défini sous la forme très basique d’une condition « Si… alors… », et les règles de bases doivent être écrites par un expert humain. Nous sommes logiquement confrontés à un problème majeur : les experts d’un domaine ont, outre le manque de temps, beaucoup de difficultés à formaliser ces règles. La complexité de rassembler un corpus de règles, à l’image d’un système expert, pousse très naturellement à l’utilisation de nouvelles méthodes qui valorisent la donnée sans que celle-ci n’ait eu besoin d’être transformée en connaissance par un expert. La donnée est généralement la mesure brute d’un phénomène quelconque, l’information est une donnée à laquelle un sens et une interprétation ont été attribués, alors que la connaissance est le résultat d’une réflexion sur les informations analysées. Trouver un moyen de « nourrir » le système, non pas avec des règles déjà formalisées par un humain mais avec des exemples concrets à partir desquels le système en déduirait ses propres règles : c’est le principe même du « machine learning », l’apprentissage automatique.

16 L’apprentissage cherche à reproduire le schéma qui permet aux êtres vivants de se souvenir d’expériences passées et de les adapter à un nouveau contexte, et donc de généraliser à partir de cas particuliers. Ce principe se base sur l’utilisation de l’inférence, et donc (re)découvre des règles, des relations et des dépendances à partir des données elles-mêmes, d’où son intérêt. L’autre avantage est d’extraire directement les règles depuis les données et de découvrir des relations que l’humain ne peut concevoir. L’humain reste statistiquement faillible, en quantité et en qualité limitées et épuisables.

17 Il existe de nombreux algorithmes permettant de réaliser un apprentissage automatique sur des données [1]. Plus récemment, et grâce aux travaux initiaux de Yann LeCun [2] et améliorés ultérieurement, l’utilisation de réseaux de neurones dits profonds ou « deep learning » a permis, au prix de calculs plus lourds et d’un besoin toujours croissant de données, de repousser les limites de l’apprentissage automatique et de se rapprocher toujours plus de la singularité technologique. La singularité technologique est la supposition que l’invention d’une intelligence artificielle au moins égale à l’intelligence humaine déclencherait un emballement de la croissance technologique qui induirait des changements imprévisibles sur la société humaine. Ainsi, il est critique de disposer de données pour être en mesure de mener cette transformation. La logique poussera mécaniquement la cyberdéfense à disposer de toujours plus de capteurs mais aussi à fonctionner en réseau et de ce fait partager avec des partenaires et des industriels.

Les applications de l’apprentissage automatique à la cybersécurité

18 Lors d’une cyberattaque, la typologie des protagonistes reste toujours la même, une victime et un attaquant qui dispose d’une stratégie et de moyens. Les étapes minimales d’une manœuvre pour faire face sont : l’anticipation et éventuellement l’évitement du risque ; en cas d’échec, la détection ; la réaction et la gestion des impacts ; la remédiation ; le renforcement.

19 La victime doit réagir au plus vite, comprendre au plus tôt la méthode employée (caractérisation) et les objectifs visés afin de pouvoir gérer au mieux les impacts et remédier à la situation. Considérons l’exemple d’un attaquant qui souhaite s’introduire dans un système. Actuellement, il existe trois façons classiques de le détecter : la recherche d’une trace ou d’une activité signant, c’est la méthode « traditionnelle » ; l’étude du comportement dans un environnement (simulé ou même réel) pour en déduire des tactiques, procédures et outils permettant d’effondrer sa manœuvre ; l’utilisation massive de données pour apprendre automatiquement le comportement nominal d’un système ou des caractéristiques malveillantes. Cette dernière façon implique évidemment l’usage de l’apprentissage automatique. Pour simplifier, on cherche à modéliser l’activité d’un système pour en déduire un écart anormal ou à comprendre a posteriori les caractéristiques d’une attaque pour espérer prédire de nouveaux événements.

20 Le développement de l’apprentissage automatique est certainement un pilier de la solution du manque de ressources humaines spécialisées. Une grande partie des procédés de la cyberdéfense pourra être à terme assistée, en particulier les domaines suivants face à une cyberattaque (informatique, cognitive, etc.) : l’anticipation et la caractérisation massive dès son apparition ; la détection et l’aide à la décision sur un événement suspicieux ; l’éradication voir éventuellement la neutralisation partielle ; la reconstruction du système ; le renforcement des systèmes.

21 Aussi étonnant que cela puisse paraître, l’apprentissage automatique est relativement peu répandu à cette date, si l’on compare à d’autres domaines. L’arrivée de cet apprentissage automatique est incontestablement un événement qui pousse à remettre en cause une partie de la façon de travailler et à dépasser le stade de l’artisanat et de la « mécanisation » dans un domaine dont la conflictualité reste complexe et très active. On remarque souvent deux étapes dans l’adoption progressive des techniques d’apprentissage automatique : un premier temps, à travers un conseil/aide à la décision auprès du spécialiste ; un second temps, une gestion déléguée à la machine. Pour cette seconde phase, en l’état actuel des techniques, il faut encore compter quelques années pour s’en approcher. Mais les auteurs estiment que l’effort doit être fait sur une automatisation de différents procédés avec, dans un premier temps, une intervention du spécialiste cyber qui en validerait ou non les décisions.

22 L’élément indispensable en apprentissage est donc l’expert et la donnée. Il est nécessaire de disposer de l’historique pour permettre aux algorithmes de comprendre (implicitement et par inférence) les relations de causalité. La donnée doit être variée et suffisamment ordonnée pour être directement réutilisée par un système d’apprentissage. Ainsi, quel que soit le degré d’avancement dans l’intégration de ces « nouveaux » concepts, deux prérequis doivent être soulignés : l’enregistrement et la structuration d’un maximum de données ; la montée en compétences dans le domaine de l’IA (en particulier en machine learning). Cette intégration fine de l’IA dans la cyberdéfense ne peut être envisagée, du moins à moyen terme (trois à dix ans). Elle ne saurait en aucun cas remplacer à terme les besoins de ressources humaines et la capacité d’adaptation pour faire face à des menaces encore non imaginées.

Conclusion

23 L’IA, dont la composante clé est aujourd’hui l’apprentissage automatique, offre des opportunités que tous les domaines se devront, tôt ou tard, de saisir. À cette fin, la cybersécurité a déjà commencé à y appliquer certains de ces principes à la détection d’éléments potentiellement hostiles, pour pouvoir en amont s’en prémunir et ce, en se basant sur un historique d’événements. Pourtant, de nombreuses études pourraient se voir augmentées, dès aujourd’hui, d’un système d’aide à la décision qui viendrait pousser, c’est-à-dire recommander de l’information à l’utilisateur, lui évitant un travail long et fastidieux. De plus, les auteurs sont convaincus qu’un effort de formation à l’échelle nationale en IA est une nécessité, avec au moins une culture élémentaire du domaine, ne serait-ce que pour pouvoir être forces de proposition et de remise en cause constante.

Notes

  • [1]
    Les exemples les plus classiques sont les arbres de décision, les forêts aléatoires, les SVM (Support Vector Machines), etc.
  • [2]
    Y. LeCun : « A theoretical framework for back-propagation », in D. Touretzky, G. Hinton et T Sejnowski (Eds), Proceedings of the 1988 Connectionist Models Summer School, 1988, p. 21-28, CMU, Pittsburgh, Pa. Morgan Kaufmann.
Français

L’intelligence artificielle fait évoluer profondément la cyberdéfense tant dans sa structuration que dans ses processus d’analyse et de résolutions des problèmes. De nouvelles et nombreuses opportunités s’ouvrent déjà à l’IA, même s’il reste encore beaucoup à faire pour tirer pleinement profit de l’exploitation des données.

François Meunier
Doctorant en intelligence artificielle à l’université Pierre-et-Marie-Curie et Total SA
Sébastien Bombal
Conseiller. Commandement de la cyberdéfense
Dernière publication diffusée sur Cairn.info ou sur un portail partenaire
Dernière publication diffusée sur Cairn.info ou sur un portail partenaire
Mis en ligne sur Cairn.info le 17/02/2020
https://doi.org/10.3917/rdna.809.0072
Pour citer cet article
Distribution électronique Cairn.info pour Comité d’études de Défense Nationale © Comité d’études de Défense Nationale. Tous droits réservés pour tous pays. Il est interdit, sauf accord préalable et écrit de l’éditeur, de reproduire (notamment par photocopie) partiellement ou totalement le présent article, de le stocker dans une banque de données ou de le communiquer au public sous quelque forme et de quelque manière que ce soit.
keyboard_arrow_up
Chargement
Chargement en cours.
Veuillez patienter...