Continuité & résilience
3 mai 2024

Tester mes stratégies de continuité des affaires — ça veut dire quoi?


Comment savoir que l’équipe maîtrise bien le plan de continuité des affaires ou celui de gestion des incidents?

Où que l’équipe sait comment réagir en cas d’incident.

Facile ! On fait un test.

Practice — Photo by Niklas Tidbury on Unsplash

Plusieurs types de test

Il existe plusieurs types de test, chacun à des objectifs ou des méthodes spécifiques, voici les principaux :

Test de table ronde (Table Top)

Il s’agit d’un exercice de discussion structurée (Atelier), souvent sous forme de réunion, où les participants parcourent un scénario de crise spécifique pour évaluer les plans et les procédures de réponse. Ce type de test permet d’identifier les lacunes dans les plans et d’améliorer la compréhension des rôles de chaque intervenant et de leurs responsabilités en cas de crise.

Test parallèle

Dans un test parallèle, les opérations réelles continuent normalement, tandis que les équipes de continuité exécutent simultanément toutes ou certaines fonctions d’entreprise depuis un site de récupération ou en utilisant des systèmes de sauvegarde. Cela permet de valider la capacité à fonctionner hors du site principal sans interrompre les opérations quotidiennes.

Test de simulation

Un test de simulation est plus complexe et implique la création d’un environnement opérationnel réaliste où les équipes peuvent tester leurs réactions à des scénarios simulés. Ce type de test peut inclure des interruptions simulées de services, des pannes de systèmes, ou des situations d’urgence qui nécessitent une réponse rapide. Il est conçu pour tester non seulement les plans écrits, mais aussi les capacités pratiques du personnel. Par exemple, vérifier que les communications interdépartementales fonctionnent et qu’un incident sera géré malgré des silos qui peuvent avoir été créés dans l’organisation.

Test de récupération complet

Ce test implique un basculement complet des opérations vers un site de récupération, cela nécessite l’arrêt des fonctions dans le site principal. C’est le test le plus rigoureux et le plus coûteux, car il simule une interruption majeure où le site principal n’est plus opérationnel. Ce test vérifie la capacité de l’entreprise à récupérer et à maintenir ses fonctions critiques dans un nouveau site pendant une période prolongée.

Test d’un composant

Il s’agit de tester des composants individuels d’un plan de continuité, tels que les systèmes de télécommunications, les logiciels spécifiques ou les processus critiques. Ce type de test est utile pour s’assurer que les aspects les plus critiques de l’infrastructure et des applications peuvent être récupérés de manière isolée.

Test de procédure pas à pas

Un “walkthrough”, ou marche à travers, est un exercice où l’équipe de continuité passe en revue chaque étape du plan de manière séquentielle, souvent physiquement sur le site. Cela aide à s’assurer que tout le personnel comprend son rôle et que les ressources nécessaires sont en place et fonctionnelles.

Test de charge

J’inclus ce type de test ici puisque le test de charge peut être utilisé dans le cadre des tests de continuité pour s’assurer que les systèmes informatiques peuvent gérer le volume de transactions ou les charges de travail prévues en cas de basculement sur des systèmes de secours.

Ces tests varient en complexité et en coût, et chaque organisation doit choisir le type de test adapté à ses besoins précis ou spécifique, en tenant compte de son environnement opérationnel, de sa tolérance au risque et de ses objectifs stratégiques. Par exemple on ne fait pas un test de simulation pour tester si on peux remonter un coupe-feu ou un serveur, vaux mieux le faire en parallèle.


Étapes de préparation

1- Définir l’objectif à haut niveau pour confirmer ce que nous souhaitons accomplir.

Voici quelques exemples d’objectif classique, de pourquoi on test notre capacité de réponses:

Validation des plans de réponse: Ces exercices permettent de vérifier la pertinence et l’efficacité des plans de réponse aux crises. Les participants examinent et débattent des étapes spécifiées dans les plans pour s’assurer qu’elles sont réalisables et efficaces.

Validation de la communication interne et externe: Ils testent les mécanismes de communication de l’organisation. Cela inclut la clarté des rôles et des responsabilités, ainsi que la capacité à communiquer efficacement avec les parties externes comme les médias, le public et les agences gouvernementales.

Validation des capacités de prise de décision: En plaçant les décideurs dans un environnement simulé de haute pression, ces exercices permettent de tester la rapidité et l’efficacité de la prise de décision face à des informations limitées ou changeantes.


2- Choisir un scénario réaliste et pertinent pour l’organisation.

Voici quelques exemples de scénario que j’utilise dans le cadre de mon travail:

Scénario 1 : Panne du fournisseur de services infonuagique, il subit une panne majeure impactant plusieurs de ses services, y compris ceux utilisés par votre organisation. Les applications et les données ne sont pas accessibles depuis maintenant 3 heures.

Scénario 2 : Une faille de sécurité chez le fournisseur de services infonuagique permet à des tiers non autorisés d’accéder aux données de votre entreprise, y compris des informations sensibles sur vos clients.

Scénario 3 : Des problèmes de performance réseau entraînent des latences élevées et des temps de réponse prolongés pour les utilisateurs.

Scénario 4 : Vos identifiants pour la gestion des services infonuagique sont compromis ou perdus, vous empêchant l’accès à des configurations critiques et à la gestion de votre compte.

Scénario 5 : Une nouvelle réglementation est introduite, exigeant des modifications immédiates dans la manière dont les données sont stockées et traitées dans vos serveurs.

Scénario 6: Une attaque par Déni de service frappe votre infrastructure et site web rendant ceux-ci non fonctionnels.


3- Impliquer des participants

Impliquer les participants et informés les de leurs rôles et des attentes à leur égard pendant l’exercice. Ils devraient également avoir une compréhension de base du scénario avant de commencer l’exercice.

Les participants devraient être tous ceux ayant un rôle dans la gestion d’incident.

Voici une liste des rôles clés à inclure dans cet exercice :

Responsable de la sécurité de l’information pour diriger l’exercice et assure que toutes les politiques et procédures de sécurité sont à jour et respectées.

Gestionnaires de l’infrastructure IT qui gèrent l’infrastructure sur laquelle reposent les services de l’organisation et peuvent apporter une expertise technique sur la gestion des ressources durant l’attaque.

Équipe de réponse aux incidents est en première ligne pour identifier, évaluer et répondre à l’incident. Ils joueront un rôle actif dans l’exercice, mettant en œuvre les réponses planifiées.

Les développeurs logiciels aident à comprendre comment les applications peuvent être affectées et quelles mesures préventives peuvent être codées.

Support client et gestion des communications pour encadrer les communications avec les clients, ils doivent savoir quoi dire et quand, pour maintenir la confiance des clients et minimiser l’impact sur la satisfaction client.

Direction exécutive peuvent ne pas être impliqués dans les détails techniques, mais doivent comprendre l’impact de l’incident sur l’entreprise et prendre des décisions stratégiques.

Des partenaires externes si vous dépendez de fournisseurs externes pour la gestion du trafic, la sécurité réseau, ou d’autres services critiques.

Représentants des départements juridiques et conformité — Pour s’assurer que toutes les réponses restent dans le cadre légal et respectent les règlements de l’industrie.

Gestion de la continuité des affaires pour maintenir les opérations durant les crises sont essentiels pour tester et affiner les plans de continuité des affaires.


4- Réaliser l’exercice

L’exercice doit être mené de manière structurée, avec un animateur expérimenté (idéalement) qui guide la discussion et s’assure que tous les aspects du scénario sont abordés.

Le responsable devrait lancer le scénario et guider les participants à travers différents événements et complications pour observer et noter comment l’équipe réagit, quelles décisions sont prises, et comment les communications sont gérées.

Pour le scénario d’une attaque par dénis de service, vous pourriez commencer par dire :

Jeudi 15h30 — Paul au service à la clientèle trouve le réseau particulièrement lent pour faire la gestion du site web.

Jeudi 16h45 — Véronique est incapable de se brancher au site web, et ouvre un billet de demande d’assistance.

Que va-t-il se produire après?


5- Effectuer un récapitulatif et documenter l’exercice

À la fin de l’exercice, il est important de permettre à chaque participant de partager ses perspectives et ses réactions. Discuter des obstacles rencontrés et des succès.

Puis analyser les performances par rapport aux objectifs de l’exercice. Identifier les lacunes dans les plans et les procédures.

Rédiger un rapport détaillé qui résume les résultats de l’exercice, y compris les enseignements tirés, les recommandations pour les améliorations, et un plan d’action pour les prochaines étapes.

Par exemple dans le cas d’une attaque par déni de service (DDoS), voici des questions qui peuvent aider à guider la discussion et à évaluer la préparation de votre équipe :

Phase de détection

  • Comment avez-vous détecté l’attaque DDoS ?
  • Quels indicateurs de performance clé (KPIs) ont signalé une anomalie ?
  • Quels outils ou systèmes de surveillance ont alerté l’équipe pour la première fois ?
  • Comment distinguez-vous entre un pic légitime de trafic et une attaque DDoS ?
  • Quels protocoles de communication interne sont en place pour une alerte rapide ?

Phase d’analyse

  • Quel type de DDoS est-ce (par exemple, volumétrique, protocole, ou attaque applicative) ?
  • Quelles sont les ressources les plus affectées par cette attaque ?
  • Avez-vous les compétences techniques en interne pour analyser l’attaque, ou faut-il faire appel à des experts externes ?
  • Quelles informations supplémentaires avez-vous besoin de collecter pour évaluer pleinement l’impact ?

Phase de réponse

  • Quels sont les premiers pas immédiats à prendre une fois l’attaque confirmée ?
  • Comment gérez-vous la redirection du trafic ou la mise en place de filtres ?
  • Disposez-vous d’un plan de réponse d’urgence spécifique pour les attaques DDoS ?
  • Comment impliquez-vous votre fournisseur de services Internet (ISP) ou d’autres partenaires tiers ?
  • Quelles sont les mesures de mitigation que vous pouvez appliquer à court terme ?

Phase de récupération

  • Quels processus avez-vous pour revenir à un état opérationnel normal ?
  • Comment vérifiez-vous que le système est sécurisé et pleinement opérationnel après une attaque ?
  • Quelles vérifications ou audits doivent être effectués post-incident ?

Communication

  • Qui est responsable de communiquer avec les clients et comment cette communication est-elle gérée ?
  • Quel message est envoyé aux clients et partenaires ?
  • Comment assurez-vous la transparence tout en maintenant la confiance des clients ?

Révision post-incident

  • Comment documentez-vous l’incident et les mesures prises pour y répondre ?
  • Quel est le processus pour analyser ce qui a bien ou mal fonctionné ?
  • Quelles leçons avez-vous apprises et comment ces leçons modifieront-elles les futurs plans de réponse ?
  • Avez-vous prévu des formations ou des révisions de politique suite à cet incident ?

Planification future

  • Comment ce scénario influence-t-il vos stratégies de sécurité à long terme ?
  • Avez-vous envisagé d’investir dans des technologies ou services supplémentaires pour mieux vous protéger contre les attaques futures ?
  • Quels changements structurels ou technologiques sont nécessaires pour améliorer la résilience de votre infrastructure ?

Quand

Une autre question importante à considérer est la fréquence souhaitée des exercices ou tests.

Devraient-ils être menés annuellement ou plus fréquemment afin de maintenir la vigilance parmi vos employés ?

Malheureusement la réponse dépend beaucoup de la nature de l’organisation et de ses risques, s’il y a un haut taux de roulement ou simplement si les procédures ne sont pas bien comprises par tous les intervenants. Chaque exercice permet leurs améliorations, donc réaliser plusieurs exercices durant l’année ou sur 2 ans permet d’atteindre un niveau de confiance suffisant.


Quelques pièges à éviter

Un scénario trop éloigné de ce que pourrait réellement vivre l’organisation risque de ne pas être pris au sérieux par les participants, ce qui réduit l’efficacité de l’exercice.

Également un scénario trop complexe peut submerger les participants, les empêchant de se concentrer sur les objectifs principaux de l’exercice.

L’un des objectifs clés de ces exercices est d’apprendre et de s’améliorer. L’absence de retour structuré et constructif après l’exercice est une occasion manquée.

Si les participants ne prennent pas l’exercice au sérieux ou ne sont pas pleinement engagés, les résultats ne seront pas représentatifs de la réalité.

N’ayez pas peur d’échouer; les tests sont des opportunités d’apprentissage et d’amélioration.


Et la norme ISO27001:2022 ?

Plusieurs contrôles ISO27001:2022 s’adressent spécifiquement à la continuité des affaires et aux tests de gestion des incidents:

  • 5.24 — Préparation des incidents à la sécurité de l’information
  • 5.29 — Sécurité de l’information lors d’un incident
  • 5.30 — Préparation des TIC à la continuité des activités.
  • 8.13 — Sauvegarde de l’information
  • 8.13 — Redondance des systèmes d’information

Quelques normes qui encadrent la continuité de l’information

ISO 22301:2019 — Gestion de la continuité d’activité

Cette norme internationale spécifie les exigences pour planifier, établir, mettre en œuvre, exploiter, surveiller, réviser, maintenir et améliorer continuellement un système de management documenté pour protéger contre, réduire la probabilité de survenue, préparer, répondre et récupérer des incidents perturbateurs lorsqu’ils surviennent.

ISO/IEC 27031:2011 — Technologies de l’information — Techniques de sécurité — Lignes directrices pour la continuité des services TIC

Cette norme fournit un cadre pour les technologies de l’information et de communication (TIC) en soutien à la continuité des affaires.

DRI International (Disaster Recovery Institute)

DRI International offre des certifications et des formations basées sur des pratiques éprouvées pour les professionnels de la continuité des affaires et du rétablissement après sinistre.


Je vous invite à cliquer sur “Follow” pour continuer d’en apprendre plus sur le domaine de la sécurité de l’information.

Patrick Boucher
Président fondateur
25+ ans d’expérience en sécurité, piratage éthique, continuité des affaires
Écrivez-nous

Formulaire Sticky Services

Envie de travailler avec nous ?

Parlez-nous de vos enjeux. On verra rapidement si on est la bonne équipe pour vous.