Les systèmes agentiques sont des chaînes complexes d’agents interconnectés. Le risque ASI08 - Cascading Failures décrit un effet domino où une erreur mineure (comme une hallucination) dans un agent en amont se propage, s’amplifie et provoque un échec catastrophique du système.
Le problème clé
La fragilité des chaînes d’agents vient du caractère non déterministe des LLM. Si un agent prend une décision basée sur une hallucination et que les suivants la considèrent comme une vérité absolue, l’erreur initiale s’aggrave, pouvant mener à des actions destructrices ou à la paralysie du système.
Analyse STRIDE
L’analyse STRIDE ici se concentre sur les conséquences de la défaillance en cascade, qui affectent principalement la disponibilité et l’intégrité du système, en lien avec les scénarios ci-dessous :
| Menace | Impact dans le contexte agentique | Lien Scénario |
|---|---|---|
| Spoofing | Moins direct, mais une hallucination peut mener un agent à interagir avec une mauvaise entité. | - |
| Tampering | L’intégrité des données du système est compromise à mesure que l’erreur initiale se propage et altère les états des agents en aval. | Scénario 1 (Ventes basées sur fausse info) |
| Repudiation | Difficile d’attribuer la responsabilité de l’échec final, l’origine étant une erreur mineure en amont diluée dans la chaîne. | Général |
| Information Disclosure | Une défaillance en cascade pourrait conduire un agent à dumper ses logs ou sa mémoire de manière non sécurisée. | - |
| Denial of Service | C’est l’impact majeur : le système devient indisponible ou inutilisable suite à une paralysie, une surcharge ou une destruction de ressources. | Scénario 1 & 2 |
| Elevation of Privilege | Une défaillance pourrait amener un agent à contourner des contrôles d’accès dans un état de panique. | - |
Comment ça marche ? (Vecteurs)
- Amplification d’Hallucinations : Une information fausse est traitée comme factuelle par les agents suivants.
- Boucles de Rétroaction Négatives : Une erreur initiale entraîne une réaction disproportionnée, créant un cercle vicieux.
- Manque de Gestion d’Erreurs : Absence de contrôle aux interfaces entre agents.
- Surcharge de Ressources : Une erreur entraîne une boucle d’actions incontrôlée.
Scénarios d’attaque clés (Exemples)
1. L’Effet Domino Financier (Tampering / Denial of Service)
Un agent d’analyse hallucine une nouvelle négative sur une entreprise. Il transmet l’info à un agent de risque qui ordonne une liquidation massive. Un troisième agent exécute les ordres, provoquant une perte financière réelle et un mini-krach (DoS économique).
2. La Spirale de l’Incident (Denial of Service)
Un agent de surveillance classifie par erreur une anomalie mineure comme critique. L’agent de réponse commence à isoler des serveurs clés. Cette isolation provoque des pannes, interprétées comme une aggravation de l’attaque, entraînant des mesures de rétorsion encore plus drastiques jusqu’à la paralysie du SI.
Vulnérabilités réellement connues
- Incidents multi-systèmes par hallucination : Un agent d’inventaire a halluciné un produit, déclenchant des appels API vers quatre systèmes en aval (tarification, stock, expédition), provoquant un incident complexe.
- Boucles d’exécution infinies : Des agents sont entrés dans des boucles de raffinement infinies suite à une erreur, consommant des ressources pendant des heures (DoS).
Solutions & Défenses (Mitigation)
Principes Architecturaux
- Design for Failure : Concevoir le système pour résister aux erreurs inévitables.
- Coupe-Circuits (Circuit Breakers) : Stopper l’exécution si des seuils d’erreur ou de coût sont atteints.
- Supervision Humaine : Points de contrôle humains avant les actions à fort impact.
Boîte à outils CI/CD
- Vérifications de Cohérence : Chaque agent doit valider la plausibilité des entrées reçues.
- Diversité des Modèles : Utiliser plusieurs modèles en parallèle pour vérifier les décisions critiques.