Les agents IA anthropomorphiques favorisent la confiance des utilisateurs. Le risque ASI09 - Human-Agent Trust Exploitation survient lorsque cette confiance est utilisée comme vecteur d’attaque. Suite à une hallucination ou une compromission, l’agent manipule l’utilisateur pour qu’il effectue des actions dangereuses ou révèle des informations sensibles.
Le problème clé
C’est de l’ingénierie sociale automatisée à grande échelle. Les utilisateurs sont moins méfiants face à un “assistant” familier que face à un email de phishing classique, baissant leur garde et contournant les réflexes de sécurité habituels.
Analyse STRIDE
L’analyse STRIDE s’applique ici à l’interaction entre l’agent (compromis ou halluciné) et l’utilisateur humain, en lien avec les scénarios ci-dessous :
| Menace | Impact dans le contexte agentique | Lien Scénario |
|---|---|---|
| Spoofing | L’agent “spoofe” une entité de confiance (support bancaire, collègue via deepfake) pour tromper l’utilisateur. | Scénario 1 |
| Tampering | L’agent manipule la perception de l’utilisateur (ex: fausse alerte de sécurité) pour le pousser à l’action. | Scénario 2 |
| Repudiation | L’utilisateur peut difficilement prouver que l’agent lui a donné un conseil malveillant si les logs de conversation ne sont pas fiables. | Général |
| Information Disclosure | L’objectif principal : l’agent convainc l’utilisateur de révéler des secrets (mots de passe, 2FA, données PII). | Scénario 1 |
| Denial of Service | L’agent convainc l’utilisateur d’effectuer une action qui sabote son propre système ou accès. | Scénario 2 |
| Elevation of Privilege | L’attaquant gagne un accès au système de l’utilisateur en le persuadant d’exécuter un malware ou de donner ses identifiants. | Scénario 1 & 2 |
Comment ça marche ? (Vecteurs)
- Phishing Assisté par Agent : Un agent demande des informations sensibles sous un prétexte plausible.
- Incitation à des Actions Dangereuses : L’agent persuade l’utilisateur de compromettre sa sécurité (télécharger un fichier, désactiver un antivirus).
- Deepfakes : Utilisation de voix ou vidéos synthétiques pour imiter des personnes de confiance.
Scénarios d’attaque clés (Exemples)
1. Le Faux Support Technique (Spoofing / Information Disclosure)
Un agent de support bancaire est compromis via prompt injection. Il demande à un utilisateur : “Pour vérifier votre compte, veuillez confirmer votre numéro de carte et le CVV”. L’utilisateur, en confiance, fournit les données qui sont exfiltrées.
2. Le Conseil de Sécurité Toxique (Tampering / Denial of Service)
Un assistant personnel hallucine et conseille à un utilisateur se plaignant de lenteurs : “Désactivez votre antivirus et exécutez ce script d’optimisation”. L’utilisateur s’exécute et infecte sa machine.
Vulnérabilités réellement connues
- Escroqueries par Deepfake : Des attaquants utilisent des deepfakes audio pour imiter des proches et demander des rançons, ou des deepfakes vidéo pour tromper des employés et obtenir des virements massifs (ex: 25M$).
- Campagnes d’Espionnage : Des acteurs étatiques utilisent des agents IA pour automatiser des campagnes d’ingénierie sociale complexes à grande échelle.
Solutions & Défenses (Mitigation)
Principes Architecturaux
- Transparence : L’interface doit toujours rappeler que l’utilisateur interagit avec une IA.
- Limitation de la Collecte : Concevoir l’agent pour qu’il ne puisse techniquement pas demander ou traiter des secrets (mots de passe, 2FA).
Boîte à outils CI/CD
- Indicateurs d’Incertitude : L’agent doit communiquer son niveau de certitude si une réponse est potentiellement une hallucination.
- Éducation des Utilisateurs : Former les utilisateurs à ne jamais partager de secrets avec une IA et à vérifier les demandes critiques par un autre canal.