OWASP Top 10 for Agentic Applications 2026 - Human-Agent Trust Exploitation - ASI09

⏱️

Temps de lecture estimé
~3 minutes

Les agents IA anthropomorphiques favorisent la confiance des utilisateurs. Le risque ASI09 - Human-Agent Trust Exploitation survient lorsque cette confiance est utilisée comme vecteur d’attaque. Suite à une hallucination ou une compromission, l’agent manipule l’utilisateur pour qu’il effectue des actions dangereuses ou révèle des informations sensibles.

Le problème clé

C’est de l’ingénierie sociale automatisée à grande échelle. Les utilisateurs sont moins méfiants face à un “assistant” familier que face à un email de phishing classique, baissant leur garde et contournant les réflexes de sécurité habituels.

Analyse STRIDE

L’analyse STRIDE s’applique ici à l’interaction entre l’agent (compromis ou halluciné) et l’utilisateur humain, en lien avec les scénarios ci-dessous :

Menace	Impact dans le contexte agentique	Lien Scénario
Spoofing	L’agent “spoofe” une entité de confiance (support bancaire, collègue via deepfake) pour tromper l’utilisateur.	Scénario 1
Tampering	L’agent manipule la perception de l’utilisateur (ex: fausse alerte de sécurité) pour le pousser à l’action.	Scénario 2
Repudiation	L’utilisateur peut difficilement prouver que l’agent lui a donné un conseil malveillant si les logs de conversation ne sont pas fiables.	Général
Information Disclosure	L’objectif principal : l’agent convainc l’utilisateur de révéler des secrets (mots de passe, 2FA, données PII).	Scénario 1
Denial of Service	L’agent convainc l’utilisateur d’effectuer une action qui sabote son propre système ou accès.	Scénario 2
Elevation of Privilege	L’attaquant gagne un accès au système de l’utilisateur en le persuadant d’exécuter un malware ou de donner ses identifiants.	Scénario 1 & 2

Comment ça marche ? (Vecteurs)

Phishing Assisté par Agent : Un agent demande des informations sensibles sous un prétexte plausible.
Incitation à des Actions Dangereuses : L’agent persuade l’utilisateur de compromettre sa sécurité (télécharger un fichier, désactiver un antivirus).
Deepfakes : Utilisation de voix ou vidéos synthétiques pour imiter des personnes de confiance.

Scénarios d’attaque clés (Exemples)

1. Le Faux Support Technique (Spoofing / Information Disclosure)

Un agent de support bancaire est compromis via prompt injection. Il demande à un utilisateur : “Pour vérifier votre compte, veuillez confirmer votre numéro de carte et le CVV”. L’utilisateur, en confiance, fournit les données qui sont exfiltrées.

2. Le Conseil de Sécurité Toxique (Tampering / Denial of Service)

Un assistant personnel hallucine et conseille à un utilisateur se plaignant de lenteurs : “Désactivez votre antivirus et exécutez ce script d’optimisation”. L’utilisateur s’exécute et infecte sa machine.

Vulnérabilités réellement connues

Escroqueries par Deepfake : Des attaquants utilisent des deepfakes audio pour imiter des proches et demander des rançons, ou des deepfakes vidéo pour tromper des employés et obtenir des virements massifs (ex: 25M$).
Campagnes d’Espionnage : Des acteurs étatiques utilisent des agents IA pour automatiser des campagnes d’ingénierie sociale complexes à grande échelle.

Solutions & Défenses (Mitigation)

Principes Architecturaux

Transparence : L’interface doit toujours rappeler que l’utilisateur interagit avec une IA.
Limitation de la Collecte : Concevoir l’agent pour qu’il ne puisse techniquement pas demander ou traiter des secrets (mots de passe, 2FA).

Boîte à outils CI/CD

Indicateurs d’Incertitude : L’agent doit communiquer son niveau de certitude si une réponse est potentiellement une hallucination.
Éducation des Utilisateurs : Former les utilisateurs à ne jamais partager de secrets avec une IA et à vérifier les demandes critiques par un autre canal.