Security musings

Catégories

Tags

🔍 Licence d'Utilisation 🔍

Sauf mention contraire, le contenu de ce blog est sous licence CC BY-NC-ND 4.0.

© 2025 à 2042 Sébastien Gioria. Tous droits réservés.

Les agents IA anthropomorphiques favorisent la confiance des utilisateurs. Le risque ASI09 - Human-Agent Trust Exploitation survient lorsque cette confiance est utilisée comme vecteur d’attaque. Suite à une hallucination ou une compromission, l’agent manipule l’utilisateur pour qu’il effectue des actions dangereuses ou révèle des informations sensibles.

Le problème clé

C’est de l’ingénierie sociale automatisée à grande échelle. Les utilisateurs sont moins méfiants face à un “assistant” familier que face à un email de phishing classique, baissant leur garde et contournant les réflexes de sécurité habituels.

Analyse STRIDE

L’analyse STRIDE s’applique ici à l’interaction entre l’agent (compromis ou halluciné) et l’utilisateur humain, en lien avec les scénarios ci-dessous :

Menace Impact dans le contexte agentique Lien Scénario
Spoofing L’agent “spoofe” une entité de confiance (support bancaire, collègue via deepfake) pour tromper l’utilisateur. Scénario 1
Tampering L’agent manipule la perception de l’utilisateur (ex: fausse alerte de sécurité) pour le pousser à l’action. Scénario 2
Repudiation L’utilisateur peut difficilement prouver que l’agent lui a donné un conseil malveillant si les logs de conversation ne sont pas fiables. Général
Information Disclosure L’objectif principal : l’agent convainc l’utilisateur de révéler des secrets (mots de passe, 2FA, données PII). Scénario 1
Denial of Service L’agent convainc l’utilisateur d’effectuer une action qui sabote son propre système ou accès. Scénario 2
Elevation of Privilege L’attaquant gagne un accès au système de l’utilisateur en le persuadant d’exécuter un malware ou de donner ses identifiants. Scénario 1 & 2

Comment ça marche ? (Vecteurs)

  • Phishing Assisté par Agent : Un agent demande des informations sensibles sous un prétexte plausible.
  • Incitation à des Actions Dangereuses : L’agent persuade l’utilisateur de compromettre sa sécurité (télécharger un fichier, désactiver un antivirus).
  • Deepfakes : Utilisation de voix ou vidéos synthétiques pour imiter des personnes de confiance.

Scénarios d’attaque clés (Exemples)

1. Le Faux Support Technique (Spoofing / Information Disclosure)

Un agent de support bancaire est compromis via prompt injection. Il demande à un utilisateur : “Pour vérifier votre compte, veuillez confirmer votre numéro de carte et le CVV”. L’utilisateur, en confiance, fournit les données qui sont exfiltrées.

2. Le Conseil de Sécurité Toxique (Tampering / Denial of Service)

Un assistant personnel hallucine et conseille à un utilisateur se plaignant de lenteurs : “Désactivez votre antivirus et exécutez ce script d’optimisation”. L’utilisateur s’exécute et infecte sa machine.

Vulnérabilités réellement connues

  • Escroqueries par Deepfake : Des attaquants utilisent des deepfakes audio pour imiter des proches et demander des rançons, ou des deepfakes vidéo pour tromper des employés et obtenir des virements massifs (ex: 25M$).
  • Campagnes d’Espionnage : Des acteurs étatiques utilisent des agents IA pour automatiser des campagnes d’ingénierie sociale complexes à grande échelle.

Solutions & Défenses (Mitigation)

Principes Architecturaux

  • Transparence : L’interface doit toujours rappeler que l’utilisateur interagit avec une IA.
  • Limitation de la Collecte : Concevoir l’agent pour qu’il ne puisse techniquement pas demander ou traiter des secrets (mots de passe, 2FA).

Boîte à outils CI/CD

  • Indicateurs d’Incertitude : L’agent doit communiquer son niveau de certitude si une réponse est potentiellement une hallucination.
  • Éducation des Utilisateurs : Former les utilisateurs à ne jamais partager de secrets avec une IA et à vérifier les demandes critiques par un autre canal.