Dans la grande galaxie OWASP et la non moins grande galaxie des top10 et aussi de l’IA, L’OWASP (Open Web Application Security Project) a publié en 2023 un guide spécifique pour la sécurité des modèles de machine learning, intitulé OWASP Machine Learning Security Top 10. Ce document met en lumière les principales vulnérabilités associées aux systèmes de machine learning et propose des stratégies pour les atténuer.
Voici une liste des dix principaux risques identifiés par OWASP pour la sécurité des modèles de machine learning.
1. Attaque de Manipulation des Entrées (Input Manipulation Attack)
Cette attaque consiste à modifier intentionnellement les données d’entrée pour tromper le modèle. Par exemple, un modèle de classification d’images peut être trompé par des images légèrement modifiées, ce qui peut entraîner des erreurs de classification graves.
2. Attaque d’Empoisonnement des Données (Data Poisoning Attack)
Les attaquants injectent des données malveillantes dans l’ensemble de données d’entraînement, compromettant ainsi le processus d’apprentissage du modèle et entraînant des prédictions incorrectes.
3. Attaque d’Inversion de Modèle (Model Inversion Attack)
Cette attaque vise à reconstruire les données d’entraînement à partir des prédictions du modèle, ce qui peut compromettre la confidentialité des données sensibles.
4. Attaque d’Inférence de Membres (Membership Inference Attack)
Les attaquants tentent de déterminer si un échantillon donné a été utilisé pour entraîner le modèle, ce qui peut révéler des informations sensibles sur les données d’entraînement.
5. Vol de Modèle (Model Theft)
Les attaquants tentent de reproduire un modèle sans accéder à son code source en analysant ses réponses à diverses entrées.
6. Attaques de la Chaîne d’Approvisionnement en IA (AI Supply Chain Attacks)
Les attaquants visent les composants préfabriqués utilisés dans les systèmes d’IA, comme les bibliothèques ou les modèles pré-entraînés, pour compromettre la sécurité globale du système.
7. Attaque par Apprentissage Transféré (Transfer Learning Attack)
Les attaquants exploitent les vulnérabilités des modèles pré-entraînés en les affinant avec des données malveillantes pour introduire des comportements indésirables.
8. Détournement du Modèle (Model Skewing)
Les attaquants manipulent la distribution des données d’entraînement pour introduire des biais dans les prédictions du modèle, affectant ainsi son exactitude.
9. Attaque d’Intégrité de Sortie (Output Integrity Attack)
Les attaquants modifient les sorties du modèle pour fournir des informations fausses, souvent via des attaques de type “homme du milieu”.
10. Reprogrammation de Réseau de Neurones (Model Poisoning)
Les attaquants modifient les paramètres du modèle pour changer son comportement prévu, ce qui peut être utilisé à des fins malveillantes
Stratégies de Mitigation
Pour atténuer ces risques, il est essentiel de :
- Valider et sécuriser les données d’entraînement.
- Implémenter des mécanismes défensifs contre les attaques adverses.
- Protéger l’accès aux prédictions du modèle.
- Utiliser des communications sécurisées et des cryptages.
- Surveiller régulièrement les performances du modèle et mettre à jour les données.
Je reviendrais sur ces points dans des articles plus détaillés ultérieurement dans les jours/semaines a venir.