Security musings

Catégories

🔍 Licence d'Utilisation 🔍

Sauf mention contraire, le contenu de ce blog est sous licence CC BY-NC-ND 4.0.

© 2025 à 2042 Sébastien Gioria. Tous droits réservés.

⏱️
Temps de lecture estimé
~1 minute

⚠️ Série en cours de publication : tous les contenus ne sont pas encore disponibles.

⏳ Work in progress

Dans ce second article de notre série sur les guardrails pour agents IA, nous abordons le détails des différents types de guardrails et leurs stratégies de mitigation spécifiques. Après avoir posé les bases conceptuelles de ces derniers, plongeons dans la pratique de la protection des LLM.

🗺️ Navigation dans la Série

  1. Guardrails d’Entrée : Protection en Amont
    • Validation des entrées
    • Détection de jailbreak
    • Protection contre l’injection de prompts
    • Détection des données sensibles
    • et les autres…..
  2. Guardrails de Sortie : Contrôle des Réponses
    • Contrôle de factualité
    • Filtrage du contenu inapproprié
    • Validation structurelle
    • Conformité aux politiques
  3. Stratégies de Mitigation : Réponses Adaptées
    • Actions de mitigation disponibles
    • Choix de la stratégie de mitigation
    • Implémentation des stratégies
  4. Gestion des Erreurs et Monitoring
    • Stratégies de logging
    • Format des logs
    • Gestion de la continuité
    • Monitoring en temps réel