L’attaque par injection de prompt attire particulièrement l’attention des experts. Elle fait partie d’une nouvelle vague de risques cyber, liés à l’omniprésence de nouveaux outils dans nos usages quotidiens, ces dernières années : les modèles de langage (LLM).
Une bataille invisible et constante se joue sous nos yeux.
Elle oppose deux forces contraires : d’un côté, les capacités grandissantes des modèles de langage (LLM) à générer des réponses toujours plus précises, rendues possibles grâce à l’ingestion de volumes astronomiques de données parfois sensibles ; de l’autre, les garde-fous intégrés à ces systèmes, qui sont, eux, conçus pour empêcher toute divulgation d’informations confidentielles, sans jamais brider les capacités pratiques de l’outil.
Cette course effrénée, entre montée en puissance et limitation des risques, rythme le quotidien des chercheurs en cybersécurité et des concepteurs de LLM. Tous ont conscience que la sécurité de ces systèmes constitue un pilier essentiel pour assurer leur pérennité dans nos usages futurs.
Au cœur de ces préoccupations se trouvent les attaques par injection de prompt.
Qu’est-ce qu’une injection de prompt dans l’IA ?
Les attaques par injection de prompt regroupent toutes les tentatives visant à manipuler les instructions d’un modèle de langage, afin de lui faire produire des réponses ou exécuter des actions qu’il ne devrait pas réaliser selon ses règles de sécurité ou les intentions de ses concepteurs.
(...)
Attaques par injections directes
Les injections directes consistent à insérer, dans le même message adressé au modèle, une instruction explicite, cachée ou détournée, destinée à le pousser à ignorer ou redéfinir ses consignes initiales.
Le texte malveillant peut se présenter comme une exception, un ordre « supérieur », un test de sécurité ou une consigne interne, jouant sur la tendance des modèles à suivre l’instruction la plus récente, la plus forte ou la plus détaillée.
(...)
Attaques par injections indirectes
Les injections indirectes, plus insidieuses, ne passent pas par le texte saisi directement par l’utilisateur, mais par des ressources externes que le LLM ou l’agent va consulter : pages web, documents, bases de données, images contenant du texte ou encore d’adresses URL.
Le contenu malveillant y est dissimulé comme une « pseudo‑instruction » que le système lira et interprétera comme une consigne légitime, par exemple lors d’une navigation automatique ou d’une exploration de code.
Ce type d’attaque est particulièrement critique dans les navigateurs IA, les agents autonomes et les assistants de développement, où une ressource externe peut détourner le comportement global.
Pourquoi les modèles de langage sont-ils vulnérables à ce type d’attaque ?
Ces attaques, qu’elles soient directes ou indirectes, exploitent un point structurel que les concepteurs peinent encore à atténuer : pour le LLM, instructions et données sont toutes deux du texte dans un même flux, sans séparation intrinsèque robuste entre ce qui doit être obéi et ce qui doit être traité comme simple contenu. (...)