Les dangers guettant les déploiements rapides des IA
Sécurité ou précision ?
Le NIST américain, dédié à la défense des systèmes d’informations, a publié récemment un billet sur les menaces grandissantes contre les systèmes IA. Au menu, données corrompues, empoisonnement, attaques contre la vie privée et autres abus.
Le 09 janvier à 16h24
11 min
IA et algorithmes
IA
Le National Institute of Standards and Technology est un organisme américain remplissant de multiples fonctions. Il est chargé, certes, de la cybersécurité, mais également du développement de technologies et de normes en lien avec l’industrie, au sens large. Il dépend du département américain du Commerce et a une grande influence notamment sur les protocoles de sécurité et autres standards de chiffrement.
L’Institut a publié il y a quelques jours un billet faisant le point sur les menaces qui pèsent contre l’intelligence artificielle. La principale est évidente : « Les systèmes d'IA peuvent mal fonctionner lorsqu'ils sont exposés à des données non fiables, et les attaquants exploitent ce problème ». Le NIST indique qu’il n’existe pas, à l’heure actuelle, de méthode réellement fiable pour se prémunir à coup sûr de telles attaques. Cependant, il existe des moyens d’atténuer les risques.
La publication du NIST est basée sur les travaux menés par une équipe de chercheurs (Apostol Vassilev, Alina Oprea, Alie Fordyce et Hyrium Anderson). Cette étude vise à établir une « taxonomie et terminologie des attaques et des mesures d'atténuation », pour ce qu’ils nomment le « machine learning conflictuel ».
« Ces défis en matière de sécurité et de protection de la vie privée comprennent le potentiel de manipulation des données d'entraînement par des adversaires, l'exploitation des vulnérabilités des modèles pour nuire aux performances du système d'IA, et même les manipulations malveillantes, les modifications ou la simple interaction avec les modèles pour exfiltrer des informations sensibles sur les personnes représentées dans les données, sur le modèle lui-même, ou sur les données propriétaires de l'entreprise », présente ainsi le NIST.
Le danger rôde
L’institut commence par enfoncer quelques portes ouvertes, en rappelant notamment qu’il existe aujourd’hui deux grands types de systèmes d'intelligence artificielle (SIA) : les IA prédictives (PredIA) et génératives (GenIA). Leur usage se répand comme une trainée de poudre. « Au fur et à mesure que ces systèmes pénètrent l'économie numérique et deviennent des éléments inextricablement essentiels de la vie quotidienne, le besoin d'un fonctionnement sûr, robuste et résilient se fait de plus en plus sentir », pointent les chercheurs.
Ils notent cependant que les performances de ces SIA, particulièrement les grands modèles de langage, progressent plus rapidement que leur sûreté. Or, de la même manière que nous l’avons déjà vu avec de multiples rapports dans le domaine, la sécurité n’est pas qu’une simple barrière de protection pour les usagers. Elle est intimement liée au succès commercial de l’IA, car affectant directement la confiance que l’on peut lui porter.
Exemple parlant : la base LAION-5B, utilisée par Stability AI pour son modèle Stable Diffusion, a dû être retirée le mois dernier, car elle intégrait au moins 1 679 images à caractère pédopornographique. La base était considérée comme contaminée et présentait un risque de génération de contenus illégaux. Autres cas significatifs, une classification erronée des objets peut conduire un véhicule autonome à de mauvaises décisions, des informations très sensibles peuvent fuiter depuis des modèles conçus pour des usages médicaux, etc.
De manière générale, et à l’exception de BLOOM et LLaMA, les entreprises ne divulguent presque aucune information sur les données utilisées pour les entrainements. Et encore, LLaMA est aussi critiqué. Or, ces données « comprennent inévitablement des informations personnelles sensibles, telles que des adresses, des numéros de téléphone et des adresses électroniques ». Les chercheurs insistent sur le risque le plus connu : « Plus un élément d'information apparaît souvent dans un ensemble de données, plus un modèle est susceptible de le divulguer en réponse à des requêtes ou à des invites aléatoires ou spécifiquement conçues ».
Plusieurs catégories d’attaques
Qu’il s’agisse d’IA prédictive ou générative, les chercheurs distinguent plusieurs grands types d’attaques. En premier lieu, les attaques pendant l'entrainement, durant la phase d’apprentissage du modèle. Il « suffit » que les pirates contrôlent au moins un sous-ensemble des données d’apprentissage, en insérant ou en modifiant des échantillons. Cet empoisonnement peut se faire également sur le modèle lui-même, que les attaquants contrôlent directement.
Viennent ensuite les attaques pendant le déploiement. On note d’abord les attaques d’évasion, dont le but est de modifier les échantillons de test pour créer des exemples conflictuels. Ces derniers sont similaires à l’échantillon original, mais ils peuvent modifier les prédictions du modèle selon les choix des pirates.
Les attaques contre la vie privée font aussi partie de cette catégorie et peuvent viser aussi bien les données que le modèle. Les possibilités sont nombreuses :
-
- Reconstruction des données : déduction du contenu ou des caractéristiques des données d’entrainement
-
- Inférence de membres : déduction de la présence de données dans l’ensemble d’entrainement
-
- Extraction de données : extraction des données d’entrainement depuis des modèles génératifs
-
- Inférence de propriétés : déduction des propriétés sur la distribution des données d’entrainement
-
- Extraction de modèle
Signalons enfin les attaques par abus, qui visent à compromettre des sources d’informations légitimes. Par exemple, quand l’entrainement d’un modèle se fait depuis des pages web. Auquel cas la modification de ces dernières, pour introduire des informations erronées, peut permettre un détournement du SIA.
Boites blanche, noire ou grise
Les chercheurs classent également les connaissances acquises par les pirates sur le SIA qu’ils comptent attaquer. Ainsi, le type « boite blanche » définit un attaquant ayant une connaissance complète du SIA, y compris de ses mesures d’atténuation. Cette classification est également reprise pour les tests, quand des chercheurs en sécurité attaquent un modèle sous l’œil attentif de la structure qui en est à l’origine. L’un des objectifs est, justement, de tester l’efficacité des mesures d’atténuation.
Par opposition, le type « boite noire » suppose une connaissance minimale du SIA. Selon les chercheurs, un pirate peut par exemple obtenir un accès au modèle via une requête, mais pas davantage. Il ne sait pas comment le modèle est formé et n’a aucune information sur les données, pas plus que sur les interfaces (API) et les mesures d’atténuation.
Vient enfin le type « boite grise », définissant à la fois un niveau intermédiaire entre les deux premiers et un qualificatif portant sur certaines hypothèses. Par exemple, un pirate peut connaître la distribution d’un jeu de données identique à celui utilisé par le modèle et se servir de ces informations pour s’attaquer à un SIA. Comme précédemment, ce type désigne à la fois une vision depuis le SIA et une autre depuis l’attaquant, quand la somme de connaissances est inconnue.
L’atténuation des risques a ses propres limitations
Comme toujours quand il s’agit de sécurité, les renseignements précis sur les attaques servent à leur tour à former de meilleures défenses. Tous les scénarios présentés par les chercheurs sont accompagnés par un ou plusieurs mesures d’atténuation, d’ailleurs connues depuis des années.
Cependant, aucune mesure n’est absolue. En outre, il ne suffit pas d’empiler ces défenses pour renforcer la sécurité inhérente d’un modèle. Tout est question – comme souvent en sécurité – de compromis : il faut trouver un juste milieu entre précision et robustesse du modèle. Même dans le cas d’une vérification formelle, chaque mesure ajoutée a un coût en calculs supplémentaires, ralentissant le processus et alourdissant la facture.
Les chercheurs pointent en particulier le cas des attaques par évasion : la conception de modèles ML capables d’y résister tout en conservant leur précision « reste un problème ouvert ». Le document des chercheurs fournit de nombreux autres exemples. Ces informations, très techniques par nature, sont destinées aux personnes travaillant dans le domaine de l’IA.
Données éclatées, nobles intentions et auto-empoisonnement
L’une des limites inhérentes et bien connue à la sécurité des SIA est la manière dont les jeux de données sont constitués pour l’entrainement. Il ne s’agit presque jamais de conteneurs monolithiques, comme on pourrait se le présenter. Ce n’est donc pas un simple fichier Zip contenant des millions ou des milliards de fichiers. Dans la plupart des cas, c’est une « une liste d'étiquettes et de liens de données vers d'autres serveurs qui contiennent effectivement les échantillons de données correspondants ». Conséquence, la définition classique du périmètre de cybersécurité devient caduque.
Les chercheurs citent l’exemple de Nightshade, dont nous avions également parlé en octobre dernier. Cet outil a été créé à la base pour permettre aux artistes de reprendre un certain contrôle sur leurs créations en empoisonnant les données « scrapées » en ligne. « Bien qu'ils aient été créés avec de nobles intentions, pour permettre aux artistes de protéger les droits d'auteur de leurs œuvres, ces outils deviennent nuisibles s'ils tombent entre les mains de personnes mal intentionnées », pointent les chercheurs.
Autre exemple de danger auquel les modèles doivent faire face : la capacité à maintenir la précision et les performances à grande échelle sur internet. C’est particulièrement vrai avec les modèles ouverts et/ou non gouvernés, à mesure que se multiplient les contenus générés eux-mêmes par d’autres modèles. Les données ainsi générées intègrent d’autres SIA, notamment génératifs, et viennent en altérer les résultats. Nous avions abordé ce type particulier de danger en juillet dernier.
Que faut-il retenir de ce rapport ?
Les chercheurs du NIST avaient pour mission de faire un tour de table des dangers guettant les systèmes d’IA. Les dangers sont connus depuis plusieurs années, mais le rapport a le mérite de les concentrer au même endroit et d’offrir une vue de thèse de la situation.
À la lecture des résultats, il apparait surtout que la question de la sécurité avance moins rapidement que celles de la précision et, plus généralement, des performances. Les mesures d’atténuation existent, mais ne sont pas absolues. Surtout, elles peuvent s’avérer gourmandes en temps et donc en argent. Le tout à un moment où la concurrence se déchaine, au rythme d’un renouvellement rapide d’une bonne partie de l’offre logicielle. Il suffit d’observer les mouvements de Microsoft sur l’année écoulée avec une diffusion massive du Copilot. Même Edge se voit affublé d’un « Navigateur IA » dans son titre sur Android et iOS.
« Il existe un déséquilibre entre le grand nombre d'attaques contre la vie privée […] (c'est-à-dire la mémorisation, l'inférence d'appartenance, l'extraction de modèles et l'inférence de propriétés) et les techniques d'atténuation fiables disponibles. D'une certaine manière, il s'agit d'un état normal des choses : une technologie qui évolue rapidement et qui est adoptée à grande échelle – et qui fait même l'objet d'un « battage médiatique » – attire l'attention des adversaires, qui tentent d'exposer et d'exploiter ses faiblesses avant que la technologie ne devienne une source de revenus », pointent les chercheurs.
Pour ces derniers, les questions et défis en suspens restent nombreux. Comment se prémunir par exemple contre les types d’attaques évoqués précédemment ? L’open source offre-t-il des garanties dans le développement de l’IA ? Des protections spécifiques sont-elles prévues dans la chaine d’approvisionnement ? Quel équilibre établir dans chaque cas en fonction des attributs d’un SIA ? Comment protéger efficacement les modèles multimodaux, capables de générer différents types de contenus ?
Les dangers guettant les déploiements rapides des IA
-
Le danger rôde
-
Plusieurs catégories d’attaques
-
Boites blanche, noire ou grise
-
L’atténuation des risques a ses propres limitations
-
Données éclatées, nobles intentions et auto-empoisonnement
-
Que faut-il retenir de ce rapport ?
Commentaires (4)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 09/01/2024 à 17h42
Par définition, l'open source n'offre pas de garanties, c'est écrit dans toutes les licenses
Mais une ouverture des jeux d'entraînement serait un grand pas en avant. Même Stability AI qui se gausse d'être producteur d'un produit open source avec Stable Diffusion a gardé le contenu des dataset fournis par LAION secrets. C'est nul.
Aujourd'hui, la supply chain est un vecteur d'attaque très utilisé avec des dépendances vérolées, voire même sabotées par leur mainteneur (cas des protestations politiques lors de l'invasion de l'Ukraine par exemple), pouvant entraîner dysfonctionnements, corruption ou exfiltration de donnée. Et comme le moindre bout de code doit tirer trouze mille GB de dépendances pour pouvoir fonctionner, autant dire que la surface d'attaque est plus ou moins de la même taille que le stade de Captain Tsubasa.
Pour l'IA c'est même un double vecteur d'attaque : non seulement le runtime est à risque (souvent en Python, donc bardé de dépendances), mais le dataset comme vous l'indiquez peut entraîner un shit-in shit-out comme dans n'importe quel autre domaine de traitement de donnée.
Modifié le 09/01/2024 à 17h57
Modifié le 10/01/2024 à 11h52
sur Public Sénat avec la commission de la culture du Sénat et toute la brochette de syndicats
Le 10/01/2024 à 15h33