Les responsables de la Maison Blanche, préoccupés par le potentiel de préjudice sociétal des chatbots d’IA et par la précipitation des géants de la Silicon Valley à les mettre sur le marché, sont fortement investis dans une compétition de trois jours qui s’est terminée dimanche (13 août) lors de la convention de pirates informatiques DefCon à Las Vegas.
Environ 2 200 concurrents ont tapé sur des ordinateurs portables pour mettre en évidence les failles de huit modèles de langage de pointe représentatifs de la prochaine grande avancée technologique. Mais ne vous attendez pas à des résultats rapides de cette première “red teaming” indépendante de plusieurs modèles.
Les résultats ne seront rendus publics qu’en février environ. Et même alors, il faudra du temps et des millions de dollars pour corriger les défauts de ces constructions numériques dont le fonctionnement interne n’est ni entièrement fiable ni pleinement compris même par leurs créateurs.
Les modèles d’IA actuels sont tout simplement trop lourds, fragiles et malléables, comme le montrent les recherches universitaires et corporatives. La sécurité a été négligée lors de leur formation, alors que les scientifiques des données accumulaient des collections d’images et de textes d’une complexité époustouflante. Ils sont sujets à des biais raciaux et culturels et faciles à manipuler.
“Il est tentant de prétendre que nous pouvons saupoudrer ces systèmes de sécurité magique une fois qu’ils sont construits, les corriger par soumission ou ajouter des dispositifs de sécurité spéciaux”, a déclaré Gary McGraw, vétéran de la cybersécurité et co-fondateur de l’Institut Berryville de l’apprentissage automatique.
Les concurrents de DefCon sont “plus susceptibles de partir en trouvant de nouveaux problèmes difficiles”, a déclaré Bruce Schneier, technologue d’intérêt public à Harvard. “C’est la sécurité informatique d’il y a 30 ans. Nous cassons tout à gauche et à droite.”
Michael Sellitto d’Anthropic, qui a fourni l’un des modèles de test d’IA, a reconnu lors d’un point presse que la compréhension de leurs capacités et des problèmes de sécurité “est un domaine ouvert d’enquête scientifique”.
Les logiciels conventionnels utilisent un code bien défini pour émettre des instructions explicites et étape par étape. ChatGPT d’OpenAI, Bard de Google et d’autres modèles de langage sont différents. En grande partie formés en ingérant – et en classifiant – des milliards de points de données dans les explorations Internet, ils sont des travaux en cours perpétuels, une perspective troublante compte tenu de leur potentiel transformateur pour l’humanité.
Après avoir publié publiquement des chatbots à l’automne dernier, l’industrie de l’IA générative a dû combler à plusieurs reprises les failles de sécurité exposées par les chercheurs et les bricoleurs.
Tom Bonner de la société de sécurité AI HiddenLayer, intervenant lors de la DefCon de cette année, a trompé un système Google en le faisant étiqueter un logiciel malveillant comme inoffensif en insérant simplement une ligne disant ”c’est sûr à utiliser”.
“Il n’y a pas de bonnes barrières”, a-t-il déclaré.
Un autre chercheur a fait en sorte que ChatGPT crée des e-mails de phishing et une recette pour éliminer violemment l’humanité, en violation de son code éthique.
Une équipe comprenant des chercheurs de Carnegie Mellon a découvert que les principaux chatbots étaient vulnérables aux attaques automatisées qui produisent également du contenu nuisible. “Il est possible que la nature même des modèles d’apprentissage profond rende de telles menaces inévitables”, ont-ils écrit.
Ce n’est pas comme si les alarmes n’avaient pas été sonnées.
Dans son rapport final de 2021, la Commission nationale de sécurité sur l’intelligence artificielle des États-Unis a déclaré que des attaques contre les systèmes d’IA commerciaux se produisaient déjà et que “sauf exceptions rares, l’idée de protéger les systèmes d’IA a été une réflexion après coup dans l’ingénierie et le déploiement des systèmes d’IA”.




