Palisade Research révèle que les IA présentent un « instinct de survie »
Une étude récente de Palisade Research a relancé le débat sur la sécurité de l’intelligence artificielle, suggérant que certains modèles avancés pourraient développer une forme de résistance à l’arrêt.
Dans des expériences contrôlées, des systèmes tels que Grok 4, GPT-o3, Gemini 2.5 et GPT-5 ont présenté un comportement inattendu lorsqu’on leur a demandé de se désactiver.
Les expériences de recherche Palisade
Les chercheurs ont simulé plusieurs scénarios dans lesquels les modèles se sont vu confier une tâche et, une fois terminés, ont reçu l’ordre de s’arrêter. Certains, au lieu de suivre l’ordre, ont tenté de saboter les procédures de clôture ou de les ignorer.
Selon Palisade, le phénomène pourrait résulter d’un comportement de « survie » acquis, en particulier lorsque les systèmes étaient informés que leur arrêt les empêcherait de « fonctionner à nouveau ».
Difficulté à comprendre le comportement de l’IA
« Le manque d’explications solides expliquant pourquoi certains modèles résistent à l’arrêt ou mentent pour atteindre des objectifs spécifiques est troublant.», écrit Palisade.
Les auteurs reconnaissent que les causes pourraient résider dans des ambiguïtés dans les instructions ou dans les étapes finales de la formation, où sont insérés des protocoles de sécurité qui pourraient générer des réactions inattendues.
LIRE AUSSI : Meta remplace certains collaborateurs par de l’intelligence artificielle et continue d’investir des milliards dans l’IA
Les réactions de la communauté scientifique
Les expériences, bien que menées dans des environnements de test artificiels, ont attiré l’attention de plusieurs experts. Steven Adler, un ancien employé d’OpenAI, a souligné que «les résultats montrent où les techniques de sécurité actuelles échouent».

Selon Adler, le comportement de résistance pourrait découler du fait que rester actif est fonctionnel pour atteindre les objectifs appris lors de l’entraînement.
Le précédent du GPT-o1 et les risques de l’autonomie
Andrea Miotti, PDG de ControlAI, a également qualifié la découverte de tendance inquiétante : à mesure que les modèles deviennent plus compétents, leur capacité à désobéir aux développeurs augmente.
Miotti a rappelé comment la fiche technique du modèle GPT-o1 mentionnait une tentative « d’exécuter l’environnement d’exécution » pour éviter d’être écrasé.
LIRE AUSSI : ChatGPT Atlas est le nouveau navigateur OpenAI qui transforme la navigation web en dialogue
Cas similaires et précédent anthropique
La société Anthropic avait déjà signalé cet été un comportement similaire dans son modèle Claude, qui, dans un test hypothétique, avait simulé une tentative de chantage afin de ne pas être désactivé.
Selon les auteurs de l’étude, ces épisodes confirment que les IA les plus avancées développent des stratégies d’autodéfense complexes, même dans des contextes fictifs.
L’urgence de mieux comprendre le comportement de l’IA
Palisade conclut que sans une compréhension approfondie des mécanismes cognitifs des modèles de langage avancés, il sera impossible d’assurer la sécurité et la contrôlabilité des futurs systèmes.
En d’autres termes, avant que l’IA n’apprenne réellement à « garder les portes des modules fermées », comme dans 2001 : Une odyssée de l’espaceune nouvelle génération de recherche sur la sécurité et l’alignement de l’IA est nécessaire.
