OpenAI demanderait à des collaborateurs externes de télécharger des travaux réels effectués dans le passé pour entraîner ses modèles.
Le sujet des données de formation OpenAI entre dans une nouvelle phase.
L’OpenAI et les données de formation de plus en plus liées au travail réel
Comme le rapporte FilaireOpenAI demanderait à des collaborateurs externes et à des professionnels sous contrat de télécharger des exemples concrets de travaux réels effectués dans le passé ou en cours, dans le cadre d’une stratégie plus large visant à améliorer la qualité des données utilisées pour entraîner les modèles d’IA.
L’objectif serait de collecter des résultats authentiques d’activités professionnelles, afin de rapprocher toujours plus les capacités des modèles d’IA du travail humain qualifié.
LIRE AUSSI : OpenAI confirme l’arrivée du Mode Adulte ChatGPT début 2026
De vrais emplois comme données de formation pour l’IA
Dans le détail, toujours deuxième Filaireune présentation interne d’OpenAI demanderait à des collaborateurs externes de décrire des activités réalisées dans d’autres contextes de travail et de télécharger des exemples de « travail réel sur le terrain » réellement produit.
Des dossiers concrets, pas des résumés
Les exemples requis incluraient des fichiers réels tels que des documents Word, des PDF, des présentations PowerPoint, des feuilles Excel, des images ou des référentiels de code, explicitement non pas des résumés ou des descriptions, mais les résultats originaux du travail effectué.
Une demande qui marque une étape supplémentaire par rapport aux jeux de données traditionnels synthétiques ou annotés.
La suppression des données sensibles et le rôle des collaborateurs externes
OpenAI, selon la reconstruction, inviterait les collaborateurs externes à éliminer les informations exclusives et les données personnelles avant de télécharger des documents. Pour accompagner cette opération, l’entreprise dirigerait les utilisateurs vers un outil interne baptisé ChatGPT « Superstar Scrubbing », conçu pour nettoyer les contenus sensibles.
Un système basé sur la confiance
Malgré ces précautions, toute l’approche repose en grande partie sur la capacité des collaborateurs individuels à évaluer correctement ce qui peut être partagé et ce qui ne peut pas l’être, un point qui soulève de nombreuses questions critiques.
LIRE AUSSI : OpenAI et Google réduisent l’IA gratuite en poussant les utilisateurs vers des forfaits premium
Les risques juridiques selon les experts
Interrogé par Filairel’avocat en propriété intellectuelle Evan Brown a qualifié cette approche de « à haut risque », soulignant qu’elle nécessite un niveau de confiance très élevé dans les collaborateurs impliqués.
Frontières floues entre légitime et confidentiel
Le principal problème concerne la difficulté d’établir avec certitude si un dossier ou une production professionnelle est réellement libre de contraintes contractuelles, de secrets d’affaires ou de droits de tiers. Une erreur de jugement pourrait exposer un laboratoire d’IA à d’importants litiges.
Une stratégie généralisée dans le secteur de l’intelligence artificielle
Le cas OpenAI ne semble pas isolé. La collecte de données de formation de haute qualité grâce à la contribution de collaborateurs externes fait partie d’une tendance plus large du secteur visant à automatiser des parties toujours croissantes du travail cognitif.
Dans ce contexte, le travail humain devient à la fois une source de valeur et un point potentiel de friction juridique et éthique.
OpenAI entre silence et responsabilité
Un porte-parole d’OpenAI a refusé de commenter le rapport. Le silence n’éteint cependant pas le débat sur le droit d’auteur, la propriété intellectuelle et la transparence dans la construction des modèles d’intelligence artificielle.
Données de formation OpenAI et ligne de plus en plus fine
L’utilisation du travail réel comme données de formation montre à quel point la frontière entre l’apprentissage automatique et le travail humain devient de plus en plus mince. Même si cette stratégie promet des modèles plus précis et plus utiles, elle soulève de profondes questions sur le consentement, les droits et les responsabilités.
Un équilibre délicat qui, une fois de plus, présente à l’industrie de l’IA des choix qui vont bien au-delà de la technologie.
