OpenAI lance une nouvelle API vocale avec traduction et transcription en temps réel

OpenAI lance une nouvelle API vocale avec traduction et transcription en temps réel

OpenAI accélère sur le front des interfaces vocales et introduit une nouvelle génération d’outils conçus pour rendre les conversations entre utilisateurs et applications beaucoup plus naturelles, continues et opérationnelles.

La société a annoncé une série de nouvelles fonctionnalités au sein de son API Realtime, dans le but de permettre aux développeurs de créer des applications capables de parler, comprendre, traduire et transcrire des conversations en temps réel.

Au cœur du lancement se trouvent trois nouvelles fonctionnalités : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper.

GPT-Realtime-2 apporte du raisonnement aux conversations vocales

Le nouveau GPT-Realtime-2 représente l’évolution du précédent modèle vocal GPT-Realtime-1.5, mais introduit une différence substantielle : l’intégration de capacités de raisonnement basées sur des modèles de classe GPT-5.

Selon OpenAI, le système a été conçu pour traiter des demandes plus complexes et maintenir des conversations détaillées de manière plus cohérente que la génération précédente.

Le but n’est pas seulement de simuler une voix réaliste. Le modèle vise à transformer l’interaction vocale en une interface capable de comprendre le contexte, de prendre des décisions et d’accompagner l’utilisateur lors de tâches complexes.

Des réponses vocales aux assistants qui « agissent »

En présentant le lancement, OpenAI a expliqué que les nouvelles fonctionnalités visent à surmonter le schéma traditionnel « question-réponse » typique des assistants vocaux.

L’idée est de construire des systèmes capables d’écouter, de raisonner, de traduire, de transcrire et même d’effectuer des actions pendant que la conversation est toujours en cours.

Une étape qui pourrait avoir des conséquences importantes notamment sur le service client, la productivité des entreprises et les plateformes dédiées à la formation ou aux créateurs.

LIRE AUSSI : OpenAI lance GPT-5.5 et introduit des agents IA autonomes

Traductions simultanées dans plus de 70 langues

Parmi les innovations les plus pertinentes, il y a aussi GPT-Realtime-Translate, le nouveau système de traduction simultanée conçu pour fonctionner directement pendant une conversation.

La fonctionnalité prend en charge plus de 70 langues d’entrée et 13 langues de sortie, permettant aux utilisateurs de parler dans leur langue maternelle et de recevoir des traductions vocales en temps quasi réel.

Selon l’entreprise, le système a été développé pour maintenir le rythme de la conversation sans interrompre le flux naturel du dialogue.

Un impact possible sur les événements, les médias et le support client

Les applications pratiques pourraient être nombreuses. OpenAI cite explicitement le service client, l’éducation, les médias, l’événementiel et l’économie des créateurs parmi les secteurs qui pourraient le plus bénéficier des nouvelles API vocales.

À l’avenir, des outils comme celui-ci pourraient réduire considérablement les barrières linguistiques lors des appels internationaux, de la diffusion en direct, des webinaires ou du support client mondial.

À LIRE AUSSI : Loi IA et Formation Obligatoire : pourquoi votre entreprise doit s’adapter (et comment le faire immédiatement)

La transcription en direct arrive également avec GPT-Realtime-Whisper

La troisième nouvelle fonctionnalité annoncée est GPT-Realtime-Whisper, un système de synthèse vocale conçu pour transcrire les conversations vocales au fur et à mesure qu’elles se produisent.

Contrairement aux systèmes de transcription de post-production traditionnels, le nouveau modèle fonctionne en direct, capturant les mots au fur et à mesure de leurs interactions.

Une technologie qui pourrait trouver sa place dans les réunions d’entreprise, les plateformes collaboratives, les outils d’accessibilité et les logiciels dédiés à la documentation automatique des conversations.

GPT-Realtime-Whisper

OpenAI tente d’anticiper les abus

Cependant, l’expansion des capacités vocales de l’IA continue de soulever des questions concernant le spam, les escroqueries en ligne et l’usurpation d’identité vocale.

OpenAI affirme avoir introduit plusieurs systèmes de protection pour limiter une éventuelle utilisation abusive des nouvelles fonctionnalités.

Selon l’entreprise, certains déclencheurs internes lui permettent d’interrompre automatiquement les conversations qui violent ses politiques sur les contenus préjudiciables ou qui démontrent un comportement imputable à la fraude et aux abus numériques.

Combien coûtent les nouvelles fonctionnalités vocales

Tous les nouveaux modèles sont déjà inclus dans l’API Realtime d’OpenAI.

Les fonctionnalités Translate et Whisper sont facturées à la minute, tandis que GPT-Realtime-2 utilise un modèle basé sur la consommation de jetons, suivant la structure déjà adoptée pour d’autres systèmes de la plateforme.

Ce lancement confirme la stratégie d’OpenAI visant à s’orienter de plus en plus vers des interfaces d’IA multimodales et conversationnelles, à un moment où la concurrence dans le secteur des assistants vocaux avancés s’intensifie rapidement.