OpenAI a dévoilé lundi une série d’améliorations majeures pour son mode voix avancé, marquant une nouvelle étape dans la transformation de ChatGPT en interlocuteur à part entière. Derrière une mise à jour apparemment technique — réduction des interruptions et ajustement de la personnalité vocale — se dessine un tournant plus significatif : l’entrée de l’IA dans une logique de mise en scène conversationnelle.

Une voix moins intrusive, plus incarnée

Jusqu’à présent, les assistants vocaux basés sur l’intelligence artificielle avaient un défaut bien identifié : leur tendance à couper la parole, déclenchée à la moindre pause ou respiration de l’utilisateur. Avec cette nouvelle version, OpenAI corrige le tir. L’IA apprend à attendre, à respirer, à suspendre son intervention. Bref, elle adopte les codes de la parole humaine.

Mais la mise à jour va au-delà du simple ajustement de latence. Les abonnés payants — utilisateurs des formules Plus, Teams, Business, Edu et Pro — bénéficient désormais d’un assistant qui se veut plus direct, plus engageant, plus concis, plus spécifique et plus créatif, selon un porte-parole d’OpenAI interrogé par TechCrunch. Le ton s’affine, la répartie s’équilibre, la voix devient performative.

De la commande vocale à l’interlocuteur scénarisé

Le mode voix n’est plus un simple outil de dictée vocale, mais un dispositif de co-présence. OpenAI semble s’inspirer des dynamiques des talk-shows ou des podcasts, où l’équilibre entre écoute, relance et tonalité crée une forme d’adhésion émotionnelle. À travers ces ajustements, l’assistant IA ne répond plus seulement à une commande, il co-construit une séquence narrative.

Le glissement est subtil mais suffisamment important pour qu’on l’évoque dans les colonnes de Frenchweb: alors que la majorité des assistants vocaux peinent à dépasser le stade de l’interface utilitaire, ChatGPT tente de se transformer comme une présence intelligible, incarnée, captivante.

Une riposte directe à la montée de la concurrence

Cette annonce intervient dans un contexte de pression croissante sur le marché des assistants vocaux basés sur les LLM. La startup Sesame, soutenue par Andreessen Horowitz et fondée par l’ex-cofondateur d’Oculus, Brendan Iribe, a récemment créé l’événement avec ses voix Maya et Miles, saluées pour leur naturel bluffant. De son côté, Amazon prépare une nouvelle version d’Alexa dotée de capacités génératives étendues.

Face à cette dynamique, OpenAI ne cherche pas seulement à améliorer la performance de son système, mais à installer une grammaire de la relation, où la voix ne se limite plus à transmettre une réponse, mais incarne une posture.