ChatGPT 5.4 : vrai saut produit, ou benchmark packaging ?

📩 Pour nous contacter: redaction@fw.media

06/03/2026

5 minutes de lecture

OpenAI vient de rendre disponible une nouvelle génération de modèle baptisée GPT-5.4, décrite comme « notre modèle frontier le plus performant et le plus efficace pour le travail professionnel ». L’entreprise affirme avoir réuni dans une même architecture ses progrès récents en raisonnement, en programmation et en agents logiciels capables d’interagir avec des outils et des environnements informatiques.

Au-delà de l’annonce produit, la publication d’OpenAI repose sur un ensemble dense de benchmarks et d’évaluations censés démontrer un saut qualitatif par rapport aux générations précédentes. Reste à comprendre ce que ces chiffres disent réellement : témoignent-ils d’un changement technologique significatif ou participent-ils d’un exercice désormais classique de mise en scène de la performance des modèles d’intelligence artificielle ?

Un modèle conçu pour produire du travail

GPT 5.4 n’est pas présenté comme une simple amélioration conversationnelle mais comme un outil destiné à produire des livrables professionnels : tableurs financiers, présentations, analyses juridiques ou documents structurés.

Dans l’annonce officielle, l’entreprise résume l’objectif du modèle ainsi :

« GPT-5.4 rassemble le meilleur de nos avancées récentes en raisonnement, en programmation et en workflows agentiques au sein d’un modèle frontier unique. »

Autrement dit, la promesse repose sur la convergence de trois dimensions : la capacité de raisonnement, l’écriture de code et l’exécution de tâches via des outils logiciels.

Le benchmark GDPval, utilisé par OpenAI pour évaluer la production de livrables professionnels dans quarante-quatre métiers, est l’un des indicateurs mis en avant. GPT 5.4 y atteint 83 % de résultats gagnants ou équivalents à ceux de professionnels, contre 70,9 % pour GPT-5.2.

Pour Brendan Foody, CEO de Mercor :

« GPT-5.4 est le meilleur modèle que nous ayons testé jusqu’à présent. Il occupe désormais la première place de notre benchmark APEX-Agents, qui mesure la performance des modèles sur des tâches de services professionnels. »

Des progrès visibles dans l’usage d’outils et les workflows

L’un des domaines où les gains apparaissent les plus significatifs concerne l’utilisation d’outils et l’exécution de workflows complexes. OpenAI indique par exemple que GPT-5.4 obtient 75 % de réussite sur OSWorld-Verified, un benchmark mesurant la capacité d’un agent à opérer un environnement informatique via captures d’écran et actions clavier-souris. GPT-5.2 n’atteignait que 47,3 %. Sur BrowseComp, un test évaluant la recherche web multi-étapes, GPT-5.4 atteint 82,7 %, contre 65,8 % pour GPT-5.2.

Selon OpenAI :

« GPT-5.4 est plus performant pour la recherche web agentique. Il est capable de poursuivre la recherche sur plusieurs cycles afin d’identifier les sources les plus pertinentes. »

L’entreprise introduit également une fonctionnalité baptisée tool search, permettant au modèle d’identifier dynamiquement l’outil pertinent dans un large catalogue d’API sans charger toutes les définitions dans le contexte initial. Dans une évaluation menée sur le benchmark MCP Atlas, OpenAI indique que cette approche permettrait de réduire de 47 % le nombre de tokens utilisés sans perte de précision.

Des gains plus nuancés sur certains benchmarks techniques

Si certains indicateurs progressent nettement, les résultats apparaissent plus modérés dans d’autres domaines, notamment en programmation.

Sur SWE-Bench Pro, benchmark de référence pour l’évaluation des modèles sur des problèmes réels de développement logiciel, GPT-5.4 atteint 57,7 %, contre 56,8 % pour GPT-5.3-Codex et 55,6 % pour GPT-5.2. La progression existe, mais elle reste relativement limitée comparée aux gains observés dans les workflows agents ou la navigation web. Sur certains tests spécialisés, la génération précédente conserve même un léger avantage. Sur Terminal-Bench 2.0, GPT-5.3-Codex reste par exemple légèrement devant GPT-5.4.

Cette situation illustre une tendance observable depuis plusieurs générations de modèles : les nouveaux systèmes cherchent moins à dominer chaque benchmark isolé qu’à améliorer la polyvalence globale.

Une amélioration mesurée de la fiabilité

OpenAI affirme également avoir réduit le taux d’erreurs factuelles du modèle. Selon l’entreprise, sur un ensemble de prompts anonymisés où des utilisateurs avaient signalé des erreurs :

« Les affirmations individuelles générées par GPT-5.4 ont 33 % de chances en moins d’être fausses, et ses réponses complètes ont 18 % de chances en moins de contenir des erreurs. »

Si ces chiffres suggèrent une progression, l’annonce ne précise pas le taux d’erreur absolu ni la composition détaillée du corpus utilisé.

A qui s’adresse cette nouvelle génération de modèle

GPT-5.4 vise explicitement pour l’entreprise, OpenAI le décrit comme un modèle « conçu pour le travail professionnel », capable de produire des livrables comparables à ceux d’un analyste ou d’un consultant junior.

Trois catégories d’utilisateurs apparaissent dans la stratégie de diffusion.

La première concerne les métiers du conseil, de la finance, du droit ou de la stratégie. Les exemples utilisés dans les évaluations (modèles financiers, contrats juridiques ou présentations) correspondent précisément à ces usages.

La seconde cible est celle des développeurs. GPT-5.4 est déployé dans l’API et dans Codex avec plusieurs fonctionnalités destinées à la construction d’agents logiciels capables d’utiliser des outils externes, d’automatiser des workflows ou d’interagir avec des interfaces logicielles.

Enfin, OpenAI vise explicitement les organisations. GPT-5.4 est accessible dans les offres Team, Enterprise et Edu, avec des intégrations prévues dans des outils de productivité comme Excel.

Modalités d’accès et positionnement tarifaire

GPT-5.4 est distribué selon plusieurs options. Dans ChatGPT, il apparaît sous la forme GPT-5.4 Thinking, accessible aux abonnés ChatGPT Plus, Team et Pro. Une version plus performante, GPT-5.4 Pro, est réservée aux abonnements Pro et Enterprise. Le modèle remplace progressivement GPT-5.2 Thinking, qui restera accessible pendant quelques mois dans la section « Legacy Models ».

Pour les développeurs, GPT-5.4 est disponible dans l’API sous les identifiants gpt-5.4 et gpt-5.4-pro.

L’annonce s’accompagne également d’une hausse tarifaire. Dans l’API, le prix d’entrée passe de 1,75 dollar à 2,50 dollars par million de tokens, tandis que le prix de sortie atteint 15 dollars, contre 14 dollars pour GPT-5.2. OpenAI justifie cette augmentation par une meilleure efficacité du modèle, qui utiliserait moins de tokens pour résoudre une tâche donnée.

Une concurrence désormais structurée

Le lancement de GPT-5.4 intervient dans un marché où plusieurs acteurs majeurs se disputent désormais le leadership des modèles d’IA.

Anthropic s’est imposé comme l’un des concurrents les plus crédibles avec la famille Claude, réputée pour ses capacités d’analyse de documents longs et son approche orientée sécurité.

Google développe de son côté Gemini, intégré dans l’écosystème Google Workspace. L’avantage de cette approche réside dans l’accès direct aux outils de productivité (Gmail, Docs ou Sheets) et à l’infrastructure de recherche du groupe.

Microsoft poursuit une stratégie différente avec Copilot, intégré directement dans la suite Office et dans les outils de développement comme GitHub. L’IA n’y apparaît plus comme une application autonome mais comme une fonctionnalité native du logiciel utilisé.

Face à ces concurrents, ChatGPT conserve plusieurs atouts : une large base d’utilisateurs, une API très adoptée par les développeurs et un modèle polyvalent capable de couvrir un grand nombre d’usages. Mais la compétition se joue désormais moins sur la performance brute des modèles que sur leur intégration dans les environnements de travail.

Entre progrès réel et narration technologique

L’annonce de GPT-5.4 illustre ainsi l’ambiguïté récurrente des lancements de modèles d’IA.

Les progrès mesurés, notamment dans l’usage d’outils, la navigation web et l’exécution de tâches complexes, apparaissent réels. Dans le même temps, la présentation des performances repose sur un ensemble de benchmarks dont la lecture reste partielle sans accès aux protocoles complets.

Dans ce contexte, GPT-5.4 semble moins marquer une rupture spectaculaire qu’une étape supplémentaire dans l’intégration progressive des modèles de langage au cœur des usages professionnels.

À propos
Articles récents

LA REDACTION DE FW.MEDIA

Pour nous contacter, nous vous avons préparé un petit formulaire pour bien gérer votre demande et pouvoir l'adresser en toute confidentialité. Cliquez ici pour y accéder

Les derniers articles par LA REDACTION DE FW.MEDIA (tout voir)