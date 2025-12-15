Alors que l’attention médiatique se porte sur les performances des modèles de fondation, de plus en plus de startups se concentrent sur la question de l’inférence, à savoir l’exécution concrète des modèles en production, à grande échelle, dans des applications utilisées quotidiennement par des entreprises et des millions d’utilisateurs, et bien entendu son coût.

A mesure que les modèles se stabilisent et se standardisent, la valeur se déplace vers leur exploitation opérationnelle. Pour les entreprises, le sujet n’est plus seulement de savoir ce qu’un modèle peut faire, mais combien coûte chaque requête, à quelle vitesse elle s’exécute et dans quelles conditions elle peut être intégrée à des produits existants.

Une spécialisation dans la génération de médias

Runware se positionne comme une plateforme d’inférence spécialisée dans les médias génératifs. Images, contenus créatifs, usages marketing ou sociaux. Face aux hyperscalers qui proposent des solutions généralistes, la startup britannique revendique une approche construite autour des contraintes spécifiques de la génération de médias. Elle offre aux développeurs une API unique pour intégrer des capacités de génération de contenus visuels, sans avoir à gérer les modèles graphiques ni l’infrastructure de calcul correspondante.

Cette approche API-first s’appuie sur un moteur d’inférence propriétaire, conçu pour optimiser à la fois la performance et les coûts. Un arbitrage économique désormais central alors que l’inférence représente le principal poste de dépense des applications d’IA. La génération de médias impose des exigences élevées en matière de latence et de stabilité, peu compatibles avec des architectures trop génériques ou insuffisamment optimisées.

Des clients établis et une adoption rapide

Depuis son lancement en 2023, Runware compte parmi ses clients des plateformes de contenus et de création établies comme Wix ou Quora, ainsi que des acteurs plus spécialisés dans la création assistée par IA. Selon Citi Research, le volume de tokens traités lors des phases d’entraînement et surtout d’inférence pourrait être multiplié par plus de 400 au cours des cinq prochaines années. Une croissance tirée moins par la recherche que par la multiplication des usages concrets. La génération de médias figure parmi les principaux moteurs de cette explosion, tant pour les plateformes de contenus que pour les outils marketing et créatifs.

Un champ concurrentiel qui se densifie

Le champ concurrentiel de l’inférence se structure rapidement autour de plusieurs profils d’acteurs, aux positionnements distincts mais partiellement convergents.

Fireworks AI s’impose comme l’un des acteurs les plus visibles sur l’inférence haute performance, avec une promesse centrée sur la vitesse d’exécution et l’optimisation des coûts pour des modèles de fondation open source et propriétaires.

Together AI occupe une position intermédiaire entre recherche et production. Très présente dans l’écosystème open source, la société propose une infrastructure d’entraînement et d’inférence mutualisée, en s’appuyant sur des partenariats matériels et une forte proximité avec les communautés de chercheurs. Son approche reste cependant plus généraliste, moins spécialisée sur des usages précis comme la génération de médias.

Modal adopte une logique différente, davantage orientée vers l’orchestration et l’exécution de workloads IA complexes. La plateforme s’adresse à des équipes techniques avancées, capables de composer leurs propres pipelines d’inférence, mais elle suppose une maîtrise plus fine de l’architecture sous-jacente.

Baseten, de son côté, cible explicitement la mise en production de modèles avec des exigences élevées en matière de performance et de fiabilité. Là encore, le positionnement reste large, couvrant plusieurs types de modèles et d’usages.

Enfin, les hyperscalers demeurent des concurrents structurels. AWS, Google Cloud et Microsoft Azure proposent des services d’inférence intégrés, puissants et profondément interconnectés à leurs écosystèmes cloud. Leur force réside dans la profondeur d’infrastructure, mais cette généralisation peut devenir un frein pour des cas d’usage spécifiques comme la génération de médias, où les arbitrages économiques et la latence nécessitent des optimisations plus pointues.

Runware a été créée en 2023 par Flaviu R. et Ioana Hreninciuc, et vient de lever 50 millions de dollars en série A, soit environ 42,5 millions d’euros, lors d’un tour mené par Dawn Capital, avec la participation de Speedinvest et Comcast Ventures, ainsi que d’investisseurs existants parmi lesquels Insight Partners, a16z speedrun, Zero Prime Ventures et Begin Capital.