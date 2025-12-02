Pendant des années, le secteur de l’IA vocale s’est concentré sur la capacité à produire des voix crédibles, capables d’imiter les nuances humaines avec suffisamment de réalisme pour du doublage, des contenus marketing ou des assistants vocaux scénarisés. Cette première génération a été marquée par un progrès rapide, jusqu’à atteindre une homogénéité de qualité qui rend aujourd’hui ces modèles interchangeables sur une grande partie des usages. Produire une belle voix ne constitue plus un avantage compétitif. Le marché bascule vers la capacité de la voix à devenir une interface conversationnelle complète.

L’IA vocale ne peut plus se limiter à générer une voix réaliste, elle doit désormais converser, réagir à l’imprévu et s’adapter au rythme d’un échange humain. C’est exactement sur ce terrain que Gradium veut bâtir son offre et la startup s’appuie pour cela sur les travaux menés au sein du laboratoire Kyutai, notamment autour du modèle Moshi, qui rompt avec la chaîne classique « speech-to-text puis text-to-speech ». Au lieu de passer par une transcription intermédiaire, Moshi adopte une architecture speech-to-speech directe, conçue pour réduire la latence et permettre une interaction plus naturelle et continue.

Cette approche permet une interaction plus naturelle et évite les délais inhérents aux pipelines classiques. Elle ouvre également la voie à des dialogues où la voix, l’écoute et la compréhension fonctionnent simultanément, ce qui devient indispensable dans la prochaine génération d’agents IA.

Gradium parie sur cette contrainte structurante pour différencier son offre, en intégrant le multilinguisme dès le début. La startup entre toutefois sur un échiquier où s’affairent différent acteurs très capitalisés. ElevenLabs, déjà bien implantée dans le doublage et la création vocale, a levé 287 millions de dollars. Cartesia et Deepgram, financés à hauteur de 86 millions de dollars chacun, se positionnent sur la multimodalité audio et l’IA conversationnelle avancée. Ces acteurs bénéficient d’un avantage économique massif, de données à grande échelle et d’une avance commerciale significative. La stratégie de Gradium consiste à contourner cette compétition frontale en se spécialisant sur un segment encore insuffisamment adressé, à savoir la voix temps réel et la synchronisation fine avec des agents IA.

Ce positionnement soulève néanmoins plusieurs enjeux pour l’écosystème européen. Tout d’abord la capacité à maintenir un avantage multilingue reste incertaine face à des modèles américains alimentés par des volumes de données bien supérieurs. Mais aussi l’intégration de la voix dans des systèmes multimodaux pilotés par des LLM de grande taille nécessite une infrastructure considérable, que peu d’acteurs européens possèdent. Et enfin il existe enfin le risque structurel de voir les startups européennes devenir des briques techniques intégrées dans des plateformes étrangères plus larges, sans maîtriser la couche applicative ni la relation client.

Fondée en septembre 2025 par Neil Zeghidour, ancien chercheur chez Google DeepMind et Meta et membre fondateur de Kyutai, Gradium réunit une équipe issue du laboratoire parisien, dont Laurent Mazaré, Alexandre Défossez et Olivier Teboul. La startup annonce aujourd’hui une levée de 60 millions d’euros auprès de FirstMark Capital, Eurazeo, DST Global Partners, Amplify Partners, ainsi que Xavier Niel, Eric Schmidt et Rodolphe Saadé. Elle prévoit d’adresser des usages tels que l’interprétariat en temps réel, les jeux vidéo, les transcriptions médicales, les sondages automatisés et l’éducation linguistique, en misant sur une IA vocale capable de soutenir une conversation naturelle et multilingue.