Après Moshi, Kyutai lance Unmute, la voix libre des IA

📩 Pour nous contacter: redaction@frenchweb.fr

30/05/2025

Le laboratoire d’intelligence artificielle Kyutai, fondé en 2023 par Iliad, CMA CGM et Schmidt Sciences, vient de présenter Unmute, une technologie visant à doter les grands modèles de langage d’une voix et d’une oreille. Derrière cette innovation, l’ambition de transformer les interactions avec les IA en échanges vocaux fluides, sans latence ni rigidité, tout en s’inscrivant dans une logique d’ouverture.

TL;DR ce qu’il faut savoir sur Unmute de Kyutai

👥 Pour qui est-ce important ?

Chercheurs et ingénieurs en IA vocale et multimodale
Startups et éditeurs européens intégrant des assistants IA
Institutions publiques recherchant des alternatives souveraines
Développeurs open source et intégrateurs de modèles de langage
Directions techniques explorant des briques modulaires vocales

💡 Pourquoi c’est stratégique ?

Ajoute des capacités vocales à tout LLM via un système modulaire
Réduction forte de la latence grâce à la synthèse anticipée
Positionnement en alternative ouverte aux solutions d’OpenAI, Google ou Baidu
Technologie publiée en open source pour favoriser l’adoption en Europe
Outil interopérable, hors infrastructure propriétaire, utilisable à l’échelle

🔧 Ce que ça change concrètement

Interaction vocale sans délai perceptible, plus naturelle
Voix configurables à partir d’échantillons courts, sans entraînement lourd
Personnalisation comportementale par simple prompt textuel
Déploiement possible sur des systèmes existants, sans dépendance cloud
Technologie testable immédiatement, publication du code imminente

Unmute repose sur une architecture modulaire articulée autour de deux briques, un module de transcription vocale temps réel doté d’un détecteur sémantique de fin de parole, et une synthèse vocale proactive, capable de commencer à parler avant même que la réponse textuelle ne soit finalisée. L’interaction gagne ainsi en continuité, sans les ruptures classiques liées aux systèmes de tours de parole ou aux délais de traitement.

L’outil permet de configurer une voix en quelques secondes d’échantillons audio et de piloter la personnalité de l’agent par prompt textuel. Il est pensé pour s’adapter à tous les cas d’usage, du support client à l’assistance embarquée, en passant par les outils de formation ou de création.

Kyutai positionne Unmute comme une alternative libre aux solutions propriétaires proposées par les acteurs dominants. Ces derniers ont considérablement accéléré le développement de leurs offres vocales au cours des douze derniers mois. OpenAI vient d’annoncer une version avancée de ChatGPT intégrant un mode vocal temps réel, basé sur Whisper (STT) et un moteur TTS génératif propriétaire, capable d’émuler les intonations et les émotions humaines. La démonstration publiée montre des dialogues continus avec moins de 300 ms de latence, couplés à une capacité de détection des silences et des interruptions proche de la conversation humaine.

Google poursuit de son côté l’intégration de Gemini dans l’écosystème Android, avec des fonctions vocales disponibles en local sur certains appareils, visant une autonomie hors connexion. DeepMind a publié fin avril un ensemble de benchmarks sur ses systèmes vocaux, montrant des performances proches de l’humain en vitesse de réponse, prosodie et compréhension du contexte.

Meta, via son projet Voicebox, explore des modèles TTS multitâches capables de reproduire une voix à partir de quelques secondes d’audio, avec des applications encore limitées à la recherche pour des raisons de sécurité. Amazon, de son côté, continue d’intégrer Alexa à des modèles de génération plus puissants, avec un accent mis sur l’historicisation du contexte utilisateur.

Du coté des acteurs chinois, Baidu et iFlytek renforcent leurs capacités d’assistants vocaux multimodaux sur mobile, souvent embarqués nativement dans les OS, avec une logique d’intégration complète entre reconnaissance, génération et synthèse, parfois couplée à des moteurs de recommandation propriétaires.

Dans ce contexte, la proposition de Kyutai diffère moins par ses performances, encore peu documentées, que par son choix stratégique d’un système modulaire, interopérable, et publié en open source. Comme pour Moshi ou Hibiki, l’objectif est de permettre à des développeurs, chercheurs ou entreprises européennes de s’approprier la technologie sans dépendance à des APIs ou infrastructures fermées. La version testable d’Unmute est d’ores et déjà en ligne sur unmute.sh, en attendant une publication complète du code source dans les semaines à venir.

Cette approche s’inscrit dans une logique de souveraineté technologique européenne, alors que la majorité des briques vocales de référence sont aujourd’hui américaines ou chinoises. Mais l’open source ne garantit pas l’adoption, la réussite d’Unmute dépendra de sa capacité à s’intégrer facilement aux usages industriels, à démontrer des performances équivalentes aux standards propriétaires, et à mobiliser une communauté de contributeurs capables de le maintenir et l’améliorer.

Depuis sa création, Kyutai a publié plusieurs modèles notables, Moshi, Hibiki, Mimi, Helium, MoshiVis, avec un effectif limité à une vingtaine de personnes.

À propos
Articles récents

LA REDACTION DE FRENCHWEB.FR

Pour nous contacter, nous vous avons préparé un petit formulaire pour bien gérer votre demande et pouvoir l'adresser en toute confidentialité. Cliquez ici pour y accéder

Les derniers articles par LA REDACTION DE FRENCHWEB.FR (tout voir)

TL;DR ce qu’il faut savoir sur Unmute de Kyutai

👥 Pour qui est-ce important ?

💡 Pourquoi c’est stratégique ?

🔧 Ce que ça change concrètement

Comment les fintechs redéfinissent-elles le financement des TPE et PME ?

Pourquoi Ventech et Vendep misent 11,2 millions d’euros sur l’IA d’Inven ?