COMPUTECOMPUTE POWERIN THE LOOPLES LEVEES DE FONDSTHE PROMPTUK

FRACTILE lève 187 millions d’euros pour développer les puces destinées aux futurs agents IA

📩 Pour nous contacter: redaction@fw.media

Alors que la course à l’intelligence artificielle se concentre sur l’entraînement des modèles, et à mesure que les modèles gagnent en capacités, un autre problème émerge, leur exécution.

C’est sur cette couche critique que se positionne Fractile, une startup britannique qui annonce une levée de 220 millions de dollars, soit environ 187 millions d’euros. L’opération est menée par Accel, Factorial Funds et Founders Fund, avec la participation de Conviction, Felicis, 8VC, Gigascale, O1A et Buckley Ventures.

Fondée en 2022, la startup développe des architectures matérielles destinées à accélérer l’inférence des modèles frontier. Autrement dit, la phase durant laquelle les modèles produisent effectivement des résultats. Un sujet longtemps secondaire face à l’entraînement, mais devenu central avec l’émergence des modèles de raisonnement et des futurs agents autonomes.

La thèse de Fractile repose sur une idée simple, les modèles les plus avancés ne seront bientôt plus limités par leurs capacités théoriques, mais par le temps nécessaire pour exécuter leurs chaînes de raisonnement.

« Nous avons parié sur le fait que les systèmes d’IA les plus avancés finiraient par être limités dans leur impact par le temps nécessaire pour produire des résultats utiles », explique un représentant de la startup  « La seule manière de réellement libérer cette valeur latente était de réinventer radicalement le hardware sur lequel fonctionnent les modèles frontier. »

Cette évolution transforme progressivement l’économie du secteur. Chaque requête adressée à un modèle d’IA consomme des ressources de calcul. Et plus les modèles deviennent complexes, plus les coûts d’inférence augmentent. Les nouveaux systèmes de raisonnement génèrent désormais des séquences de traitement longues, parfois sur plusieurs dizaines de millions de tokens.

Fractile estime que certains modèles produisent déjà jusqu’à 100 millions de tokens pour résoudre des problèmes complexes. À des vitesses d’exécution proches de 40 tokens par seconde sur les architectures actuelles, un tel traitement peut nécessiter près d’un mois de calcul continu.

Pour la société, cette contrainte dépasse largement le simple enjeu de performance. « L’inférence est à la fois le moteur de revenus de l’industrie de l’IA et le principal facteur limitant son expansion »

Fractile établit un parallèle avec les systèmes développés par DeepMind pour AlphaGo. Le système ne reposait pas uniquement sur un réseau neuronal produisant une réponse immédiate, mais sur une succession d’inférences permettant d’explorer différents scénarios avant chaque décision.

Selon la startup britannique, les grands modèles de langage évoluent désormais dans cette direction. « Les travaux intellectuels complexes impliquent de nombreuses étapes séquentielles, chacune dépendante de la précédente », explique la société, qui voit dans les modèles de reasoning une première étape vers des systèmes capables de maintenir des chaînes d’analyse longues et structurées.

Le principal verrou technique identifié par Fractile concerne la bande passante mémoire. La société considère que les architectures actuelles ne progressent pas suffisamment vite pour absorber l’augmentation des besoins liés aux contextes longs et aux modèles de raisonnement.

« Pour compresser ce mois de calcul en une journée, il faudrait atteindre environ 1 200 tokens par seconde tout en gérant la complexité et les contraintes de capacité des grands modèles opérant sur des contextes très longs », précise l’entreprise.

Pour répondre à cette problématique, Fractile travaille sur l’ensemble de la chaîne technologique : microarchitecture, conception système, procédés de fabrication et optimisation matérielle. Une approche verticale qui rapproche la société d’acteurs comme Cerebras Systems ou Groq.

Cette bataille autour de l’inférence est devenue l’un des principaux fronts industriels de l’IA. Plusieurs groupes cherchent à réduire leur dépendance aux architectures GPU traditionnelles dominées par NVIDIA. AMD, Google, Amazon Web Services et Intel accélèrent leurs investissements dans les accélérateurs IA, tandis que des startups comme SambaNova Systems, Etched, Tenstorrent ou d-Matrix cherchent à développer des architectures spécialisées pour les charges de travail liées au reasoning et aux agents IA.

L’Europe tente également de préserver une présence sur cette couche stratégique des infrastructures. En France, SiPearl développe des processeurs destinés aux supercalculateurs européens, tandis que Kalray travaille sur des architectures de traitement parallèles adaptées aux flux massifs de données et aux usages IA. Scaleway et Mistral AI participent également à l’émergence d’une infrastructure européenne de calcul et d’inférence. Au Royaume-Uni, Graphcore demeure l’un des principaux précédents industriels sur ce segment malgré des difficultés commerciales face à NVIDIA.

Fractile estime toutefois que l’enjeu dépasse les usages actuels de l’IA générative. « Les workloads qui repoussent aujourd’hui les limites du frontier sont déjà transformationnels. Ceux qui se situent au-delà de cette frontière redéfiniront l’ensemble de l’économie », affirme la société.

L’entreprise recrute actuellement à Londres, Bristol, San Francisco et Taipei.

Bouton retour en haut de la page