AI FIRSTTRENDS

AI: Connaissez-vous les Joint Embedding Predictive Architectures (JEPA) et les World Models ?

📩 Pour nous contacter: redaction@fw.media

Depuis deux ans, les modèles de langage dominent l’actualité technologique, ont transformé les usages, bouleversé l’industrie et installé l’idée qu’une nouvelle ère logicielle venait de s’ouvrir. Pourtant, derrière cette vague spectaculaire, un autre mouvement prend forme dans la recherche mondiale, potentiellement plus déterminant.

Il repose sur l’idée que, pour que l’intelligence artificielle progresse réellement, celle-ci doit dépasser le texte et apprendre à comprendre le monde. C’est précisément le rôle des Joint Embedding Predictive Architectures (JEPA) et des World Models, deux approches défendues notamment par Yann LeCun, futur ex responsable scientifique de l’IA chez Meta.

Ainsi la limite des modèles actuels serait désormais bien identifiée. Un LLM, aussi performant soit-il, n’apprend qu’à prédire le mot suivant et n’a ni mémoire structurelle du monde, ni représentation interne des objets, ni compréhension des dynamiques physiques élémentaires. Lorsqu’il décrit un mouvement, il ne mobilise aucune intuition mécanique et lorsqu’il répond à une question complexe, il ne s’appuie sur aucune modélisation causale. Il manipule simplement des corrélations linguistiques, et non des lois du réel. Cette architecture le condamne à demeurer un système réactif, sans doute brillant dans la production de texte, mais incapable de planifier, d’anticiper ou de raisonner de manière robuste.

Les JEPA introduisent une rupture conceptuelle dans le domaine. Leur objectif n’est plus de reconstruire une image, une phrase ou un segment de données, mais de prédire, dans un espace latent, la représentation de l’état futur d’une scène. La machine ne cherche ainsi plus à imiter exactement son entrée mais à anticiper ce qui va se passer. Cette différence, apparemment subtile, modifie en profondeur la nature de l’apprentissage, car au lieu de reproduire des détails visuels ou linguistiques, l’architecture apprend à identifier les éléments stables, les régularités, les lois implicites qui structurent une situation.

Les World Models, quant à eux, prolongent cette logique en construisant un véritable “simulateur interne” du réel. L’IA n’agit plus comme un système réflexe mais opère comme un agent doté d’une représentation cohérente du monde. Elle peut ainsi imaginer plusieurs scénarios, comparer leurs conséquences et choisir la séquence d’actions la plus pertinente. Cette capacité d’anticipation, qui est au cœur du comportement humain, constitue aujourd’hui l’une des limites les plus visibles de l’IA générative que les World Models visent précisément à la combler.

Cette transition ne relève pas de la théorie et répond à un constat empirique, souvent rappelé par Yann LeCun : un enfant de quatre ans, sans textes ni explications, accumule davantage d’informations sur le monde qu’un LLM entraîné sur la totalité d’Internet. Et surtout, il apprend en observant les effets de ses actions. C’est cette boucle perception–action–correction, qui structure le développement cognitif humain. Absente des modèles actuels de LLM, elle est par contre au centre des JEPA et des architectures prédictives.

L’enjeu dépasse largement le cadre académique, et les applications industrielles sont concrètes. Dans la robotique, seul un système capable de prédire les conséquences de ses mouvements peut manipuler des objets de manière fiable. Dans la logistique, l’anticipation des perturbations devient une condition de performance. Dans l’énergie, la modélisation des matériaux et des réactions chimiques nécessite une compréhension fine des dynamiques microscopiques. Dans les logiciels d’entreprise, la planification sur plusieurs étapes deviendra un prérequis pour toutes les tâches complexes. Tout ce que les LLM font aujourd’hui par approximation linguistique, devra être recréé sur des mécanismes de prédiction et de simulation.

Les JEPA et les World Models ne doivent donc pas être considérés comme une optimisation marginale du deep learning, mais comme un changement de paradigme avec l’ambition de construire des systèmes capables de raisonner, de comprendre les mécanismes du monde physique et d’agir dans des environnements ouverts. Ils incarnent le passage d’une IA qui parle à une IA qui pense, du moins au sens opérationnel du terme. C’est le pari engagé par Yann LeCun mais aussi Jeff Bezos et sa nouvelle startup Prometheus.

Suivez nous:
Bouton retour en haut de la page