LLM : nécessaires, mais plus suffisants .Vers des IA qui apprennent dans des mondes 3D et le monde physique
LLM : nécessaires, mais plus suffisants .Vers des IA qui apprennent dans des mondes 3D et le monde physique
Les grands modèles de langage (Large Language Models, ou LLM) ont suscité un enthousiasme considérable ces dernières années. Ils excellent à comprendre et générer du texte, et sont devenus des outils indispensables pour de nombreuses applications. Cependant, comme l’a souligné Yann LeCun (l’un des pionniers de l’IA), « on n’atteindra jamais l’intelligence de niveau humain juste en entraînant sur du texte ». Autrement dit, si les LLM sont nécessaires, ils ne sont plus suffisants pour atteindre une intelligence artificielle capable de véritable compréhension du monde réel. Dans cet article, nous explorerons pourquoi les LLM montrent leurs limites dès qu’il s’agit de raisonnement physique et d’interaction concrète, et comment les chercheurs se tournent vers des modèles ancrés dans des mondes 3D virtuels et le monde physique pour dépasser ces limites.
Les limites des LLM face au monde physique
Un LLM apprend principalement en ingérant des quantités massives de texte. Il peut vous expliquer la théorie de la gravité ou raconter ce qui se passe si l’on laisse tomber une pomme, car il a lu ces informations. Mais il ne possède pas pour autant de modèle intrinsèque de la physique. Par exemple, GPT-4 sait d’après ses données d’entraînement qu’un objet lâché tombe vers le sol, et peut même écrire un programme simulant la chute d’une pomme. Cependant, il n’a jamais vu réellement une pomme tomber ni ressenti les lois de la gravité dans un corps virtuel. Il manque d’une compréhension incarnée de concepts comme la pesanteur, le volume ou l’équilibre.
Cette distinction est cruciale. Lorsque nous, humains, attrapons une balle au vol, nous ne résolvons pas des équations de physique en temps réel. Nous utilisons un modèle mental intuitif de la façon dont le monde fonctionne – nous anticipons la trajectoire de la balle en fonction de sa vitesse, de son effet, de la gravité, etc. Notre intelligence s’est formée par une interaction directe avec le monde physique, en manipulant des objets, en observant des causes et effets. En revanche, un LLM n’a jamais eu ces expériences sensori-motrices : il ne fait que manipuler des symboles (des mots) qui décrivent indirectement le monde.
En conséquence, les LLM peuvent échouer sur des tâches de raisonnement physique ou d’exécution concrète. Par exemple, demander à un modèle purement linguistique comment organiser des objets sur une étagère ou comment assembler un meuble peut donner des réponses plausibles en apparence, mais souvent incorrectes ou impraticables. Le modèle n’a pas la capacité de mentalement « essayer » l’action dans un espace physique. Il lui manque une forme de bon sens physique et d’expérimentation que même un enfant acquiert en jouant dans le monde réel.
Des modèles du monde : au-delà du texte, la simulation de la réalité
Pour combler ces lacunes, la prochaine étape est de doter l’IA d’un modèle du monde. Un modèle du monde est une IA qui construit une représentation interne prédictive de son environnement. Plutôt que d’apprendre uniquement à prédire le prochain mot, elle apprend à prédire le prochain état d’un environnement physique donné une situation initiale. En d’autres termes, elle apprend les règles causales et dynamiques qui gouvernent un univers, un peu comme un simulateur interne.
Le concept n’est pas nouveau : des chercheurs en robotique et en apprentissage par renforcement parlent depuis longtemps de doter les agents d’un « modèle interne » avec lequel ils peuvent imaginer des scénarios, anticiper les conséquences de leurs actions, et planifier. La différence aujourd’hui, c’est l’émergence de foundation models orientés monde physique, parfois appelés World Models ou World Foundation Models. Ces modèles apprennent non plus à partir de textes, mais à partir de données sensorielles issues du monde (par exemple des vidéos, des images en séquence, des données de robots, etc.). Leur objectif est d’acquérir une compréhension intuitive de la physique du monde réel, de maîtriser les relations de cause à effet et la dynamique spatio-temporelle des objets.
Une fois entraînée, une telle IA peut utiliser son modèle du monde pour tester mentalement des actions – un peu comme lorsque nous imaginons différents dénouements possibles à une situation. Elle peut simuler des futurs dans sa tête (« que se passerait-il si je faisais telle action ? ») sans risquer de casse dans la réalité. Cette capacité à expérimenter de façon interne ouvre la voie à une planification et une exploration beaucoup plus efficaces. En somme, on cherche à donner aux IA une forme de bon sens et de compréhension incarnée qu’elles ne peuvent pas acquérir en lisant Wikipédia uniquement.
Apprendre dans des mondes 3D virtuels
Comment entraîner de tels modèles du monde ? L’une des approches clés est de faire apprendre les IA dans des environnements simulés en 3D. Des plateformes comme Habitat de Meta AI permettent de plonger des agents virtuels (des robots simulés) dans des décors tridimensionnels photoréalistes. Ces mondes virtuels servent de bacs à sable où l’IA peut explorer, interagir avec des objets, et apprendre de ses erreurs – le tout bien plus rapidement et en toute sécurité qu’avec un vrai robot dans le monde réel.
En effet, entraîner un robot exclusivement dans le monde physique pose de nombreux problèmes. C’est lent (on ne peut pas accélérer le temps réel, et on ne peut pas facilement faire plusieurs essais en parallèle dans la même cuisine), cela peut être dangereux (un robot maladroit peut casser des objets ou s’endommager, voire blesser quelqu’un) et coûteux en matériel. Au contraire, dans une simulation, on peut accélérer le temps (exécuter des expériences à grande vitesse), dupliquer des environnements à l’infini pour entraîner des centaines d’agents en parallèle, et tester des situations extrêmes sans risque.
Ces simulations 3D jouent donc un rôle crucial pour développer l’IA incarnée. Elles offrent un terrain d’entraînement où l’agent voit ce que « voit » un robot (caméra, capteurs virtuels), où il peut agir (saisir des objets, se déplacer) et en observer le résultat. Par exemple, un agent peut apprendre à naviguer dans un appartement virtuel, à chercher des objets ou à manipuler des outils de cuisine. La plateforme Habitat, entre autres, a encouragé un changement de paradigme en faisant passer l’IA de l’exploitation de données statiques (images, textes annotés) à l’apprentissage par interaction dans un environnement simulé. Cela met en avant des capacités comme la perception active (l’agent doit bouger pour voir derrière la table), la planification à long terme, et l’apprentissage par l’expérience et l’erreur.
Les progrès en simulation rendent ces mondes de plus en plus réalistes. Par exemple, le benchmark BEHAVIOR-1K, développé à Stanford, propose 1000 activités domestiques variées (cuisiner, ranger, nettoyer, etc.) dans 50 environnements détaillés, avec plus de 9000 objets manipulables et même la simulation de phénomènes physiques complexes comme les fluides ou les objets déformables. Ce type de banc d’essai permet de tester nos IA sur des tâches proches de la réalité quotidienne de manière reproductible. Les premiers résultats montrent que même les meilleurs agents actuels peinent à accomplir ces longues séquences d’actions complexes, ce qui nous renseigne sur ce qui manque encore à nos modèles pour atteindre le niveau humain.
Des robots dans le monde réel : l’IA incarnée
Évidemment, le but ultime est qu’une IA capable de raisonner sur le monde physique puisse agir dans ce monde réel. C’est là qu’intervient la notion d’IA incarnée (embodied AI), c’est-à-dire une intelligence artificielle disposant d’un corps (réel ou virtuel) et de capteurs, lui permettant d’apprendre par l’expérience directe. L’« hypothèse de l’incarnation » suggère justement que l’intelligence émerge de l’interaction sensorimotrice avec l’environnement. Autrement dit, pour comprendre réellement la notion de « lourd », une IA gagnerait à avoir essayé de soulever des objets, plutôt que d’en lire la définition.
De nombreux laboratoires travaillent désormais à connecter les modèles de haut niveau (comme les LLM) avec des plateformes robotiques. Par exemple, Google et ses partenaires académiques ont publié en 2023 l’initiative Open X-Embodiment, qui rassemble plus d’un million de trajectoires de manipulation issues de 22 robots distincts, couvrant plus de 500 types de tâches dans divers environnements. Fort de ce corpus, ils ont entraîné des modèles Transformers généralistes pour le contrôle robotique, nommés RT-1-X et RT-2-X (Robotics Transformer), conçus pour s’adapter à de nouvelles tâches, nouveaux robots et nouveaux contextes avec un minimum d’ajustements.
Dans le même esprit, la communauté open-source a proposé des modèles de politique robotique combinant vision et langage. Octo, par exemple, est un agent générique pour la manipulation d’objets, entraîné sur 800 000 épisodes issus du dataset Open X-Embodiment. Il peut comprendre des instructions en langage naturel ou via des images d’objectif, et contrôler divers bras robotiques. Plus récemment, OpenVLA (pour Vision-Language-Action) a été introduit comme un modèle libre de 7 milliards de paramètres, entraîné sur 970 000 démonstrations robotiques issues de multiples robots.
Évidemment, passer de la simulation à la réalité comporte des défis : un modèle performant en simulation peut échouer une fois confronté aux caprices du monde réel (bruit des capteurs, imprécisions mécaniques, situations imprévues). C’est pourquoi l’entraînement de ces IA incarnées inclut souvent une phase de fine-tuning dans le monde physique, ou l’utilisation de techniques pour réduire l’écart sim-réalité. Néanmoins, on voit émerger les premiers modèles de fondation pour la robotique, qui augurent d’une nouvelle génération d’IA capables d’apprendre en agissant.
Conclusion : vers des IA curieuses et incarnées
En conclusion, les LLM ont été une étape révolutionnaire, mais ils représentent seulement le début du voyage vers des IA vraiment intelligentes et polyvalentes. Pour sortir des limites du texte et aborder la richesse du monde réel, il est nécessaire de doter nos IA de corps (virtuels ou réels), de sens, et de la capacité à interagir avec un environnement. Les mondes 3D simulés offrent un terrain d’apprentissage inestimable pour forger ces capacités, tandis que les travaux en robotique montrent qu’il est possible de combiner le meilleur des deux mondes : des modèles cognitifs puissants et une expérience ancrée dans le réel.
Beaucoup de questions restent ouvertes. Quel est le bon équilibre entre connaissances apprises par lecture et connaissances apprises par interaction ? Comment s’assurer qu’une IA qui apprend dans un simulateur se comportera de manière fiable une fois lâchée dans notre monde ? Et jusqu’où cette approche incarnée nous mènera-t-elle vers une intelligence artificielle générale ? Ce qui est certain, c’est que l’IA de demain devra être tout aussi à l’aise pour dialoguer avec nous que pour manipuler son environnement. Les LLM resteront des composantes cruciales, mais ils devront s’intégrer dans des systèmes plus larges, ayant les pieds (ou les roues) sur Terre.
Commentaires
Enregistrer un commentaire