Nous avons peut-être résolu la robotique... en regardant YouTube

Nous avons peut-être résolu la robotique... en regardant YouTube

Nous avons peut-être résolu la robotique... en regardant YouTube

Robot et intelligence artificielle

Et si la clé pour apprendre aux robots à agir dans le monde réel n'était pas dans des milliers d'heures de téléopération coûteuse, mais dans les millions d'heures de vidéos disponibles gratuitement sur YouTube ?

C'est la thèse (un peu provocante) derrière V-JEPA 2, un modèle développé par Meta-AI, qui semble marquer un vrai tournant pour la robotique. Explications.


Les limites des grands modèles de langage

Ces dernières années, l'intelligence artificielle a fait des bonds impressionnants grâce aux grands modèles de langage (LLM). Ils savent écrire des poèmes, tenir une conversation, coder... mais ils sont incapables de saisir un mug posé sur une table.

Pourquoi ? Parce qu'ils sont entraînés sur du texte. Or, la physique du monde réel ne se lit pas dans un roman : elle s'observe.

Un robot n'a pas besoin de comprendre la grammaire. Il doit comprendre la dynamique 3D, la causalité, la friction, le mouvement.

L'idée de V-JEPA 2 : apprendre en observant le monde

Au lieu d'apprendre à partir de mots, V-JEPA 2 apprend à partir de la vidéo. Le principe :

Masquer des « blocs » d'images dans une vidéo et deviner ce qu'il y a derrière.

Ce mécanisme d'auto-complétion (masked autoencoding) force le modèle à comprendre comment les choses bougent et interagissent. Il ne prédit pas simplement des pixels mais travaille dans un espace latent (une représentation abstraite et compacte de la scène).

En clair : il apprend la physique en regardant des millions de vidéos.

L'échelle « YouTube » comme moteur d'apprentissage

Pour faire ça, Meta-AI a mis le paquet :

Avant (V-JEPA) Maintenant (V-JEPA 2)
2 M de vidéos 22 M de vidéos + 1 M d'images
300 M paramètres 1 milliard
Résolution fixe Curriculum d'apprentissage : de 16 frames 256² jusqu'à 64 frames 384²

Le modèle ne se contente plus de quelques millions de vidéos : il s'entraîne sur plus de 1 million d'heures de YouTube, en augmentant progressivement la résolution et la durée des séquences.

Mais comment passe-t-on de « voir » à « agir » ?

C'est la grande force de V-JEPA 2-AC (« AC » pour action-conditioned). L'idée :

1⃣ On fige l'encodeur vidéo pré-entraîné sur YouTube.

2⃣ On ajoute un petit modèle supplémentaire qui apprend, pour une action donnée, à prédire le futur état latent.

3⃣ On planifie en choisissant la séquence d'actions qui amène le robot le plus près du but visuel.

En pratique, on lui montre une photo de la scène désirée (par exemple « la table propre »), et le robot planifie comment y arriver.

Tout ça avec à peine 62 heures de vidéos robotiques, bien loin des milliers d'heures habituellement nécessaires.

Des résultats très prometteurs

Sur des bras robotiques Franka jamais vus pendant l'entraînement :

  • Atteindre une position : 100 % de réussite
  • Saisir un mug : 65 %
  • Déplacer un objet : 65–80 %

En plus :

  • Beaucoup plus rapide à planifier que les modèles à diffusion (~16 secondes par action au lieu de plusieurs minutes).
  • Capable de comprendre la scène même pour des questions en langage naturel, lorsqu'on le connecte à un LLM.

Les limites actuelles

Tout n'est pas parfait :

Problème Détail
Sensible à la pose de la caméra Un léger décalage d'angle peut tromper le modèle.
Dérive long-terme Il hallucine sur des plans complexes au-delà de quelques dizaines d'étapes.
Commande visuelle, pas linguistique On doit lui montrer un « but » en image, pas lui dire « nettoie la table ».

Pourquoi c'est si important ?

V-JEPA 2 montre qu'on peut :

  • Apprendre la physique du monde réel en observant YouTube à très grande échelle.
  • Former des robots à agir avec très peu de données robotiques spécifiques.
  • Construire un « world model » compatible avec un grand modèle de langage.

C'est peut-être la pièce manquante du puzzle de la robotique générale : la capacité de comprendre et planifier dans le monde réel sans supervision humaine coûteuse.

En conclusion

Est-ce que Meta-AI a « résolu » la robotique ? Pas encore : il reste des problèmes majeurs à corriger. Mais ils ont montré une voie très crédible :

Regarder YouTube, comprendre la physique, et agir dans le monde.

Le chemin vers des robots vraiment utiles au quotidien passe peut-être par là.

Pour aller plus loin et lire la version originale (en anglais) : lien vers l'article

Source : Meta-AI Research & Bear Blog

Commentaires