Meta presenta V-JEPA 2, una inteligencia artificial que enseña a los robots a comprender el mundo físico

El modelo busca replicar la inteligencia humana para anticipar cambios mediante tres capacidades fundamentales: comprensión, predicción y planificación.

Alianza entre Nvidia y la francesa Mistral AI para crear su propia plataforma en la nube

V-JEPA 2
V-JEPA 2 / META

Meta anunció el lanzamiento de V-JEPA 2, un modelo de inteligencia artificial de código abierto diseñado para que robots y otros sistemas automatizados puedan comprender el entorno físico e interactuar con los objetos de manera similar a como lo hacen los seres humanos.

Esta nueva tecnología representa un avance significativo en el desarrollo de lo que Meta denomina modelos mundiales, sistemas que permiten a las máquinas entender, predecir y planificar acciones en el mundo real. Según explica la compañía en su comunicado oficial, V-JEPA 2 capacita a los robots para "entender el mundo físico y predecir cómo responderán a sus acciones", habilidades consideradas esenciales para construir agentes de inteligencia artificial capaces de reflexionar antes de actuar.

Inspiración en la inteligencia humana

El desarrollo de V-JEPA 2 se basa en la capacidad natural de los seres humanos para anticipar cambios en su entorno físico. Como ejemplo, Meta señala la habilidad que tenemos las personas para caminar en una zona concurrida, esquivando a otros peatones y obstáculos de forma intuitiva. El modelo busca replicar esta inteligencia mediante tres capacidades fundamentales: comprensión, predicción y planificación.

En términos prácticos, esto significa que un robot equipado con V-JEPA 2 puede predecir que una pelota que rueda sobre una mesa probablemente caerá al suelo, o planificar la secuencia de movimientos necesaria para alcanzar, recoger y colocar objetos en nuevas ubicaciones.

Características técnicas y funcionamiento

V-JEPA 2 es la segunda generación del modelo V-JEPA original, que Meta presentó en febrero del año pasado. Esta nueva versión cuenta con 1.200 millones de parámetros y ha sido entrenada exclusivamente con vídeos, sin necesidad de anotaciones humanas adicionales.

El proceso de entrenamiento consta de dos fases: un preentrenamiento inicial sin acciones específicas y un entrenamiento posterior condicionado por acciones concretas. Para ello, Meta ha utilizado la base de datos de código abierto DROID, lo que permite que el modelo pueda ser implementado directamente en robots físicos.

Las pruebas realizadas demuestran que los robots equipados con esta tecnología pueden desenvolverse en entornos desconocidos, incluso cuando se encuentran con objetos que no habían visto anteriormente durante su entrenamiento.

El sistema funciona analizando una imagen objetivo -por ejemplo, colocar un vaso sobre una mesa- y planificando automáticamente los pasos necesarios para conseguirlo, que en este caso incluiría coger el vaso y trasladarlo a la ubicación deseada.

Aplicaciones prácticas y limitaciones actuales

Yann LeCun, científico jefe de inteligencia artificial en Meta, destaca en un vídeo publicado por la compañía que este "modelo del mundo" puede resultar especialmente útil para asistir a personas con problemas de visión. Además, considera que esta tecnología es fundamental para el desarrollo de sistemas autónomos como los vehículos de conducción automática.

No obstante, V-JEPA 2 presenta limitaciones importantes en su versión actual. El modelo aprende y realiza predicciones en una única escala temporal, lo que significa que no puede ejecutar tareas complejas que requieran múltiples pasos secuenciales, como seguir una receta de cocina completa.

Meta reconoce estas limitaciones y ha expresado su intención de mejorar las capacidades del sistema en múltiples escalas temporales y espaciales, así como incorporar funcionalidades multimodales que amplíen la predicción más allá del sentido de la vista.

Contexto estratégico de Meta

El anuncio de V-JEPA 2 se produce en un momento de intensa actividad para Meta en el ámbito de la inteligencia artificial. Según informaciones de medios como The New York Times, el director ejecutivo de la compañía, Mark Zuckerberg, está creando personalmente un nuevo equipo dedicado a desarrollar lo que denomina "superinteligencia", un hipotético sistema de inteligencia artificial que superaría las capacidades del cerebro humano.

En este contexto, Meta habría fichado a Alexandr Wang, fundador y director ejecutivo de la startup Scale AI, para incorporarse a este nuevo laboratorio. La operación podría implicar una inversión superior a los 10.000 millones de dólares, según las fuentes consultadas por el rotativo estadounidense.

V-JEPA 2 forma parte de los trabajos de Meta para lograr lo que la compañía denomina "inteligencia de máquinas avanzada" (AMI), un proyecto ambicioso que busca desarrollar agentes capaces de operar de forma autónoma en el mundo real, representando un paso significativo hacia la integración de la inteligencia artificial en tareas cotidianas que requieren comprensión física del entorno.

stats