Meta ha presentado un nuevo modelo no generativo desarrollado para enseñar a las máquinas a comprender y modelar el mundo físico mediante la visualización de vídeos.
Video Joint Embedding Predictive Architecture (V-JEPA) aprende a realizar tareas prediciendo partes perdidas o enmascaradas de un vídeo en un espacio de representación abstracto.
A diferencia de los modelos generativos, que intentan rellenar los píxeles desaparecidos, V-JEPA puede descartar la información impredecible y hacer predicciones más eficientes, explican desde la compañía.
En un futuro, los investigadores pretenden adoptar un enfoque multimodal, no limitado al vídeo, empezando por la incorporación de audio.
Comentar
0 Comentarios
Más comentarios