En MPEG-4, son los objetos de una escena, como objetos de video, imágenes y objetos 3D. Tienen una dimensión de tiempo y un sistema de coordinación local para manipularlos. Se posicionan en una escena transformando el sistema de coordinación local del objeto en un sistema de coordinación global de escena.