Le principe adopté dans MPEG-4 est celui d’une description autonome du contenu : l’image n’est plus codée dans sa globalité, c’est à dire en la considérant indépendamment de son contenu comme une surface rectangulaire de X sur Y pixels, mais elle apparaît comme une composition réalisée avec différents “objets” audiovisuels. Ces objets peuvent être de différentes natures : image fixe (par exemple, le décor du fond, un tableau), objets vidéos (le personnage sans le décor), objets audios (la voix de la personne, le fond musical)...Ils peuvent être naturels ou de synthèse, en 2D ou en 3D. Un texte, un graphique, un son synthétique... sont également considérés comme des objets. Chacun de ces objets est codé indépendamment des autres, et isolé du fond ou de l’environnement.
Une hiérarchisation des contenus est également établie : les objets “basiques” correspondant à une même entité (par exemple l’image d’un personnage et sa voix) peuvent être réunis et créer un nouvel objet composite comprenant l’ensemble des attributs. De tels regroupements vont, non seulement faciliter le travail de conception des auteurs mais également permettre la manipulation des contenus par les utilisateurs. La notion d’objet peut théoriquement s’appliquer également au sein même de la vidéo. La génération de ces différents objets (par mask ou shape) ne fait pas partie du format mais relève de solutions de post-production de type "alpha channel". Cette technique se révèle aujourd’hui assez délicate à utiliser et n’a pas encore fait l’objet de développements importants.

Le langage de MPEG-4 qui permet la description et la modification dynamique d’une scène s’appelle BIFS (Binary Format for Scenes). Il est très largement issu du VRML (Virtual Reality Modeling Language) pour la description et l’interactivité des objets 3D auquel il ajoute certaines fonctionnalités.
Ce découpage sous la forme d’objets se retrouve bien évidemment au niveau des flux de données : à chacun des objets va correspondre un flux élémentaire.
Cette séparation des flux offre au moins deux avantages :
En premier lieu, au niveau du codage de chacun des objets. Elle permet d’appliquer pour chacun d’entre eux la technique de compression la mieux adaptée à sa nature et les technologies de transmission les plus efficaces, notamment en termes de qualité de service (des documents textes, des tableaux... ne peuvent tolérer aucune perte de données mais les débits peuvent être faibles, ce qui n’est pas le cas pour la vidéo qui peut s’accommoder de quelques pertes ou d’erreurs de transmission mais pour lesquels les débits sont élevés). MPEG-4 permet de synchroniser des flux venant de différents serveurs : il devient possible de diffuser des textes ou des photos synchronisées sur la vidéo avec toute la qualité requise pour chacun d’eux.
En second lieu, chacun de ces objets retrouvant sa propre autonomie au niveau du terminal usager, on peut imaginer toutes les formes d’interactivité possibles. MPEG4 a été directement conçu pour le Rich Media. Avec ce standard, une scène audiovisuelle n’est pas figée et il devient possible d’agir (si cela a été autorisé par le concepteur du programme) sur les différents composants : déplacer un objet, changer son apparence géométrique ou acoustique voire le supprimer, modifier ses attributs (son ou langue, texture d’une surface, paramètres d’un objet synthétique), changer le point de vue et d’écoute du spectateur (comme s’il se déplaçait devant la scène). Qui plus est, le terminal étant muni d’une voie retour, le spectateur peut intervenir dans le déroulement de la présentation et provoquer des actions (par la sélection de zones actives).
Ces mêmes flux devraient également pouvoir contenir un certain nombre d’informations associées à des objets : renseignements sur le contenu ("metadonnées"), droits d’auteurs (identification, protection et gestion des droits).
La norme prévoit que certains de ces objets peuvent ne pas être transmis et être stockés en permanence dans le récepteur ou encore être transmis une fois pour toutes en début de séquence ou de manière progressive. La notion de "sprite" correspond à un objet vidéo persistant pendant la séquence vidéo et qui peut être plus large que la vidéo affichée. Typiquement, un décor ou un arrière plan. Les "sprites" sont susceptibles d’améliorer spectaculairement la compression.

C’est seulement au niveau du décodeur final que les différents éléments sont recomposés et synchronisés pour restituer l’image finale. En clair, le terminal de l’utilisateur reçoit un programme en kit. Il reconstitue ce programme en n’utilisant que les éléments qui lui sont nécessaires ou qui sont compatibles avec son terminal. De MPEG 2 à MPEG 4, on est passé d’une approche statique de la composition de l’image à une approche dynamique qui ne se matérialise désormais qu’au stade du décodage.
