Rançon de son ambition de couvrir tout le champ du multimédia et de l’audiovisuel, y compris désormais la vidéo professionnelle, la norme MPEG 4 adopte une approche modulaire et se caractérise par une complexité certaine que traduisent les divers livres (parts) qui la composent.
Le coeur est constitué de la partie Systems (part 1), Visual (part 2) et Audio (part 3) auxquels il faut ajouter DMIF (Delivery Multimedia Integration Framework, part 6) qui définit l’interface entre la couche application et celles liées au stockage et au réseau. Conformance (part 4) expose comment tester une implémentation de la norme et la part 5 propose un Reference Software. La part 7 propose un exemple d’encodeur optimisé. Si le transport n’est pas défini dans la norme, la part 8 définit cependant comment intégrer un flux MPEG 4 dans un réseau IP. La part 9 donne une description de Reference Hardware.
La part 10, concerne les derniers développements en matière de réduction de débit autour du codec H264. C’est devenu la facette principale de MPEG-4 qui éclipse aujourd’hui la part 2. D’autres tomes ont été définis ou sont en préparation : un additif, issu de la part 1 et spécifiquement destiné à la description de scènes (part 11) ; l’ISO Media File Format (part 12) ; une extension de la gestion IPMP (Intellectual Property Management and Protection, version MPEG 4 du DRM, part 13) ; MP4 File Format (part 14, fondé sur part 12) ; AVC File Format (part 15, également fondé sur part 12) ; AFX (Animation Framework eXtensions) et MuW (Multi-users Worlds) pour la part 16...

Ce mot revient à diverses reprises dans les textes de présentation de MPEG-4. Il signifie "adaptabilité", "échelonnement"... et désigne la possibilité de transmettre et de fournir dans un même signal tous les éléments correspondant à différents niveaux de qualité (codage hiérarchique) qui pourront être exploités différemment en fonction des conditions de transmission ou du type de terminal utilisé par l’usager. La totalité des informations peut ainsi être ainsi transmise selon un flux principal et des flux complémentaires qui ne sont exploités qu’à la mesure de la performance du réseau ou du récepteur utilisé. On pense notamment à la réception d’un même contenu sur un téléphone portable et sur un récepteur de télévision fixe ou mobile. La qualité de restitution du document est directement proportionnelle à la complexité du terminal. Avec les décodeurs les plus performants, on assure le décodage de la totalité du flux ce qui permet une restitution optimum tandis qu’avec un terminal plus basique, on ne décode d’une partie du flux et on obtient la restitution d’un document de qualité moindre.
Différentes solutions sont envisageables :
"Spatial scalability" (adaptabilité spatiale) : un décodeur peut n’utiliser qu’une fraction du flux de données ce qui permet l’affichage des images et des vidéos avec une résolution spatiale réduite (cela peut être par exemple l’utilisation de 1 pixel sur x, ce qui donne une image plus petite mais une sensation de qualité et une fluidité maintenue).
"temporal scalability" (adaptabilité temporelle) : une séquence vidéo peut être reproduite avec une résolution temporelle réduite. Différentes méthodes sont possibles : réduction du nombre d’images par seconde, augmentation des intervalles d’estimation (prédiction, extrapolations...).
"quality scalability" (adaptabilité qualitative) : la répartition des données en un certain nombre de couches (un niveau de base complété par une ou plusieurs couches d’extension (Enhancement Layer) pouvant permettre par exemple un affichage progressif de la qualité. L’image a une définition réduite au démarrage puis s’affine si les conditions le permettent. Les améliorations peuvent en outre porter sur la totalité de l’image ou simplement sur une portion (un objet).
En s’appuyant sur ces principes, le groupe MPEG a décidé il y a environ deux ans de démarrer les premiers travaux pour la définition d’un nouveau standard baptisé MPEG SVC (pour Scalable Video Coding) qui présenterait la particularité, à partir d’un seul flux (et donc d’une phase unique d’encodage), de satisfaire à tous les cas de figure possible dans des schémas de distribution comportant un grand nombre de configurations possibles.