Davantage qu’une norme unique, MPEG 4 constitue en fait une formidable boîte à outils regroupant une variété de solutions de compression correspondant à différentes situations d’utilisation. Reprenant les structures qui avaient été développées pour la norme MPEG 2, on a également défini pour MPEG-4 une série de profils et de niveaux (profiles et levels dans la littérature anglaise). Cette notion de profils a été définie, non seulement pour la vidéo et l’audio (audio profiles et visual profiles), mais également pour la partie système de la norme : profils graphiques, profils relatifs à la description de scènes...
Les profils correspondent à une approche qualitative : ils regroupent les outils de codage et les algorithmes les plus appropriés pour diverses situations d’utilisation : streaming, mobile, diffusion, production... Les profils Visual définissent ainsi les types d’images qui seront utilisés (Images I, P, B...), le mode de codage employé pour la chrominance (4.2.0, 4.2.2...), la précision de la prédiction de mouvement...
Les décodeurs n’auront pas à implémenter tous les outils de la norme mais seulement ceux destinés à l’usage visé. Limitant les choix, restreignant volontairement la syntaxe de décodage susceptible d’être utilisée, les profils jouent un rôle essentiel du point de vue de l’interopérabilité. Ils garantissent le fait qu’un flux généré par un encodeur particulier pourra être décodé par tous les décodeurs acceptant ce profil.
Chaque profil comporte ensuite différents niveaux. Ils apportent une approche quantitative, décrivant différents paliers de performance pour un profil donné et correspondant à autant de degrés de complexité dans la mise en oeuvre. Les niveaux imposent des contraintes à certains paramètres clés du flux. Ils vont par exemple spécifier les limites supérieures pour la définition des images, le nombre d’image par seconde, les gammes de débits utilisables, le nombre d’objet...
Le couple Profiles et Levels constitue ainsi la signature caractérisant une conformité.
Face à la diversité et à la complexité des profils, les consortiums Mpeg IF (MPEG Industry Forum) et ISMA (Internet Streaming Media Alliance) ont pris des initiatives intéressantes en matière de certification et d’interopérabilité. MpegIF a présenté un programme de qualification garantissant la compatibilité des matériels et la conformité des performances et qui débouche sur l’attribution d’un logo MP4.
L’Internet Streaming Media Alliance propose de constituer un écosystème garantissant l’interopérabilité en s’intéressant à la spécification du système de bout en bout. Le mécanisme de certification qui se met en place et qui repose sur des auto-vérifications faites par les fabricants validées ensuite par l’ISMA selon une procédure standardisée, veut aider les utilisateurs à identifier les produits compatibles. Pour ce faire, l’ISMA a élaboré un programme de conformité reposant sur des produits et fichiers de référence et du matériel de test. La version 2.0 des spécifications de l’ISMA fondée sur les codecs avancés audio et vidéo sera publiée pour commentaires très prochainement. Le travail se poursuivra ensuite à la fois sur les nouvelles versions de codecs et sur la gestion des doits (DRM).
La segmentation en profils permet aussi de faire évoluer plus facilement la norme mais au prix d’un accroissement certain de sa complexité. Même si les divers profils constituent souvent un simple enrichissement de versions de base, leur multiplication donne naissance à un maquis assez impénétrable et nuit à la lisibilité de l’ensemble.
La version 1 de la norme comportait neuf profils Visual. Cinq correspondaient à des images naturelles et 4 à des images de synthèse. Les premiers comprenaient le Simple Visual Profile destiné aux applications mobiles, le Simple Scalable Visual Profile ouvrant la voie à plusieurs niveaux de réception, le Core Visual, ajoutant au Simple des objets de taille arbitraire afin d’autoriser l’interactivité ; le Main, ajoutant entrelacement et sprite au Simple ; le N-Bit destiné aux applications de surveillance. Les seconds étaient constitués du Simple Facial Animation dont le nom définit la fonction ; du Scalable Texture destiné aux textures d’images fixes à niveaux de qualité variables destinés aux jeux ; le Basic Animated 2D Texture combinait les deux applications précédentes ; le Hybrid associait le dernier au Core.
La version 2 de la norme a ajouté trois profils à chacune des catégories. D’une part, l’Advanced Real-Time Simple améliorant la résistance aux erreurs et destiné aux applications de visiophonie et visoconférence ; Le Core Scalable, orienté Internet ; l’Advanced Coding Efficiency pour la réception broadcast mobile. D’autre part, l’Advanced Scalable Texture optimisé pour l’accès aléatoire aux images fixes sur Internet ou les PDA ; l’Advanced Core, plus spécialement adapté au Rich Media ; le Simple Face and Body Animation, améliorant le Simple Facial.
Les versions suivantes ont ajouté l’Advanced Simple Profile, qui améliore les possibilités du Simple ; le Fine Granularity Scalable, le Simple Studio Profile et le Core Studio Profile. En pratique, seul un nombre restreint de profils est actuellement implémenté. Le Simple Profile et l’Advanced Simple Profile (ASP) constituaient actuellement les deux profils vedettes en matière d’image naturelle animée jusqu’à l’apparition de H264. Ils restent encore d’actualité pour les applications mobiles.
L’avènement de H264 a apporté quatre nouveaux profils : Baseline (pour les applications avec une résolution réduite, comportant seulement des images I et P, avec une précision de compensation au 1/4 de pixel) ; Extended (spécialement dédié au streaming et aux mobiles ; il s’agit d’une extension de Baseline avec davantage de résistance aux erreurs de réseau) ; Main (qui emploie les images I, P et B avec un balayage entrelacé, et utilise CABAC...) et High pour les usages professionnels (production, contribution).

Jusqu’à l’année dernière, MPEG-4 était surtout ciblé sur la diffusion et H.264 s’imposait avec le Main Profile dans le monde du broadcast. Très logiquement, les comités techniques avaient cependant poursuivi le travail d’exploration vers de nouveaux profils en 4 :2 :2 ou plus avec un échantillonnage sur 10 ou 12 bits répondant à des besoins professionnels notamment en contribution. Ce travail prospectif s’est brusquement accéléré, semble-t-il sous la pression des partisans du DVD haute définition, pour aboutir à l’émergence surprise d’un nouveau profil orienté HD, le High Profile. Le Blu-Ray Disc avait en effet formulé des exigences pour des profils de très haute qualité avec des hauts débits (15-24 Mbits/s) et des formats d’image HD 1920x1080 et 1280x720. Quatre nouveaux profils ont donc été ajoutés à H.264 sous l’appellation générique de H.264 AVC FRExt pour Fidelity Range Extensions. Ils ont tous en commun d’être des extensions du Main Profile complété par une matrice de macro-blocs de quantification 8x8 de la prédiction de mouvement. Au final, semble-t-il, une réelle amélioration de l’ordre de 20% à ces hauts débits. Ces nouveaux profils correspondent à une logique d’empilement en peaux d’oignon, chaque nouveau profil intégrant le précédent. De plus, ils ont en commun de pouvoir supporter en option un Alpha Channel de haute qualité et une modélisation des caractéristiques du grain du film.

Différents profils ont été également définis pour l’audio. Pour le son, MPEG 4 offrait quatre profils dans la version 1 : le Speech, fondé notament sur le codec CELP adapté aux bas débits (de 3,6 à 24 Kbps) ; le Synthesis, destiné aux interfaces Text-To- Speech (TTSI) ; le Scalable, amélioration du Speech pour des débits de 6 à 24 Kbps ; le Main, un “superset” des précédents. La version 2 a ajouté High Quality Audio qui intègre le CELP et l’AAC (Advanced Audio Coding, débits de 16 à 256 Kbps) ; le Low Delay Audio regroupant CELP, TTSI et AAC ; le Natural Audio ne comprenant aucun outil destiné aux sons de synthèse ; le Mobile Audio Internetworking destiné aux applications de communication recourant à des outils non-MPEG. Pour terminer, il faut également mentionner le très efficace HE-AAC (High Efficiency Advanced Audio Coding).