envoyer l'article par mail title=  Version imprimable de cet article

Ressources > Notes techniques

Télécharger

Le texte sur MPEG-4

La PreAO

L´auteur

Philippe Gasser

Tags

MPEG
MPEG 4
H264
BIFS
AVC
Part 10
scalability
redondance
DCT
compression
quantification
estimation mouvement
image intra
image prédite
image bidirectionnelle
GOP
profil
level
MP@ML
VBR
variable bit rate
CBR
constant bit rate
cc by-nc-sa

MPEG-4

samedi 17 septembre 2005

Les premières orientations : une approche orientée “objets”

La description des images vidéos :

Le principe adopté dans MPEG-4 est celui d’une description autonome du contenu : l’image n’est plus codée dans sa globalité, c’est à dire en la considérant indépendamment de son contenu comme une surface rectangulaire de X sur Y pixels, mais elle apparaît comme une composition réalisée avec différents “objets” audiovisuels. Ces objets peuvent être de différentes natures : image fixe (par exemple, le décor du fond, un tableau), objets vidéos (le personnage sans le décor), objets audios (la voix de la personne, le fond musical)...Ils peuvent être naturels ou de synthèse, en 2D ou en 3D. Un texte, un graphique, un son synthétique... sont également considérés comme des objets. Chacun de ces objets est codé indépendamment des autres, et isolé du fond ou de l’environnement.

Une hiérarchisation des contenus est également établie : les objets “basiques” correspondant à une même entité (par exemple l’image d’un personnage et sa voix) peuvent être réunis et créer un nouvel objet composite comprenant l’ensemble des attributs. De tels regroupements vont, non seulement faciliter le travail de conception des auteurs mais également permettre la manipulation des contenus par les utilisateurs. La notion d’objet peut théoriquement s’appliquer également au sein même de la vidéo. La génération de ces différents objets (par mask ou shape) ne fait pas partie du format mais relève de solutions de post-production de type "alpha channel". Cette technique se révèle aujourd’hui assez délicate à utiliser et n’a pas encore fait l’objet de développements importants.

GIF - 14.6 ko
Décomposition de la scène en objets audiovisuels

Le langage de MPEG-4 qui permet la description et la modification dynamique d’une scène s’appelle BIFS (Binary Format for Scenes). Il est très largement issu du VRML (Virtual Reality Modeling Language) pour la description et l’interactivité des objets 3D auquel il ajoute certaines fonctionnalités.

Ce découpage sous la forme d’objets se retrouve bien évidemment au niveau des flux de données : à chacun des objets va correspondre un flux élémentaire.

Cette séparation des flux offre au moins deux avantages :
- En premier lieu, au niveau du codage de chacun des objets. Elle permet d’appliquer pour chacun d’entre eux la technique de compression la mieux adaptée à sa nature et les technologies de transmission les plus efficaces, notamment en termes de qualité de service (des documents textes, des tableaux... ne peuvent tolérer aucune perte de données mais les débits peuvent être faibles, ce qui n’est pas le cas pour la vidéo qui peut s’accommoder de quelques pertes ou d’erreurs de transmission mais pour lesquels les débits sont élevés). MPEG-4 permet de synchroniser des flux venant de différents serveurs : il devient possible de diffuser des textes ou des photos synchronisées sur la vidéo avec toute la qualité requise pour chacun d’eux.
- En second lieu, chacun de ces objets retrouvant sa propre autonomie au niveau du terminal usager, on peut imaginer toutes les formes d’interactivité possibles. MPEG4 a été directement conçu pour le Rich Media. Avec ce standard, une scène audiovisuelle n’est pas figée et il devient possible d’agir (si cela a été autorisé par le concepteur du programme) sur les différents composants : déplacer un objet, changer son apparence géométrique ou acoustique voire le supprimer, modifier ses attributs (son ou langue, texture d’une surface, paramètres d’un objet synthétique), changer le point de vue et d’écoute du spectateur (comme s’il se déplaçait devant la scène). Qui plus est, le terminal étant muni d’une voie retour, le spectateur peut intervenir dans le déroulement de la présentation et provoquer des actions (par la sélection de zones actives).

Ces mêmes flux devraient également pouvoir contenir un certain nombre d’informations associées à des objets : renseignements sur le contenu ("metadonnées"), droits d’auteurs (identification, protection et gestion des droits).

On a entendu parfois dire que MPEG 4 était fondé sur QuickTime. Qu’en est-il ? Lorsqu’il s’est agi de définir un container c’est à dire un format de fichier, le groupe de travail MPEG-4 s’est d’abord inspiré du format correspondant de QuickTime. Ce container ne constituait qu’une partie de la norme. Ultérieurement, ce format a d’ailleurs été modifié, supprimant la compatibilité. La version 6 de QuickTime a intégré nativement le support de MPEG 4.

La norme prévoit que certains de ces objets peuvent ne pas être transmis et être stockés en permanence dans le récepteur ou encore être transmis une fois pour toutes en début de séquence ou de manière progressive. La notion de "sprite" correspond à un objet vidéo persistant pendant la séquence vidéo et qui peut être plus large que la vidéo affichée. Typiquement, un décor ou un arrière plan. Les "sprites" sont susceptibles d’améliorer spectaculairement la compression.

GIF - 30.4 ko
Certains objets peuvent n’être transmis qu’une fois et stockés dans le récepteur : ici le décor.

Un flux unique, un format de fichier

La couche FlexMux (Flexible Multiplexing) procède au regroupement dans le même flux des flux élémentaires présentant des points communs (par exemple, ceux présentant les mêmes exigences en matière de QoS). Elle s’appuie sur les spécifications DMIF (Delivrery Multimedia Integration Framework). DMIF traite de l’interface entre les applications et le réseau de transport, et de l’établissement des canaux de communication en fonction des QoS nécessaires pour chaque flux élémentaire. La coucheTransMux (Transport Multiplexing) gère les services de transport sur le réseau externe : (RTP) UDP/IP, (AAL5)/ATM, MPEG-2 TS... Seule l’interface avec cette couche est décrite dans la norme MPEG-4. (le transport ne fait pas partie de la norme).
Tous ces flux sont multiplexés en un flux unique pour le transport, ce qui signifie également dans un cadre purement informatique, un seul fichier qui contient la totalité des informations.
GIF - 57.8 ko
Schéma de transmission et de reconstitution de la scène

C’est seulement au niveau du décodeur final que les différents éléments sont recomposés et synchronisés pour restituer l’image finale. En clair, le terminal de l’utilisateur reçoit un programme en kit. Il reconstitue ce programme en n’utilisant que les éléments qui lui sont nécessaires ou qui sont compatibles avec son terminal. De MPEG 2 à MPEG 4, on est passé d’une approche statique de la composition de l’image à une approche dynamique qui ne se matérialise désormais qu’au stade du décodage.

GIF - 18.8 ko
Synoptique du terminal de réception