envoyer l'article par mail title=  Version imprimable de cet article

Ressources > Notes techniques

Télécharger

La visioconférence sur IP

L´auteur

Philippe Gasser

Tags

courant porteur
Visioconférence
IP
H323
H320
gateKeeper
GK
UDP
TCP
RTP
codec
partage de document(s)
tableau blanc
H350
SIP
NAT
translation d’adresse
firewall
DMZ
multi point
passerelle
cc by-nc-sa

Visioconférence : les technologies d’aujourd’hui

mardi 4 janvier 2005

Deux modes de transmission

Pour établir une visioconférence entre deux sites, deux modes de transmission sont donc aujourd’hui privilégiés : le réseau Numeris de France Telecom d’une part, les réseaux IP au sens large du mot, c’est à dire le réseau Internet dans son aspect mondial, et les réseaux informatiques locaux (de type Ethernet par exemple...) qui y sont connectés. Les deux modes de transmission ont en commun d’être tous les deux entièrement numériques, mais la similitude s’arrête là. Des différences fondamentales existent. Les deux modes de diffusion sont technologiquement très différents et s’appuient sur deux familles de normes spécifiques : l’un est plus ancien, et bien ancré dans les habitudes, le second est plus récent et se développe actuellement de manière importante même s’il n’est pas toujours le plus performant.

Les liaisons entre les sites distants sont en temps réel et en full duplex (les liaisons sont bi-directionnelles et chaque site est simultanément émetteur et récepteur). Les débits sont identiques dans les deux sens.

La majorité des matériels commercialisés en France depuis 5 ans peuvent fonctionner sous IP. Un grand nombre d’entre eux adoptent la double compatibilité IP et RNIS.

Transmission via Numeris

Le réseau de télécommunication numérique de France Telecom (RNIS pour Réseau Numérique à Intégration de Service, en anglais ISDN - Integrated Service Digital Network), plus connu en France sous le nom commercial de NUMERIS, est disponible en France depuis le début des années 1990. C’est un réseau numérique de bout en bout (par opposition au réseau téléphonique (RTC) où les liaisons terminales avec l’usager sont toujours analogiques) et le débit y est garanti. Un accès dit de base comprend deux canaux B à 64 kb/s pour les données soit un débit utile de 128 Kb/s, et un canal pour la signalisation (canal D à 16 Kb/s). Des débits supérieurs, 256 Kb/s ou 384 Kb/s, sont possibles par le regroupement de plusieurs accès de base. Des couplages plus importants sont également réalisables : un accès dit « primaire » comprend 30 canaux B à 64 Kb/s ce qui correspond alors à un débit utile de 2 Mb/s. La qualité des images (et dans une moindre mesure des sons) est directement dépendante du débit possible dans le réseau de transmission : plus il sera élevé et meilleure sera la restitution. Pour obtenir une fluidité correcte des images, il est nécessaire d’opter au minimum pour une liaison à 384 Kb/s.

A l’image d’une communication téléphonique classique, on établit une connexion temporaire pour mettre en relation les interlocuteurs distants (on utilise le terme de commutation de circuit). Elle permet l’établissement d’un chemin direct qui est dédié à la communication entre les points participants. Toutes les données vont suivre le même chemin pendant toute la durée de la session. La qualité de service est assurée : le débit étant garanti, la qualité des images et des sons n’est pas sujette à variations, voire à des coupures. On a une qualité de service optimum, ce qui n’est pas le cas, on le verra avec les technologies sous IP.

Numéris est disponible sur abonnement auprès de France Télécom. Le RNIS est pratiquement disponible dans le monde entier et est normalisé. Comme pour le téléphone, les communications sont facturées en fonction de la durée de la communication et de la distance. Le coût est également proportionnel au nombre de canaux B utilisés. De ce fait, dans la majorité des cas, les débits adoptés ne dépasseront pas 384 Kb/s.

La visioconférence sous IP : des avantages mais aussi des contraintes spécifiques

Le titre générique de « visioconférence sous IP » est utilisé dans son sens le plus large, c’est à dire pour désigner des visioconférences qui s’appuient à la fois sur les technologies d’Internet mais aussi sur celles des réseaux privés ou locaux (réseaux Ethernet, Intranet ...). A l’inverse de Numeris, la visioconférence sur IP repose, en ce qui concerne sa transmission sur les réseaux, sur des principes techniques totalement différents. Cette technologie apporte de nombreux avantages mais engendre aussi des inconvénients spécifiques.

La visioconférence sur IP utilise une infrastructure qui n’a pas été conçu à l’origine pour des applications vidéo. Que ce soit sur Internet ou dans le cadre du réseau informatique d’un établissement, les lignes utilisées sont parcourues par des flux divers et variés, leurs capacités en terme de bande passante doivent être partagées en permanence entre de nombreuses applications ou périphériques informatiques... Le débit possible (et donc la qualité de la transmission) dépend directement de la charge du réseau à un moment donné et peut donc être très variable en fonction du moment. Le débit n’y est pas garanti d’où le risque d’une mauvaise fluidité des images et des sons.

A l’opposé de la visioconférence sur RNIS pour laquelle on établit une liaison directe et permanente entre les participants et où toutes les informations numériques circulent sous la forme d’un flux continu avec un débit constant, (et donc avec une qualité de service constante), les données numériques sur un réseau IP sont découpées en paquets. Ces paquets circulent sur le réseau et sur Internet totalement indépendamment les uns des autres. Ils peuvent, en toute autonomie, prendre des itinéraires différents (en plus des données « utiles », chacun d’entre eux intègre une entête contenant différentes informations, notamment l’adresse IP d’arrivée). Ces paquets peuvent parvenir à destination avec des écarts variables et pas nécessairement dans le bon ordre voire être détruits en cours de route. De prime abord, ces caractéristiques pourraient paraître totalement incompatibles pour une restitution correcte de la vidéo et de l’audio qui exige par nature un flux continu et régulier. Sur le plan qualitatif, les problèmes de transit évoqués peuvent se matérialiser à l’écran par une dégradation des images (apparition d’artefacts) voire leur gel ou leur disparition complète. Des technologies particulières ont été développées pour adapter les réseaux IP au contraintes du transport des données vidéo et audio en temps réel.

GIF - 5 ko
Sur un réseau IP, les données sont découpées en paquets. L’entête contient des informations pour le routage, notamment l’adresse IP du poste expéditeur et celle du poste destinataire

Conçu à l’origine pour des applications qui n’étaient pas multimédia, Internet repose à la base sur deux protocoles IP et TCP. Le protocole IP assure l’acheminement des paquets de point en point, jusqu’au terminal final mais sans se préoccuper du contenu. Il ne gère pas les pertes et les retards. Ce protocole simple mais peu fiable est complété par le protocole TCP qui assure la fiabilité de la transmission en demandant la ré-émission des paquets perdus ou détruits. Du fait de cette procédure de ré-émission, TCP est un protocole lent. Cette fiabilité qui est un atout pour la transmission de fichiers « informatiques » devient, du fait de la lenteur, un inconvénient pour la transmission de la vidéo et de l’audio.

Un des principaux problèmes des réseaux est la congestion ou la surcharge du trafic qui va provoquer des retards et les délais dans l’acheminement des paquets (à l’arrivée, les écarts temporels entre paquets ne sont pas identiques à ce qu’ils étaient au départ : on appelle cela la gigue). On utilise souvent le terme de "qualité de service" (QoS) pour caractériser l’aptitude d’un réseau à assurer la transmission des données. La qualité de service "best effort" est celle qui est fournie traditionnellement par l’Internet et correspond en fait à une absence de qualité de service. La notion de priorité n’existe pas, le réseau traite de façon identique tous les flux qui circulent à chaque instant, quel qu’en soit le contenu. Les dégradations (ralentissements, pertes) dues aux éventuelles surcharges sont réparties à égalité entre tous. Le réseau "fait de son mieux" (best effort) pour acheminer le plus efficacement possible la totalité des données, sans s’inquiéter des besoins spécifiques correspondant à chacun des flux, et donc sans établir de différenciation entre les données audiovisuelles et les données « informatiques ».
Pour compenser la lenteur de TCP, on a ainsi créé le protocole UDP (User Datagram Protocol), un protocole simplifié à l’extrême, sans ré-émission des paquets perdus mais qui présente l’avantage d’être beaucoup plus rapide. Au cours d’une session de visioconférence, les deux protocoles TCP et UDP sont simultanément utilisés conjointement avec IP en fonction des caractéristiques des données à transmettre : TCP pour les données ne souffrant aucune perte (établissement des appels, signalisation et gestion des communications, applications informatiques partagées...) et UDP pour la transmission bilatérale des signaux audios et vidéos pour lesquels une transmission en temps réel est exigée et où des pertes peuvent être tolérées.

Ces protocoles majeurs ont été complétés par des protocoles spécifiques et par des mécanismes particuliers destinés à optimiser la transmission des données audiovisuelles. Le protocole RTP (Real-time Transport Protocol) contrôle les flux vidéo et audio dans les applications en temps réel. Il assure la numérotation des séquences, ajoute une référence temporelle (timestamp) qui indique l’instant exact d’émission du paquet à la source permettant ainsi à l’arrivée de replacer les paquets dans le bon ordre, et de rétablir la régularité temporelle. Sous le terme de Packet Assist, la société VCON rassemble sur ses matériels tout un package de fonctionnalités destinées justement à compenser tous ces défauts temporels : Packet Ordering pour replacer les paquets dans le bon ordre, Jitter Correction pour recaler leur séquencement, Lip Sync Correction pour réaliser la re-synchronisation des données audio et vidéo et Lip Sync Delay Ajustment pour modifier éventuellement le décalage entre le son et l’image (et compenser une désynchronisation possible entre le mouvement des lèvres et la voix des intervenants). Des dispositifs similaires sont proposés chez les autres fournisseurs.