WFS Into The Wave
MISE A PLAT DU BANC DE SOURCES SECONDAIRES
SYNTHESE DE SOURCES VIRTUELLES
GEOMETRIE DES SOURCES SECONDAIRES, APPROXIMATIONS ET SIMPLIFICATIONS
CONCLUSION
Introduction comparative de l'audio 3D:
L’Audio « 3D » ou Audio « Immersif » n’a pas de réelle définition normalisée. A quoi correspondent alors ces termes ? Quel est l’apport pour le spectateur et où en est la technologie ?
Permettre une utilisation accrue de notre audition pour une approche narrative approfondie, notamment multi-sensorielle : tel est l’objectif de l’audio 3D. Ainsi, dès la création du contenu, nous allons proposer un relief sonore, une réalité absolue admise par l’auditeur alors immergé dans le son.
Cette sensation d’immersion s’accompagne d’une nécessité de simplification des démarches techniques, pour proposer soit une stabilité et une qualité améliorées, soit un nouveau rapport à la création de contenus.
Penser le contenu en format « objet »
Les fondements de l’audio 3D reposent sur l’idée du format dit « objet », d’indépendance entre le format du contenu audio et de diffusion. Les particularités notables sont la dissociation des étapes de création ou de captation de celle du rendu, ainsi que la capacité à reproduire une scène sonore de façon réaliste et enveloppante.
Nous avons depuis toujours travaillé avec l’idée de « canaux de restitution » et donc d’attribution d’un format en fonction de la diffusion finale. Autrement dit chaque canal correspondant à un haut-parleur, lui-même placé à une certaine position dans l’espace. Ainsi un contenu 5.1 ne peut être rendu de manière fidèle que sur une installation compatible où chaque piste est reproduite par le haut-parleur correspondant.
Aujourd’hui, beaucoup trop de formats « broadcast » émergent sur le marché. Créer un contenu adapté à tous les formats devient difficile ; et la création d’un contenu adapté à un seul format se voit donc limité en diffusion.
Une utilisation large :
L’audio immersif a sa place chez le grand public ou chez les professionnels. Il est possible de rendre le système interopérable et adaptable à la demande afin de répondre à des besoins d’intégration :
-
Une salle de concert non-prévue à cet effet)
-
Des laboratoires (ex : IRCAM)
-
Des concerts (ex : Paris Jazz Festival ou Radio France au studio Charles Trenet)
-
Des théâtres (ex : Clermont l’Hérault avec la pièce « Des lambeaux noirs dans l’eau du bain »)
-
Mais aussi des musées et des boîtes de nuit, font la part belle à ces technologies innovantes, pertinentes dans leurs utilisations.
Audio 3D : Un domaine, plusieurs technologies:
Quelle différence entre ce que vous écoutez aujourd’hui et ce que l’on vous proposera demain ?
-
Au casque, nous pouvons utiliser la technologie binaurale (écoute personnelle). Si nous ajoutons du « tracking », le système devient gestuel, c’est-à-dire que la réalité proposée n’est plus immobile et réagit en fonction de nos mouvements. L’expérience devient interactive (Jeux vidéos ?).
-
Pour un concert, un théâtre, une boîte de nuit, nous pouvons utiliser la technologie WFS (écoute optimale en tous points de la zone d’écoute) ayant cet avantage d’être fortement adaptable en tous types de situations.
-
Pour les laboratoires et certaines expérimentations artistiques, le système Ambisonique, bien que complexe dans son installation, propose des caractéristiques intéressantes, pouvant être adaptées à une utilisation précise.
-
A la maison, certaines « barres de son » utilisant la technologie WFS proposent un système « plug-and-play », facile à mettre en place, de qualité, mais bridé à une utilisation de type « home-cinema ».
-
D’autre part, la technologie transaurale commence à faire son apparition, limitée à un seul point d’écoute mais proposant une ouverture de champ à 270° à partir d’une simple chaîne stéréophonique (de préférence de qualité).
-
D’autres systèmes, utilisant les propriétés acoustiques d’une pièce, vont jouer sur la réflexion du son, entre autres avec les murs et le plafond, pour proposer de l’audio immersif.
Des innovations au service du contenu:
Tout le potentiel artistique n’a pas encore été totalement extrait de ces innovations. Il apparaît évident qu’un artiste, un comédien, un réalisateur peut utiliser cette technologie pour se démarquer et proposer quelque chose de nouveau et d’original. A fortiori, si cela va dans le sens du propos du contenu - tel « L’arrivée d’un Train en Gare de la Ciotat » des Frères Lumières - le public ne pourra l’oublier…
Des applications étendues:
Voici quelques domaines où l’Audio immersif a déjà pu démontrer son utilité :
-
Boîtes de nuit (écoute optimale généralisée, meilleure répartition du niveau sonore et de nouveaux effets proposés aux DJ).
-
Théâtre (nouveau potentiel de mise-en-scène : évènements sonores au lointain et tracking, c’est à dire spatialisation en temps réel des comédiens).
-
Cinéma (apport au propos scénaristique, ou à la réalisation d’un contenu sonore original. Immersion totale du spectateur).
-
Jeux-vidéo (immersion totale du joueur, proposition d’évènements hors-champs précisément localisables).
-
TV / home-system (systèmes son plug-and-play, prenant moins de place dans le salon tout en proposant une qualité de reproduction exemplaire).
-
Médecine (diagnostic et aide pour les malentendants, malvoyants, contre certaines névroses phobiques, etc.).
-
Musée (Visite guidée et balade sonore immersive).
En conclusion:
L’audio 3D répond à une demande incessante de qualité sonore accrue, mais aussi d’utilisation maximale des caractéristiques de notre appareil auditif. Explorer de nouvelles frontières sonores et nous permettre d’en disposer pleinement, faire rêver, stimuler encore plus l’imagination, tels sont les enjeux de l’industrie du divertissement.
Les nombreuses applications de l’audio immersif et les capacités offertes par ces systèmes laissent présager une démocratisation certaine. Aux vues des capacités et des perspectives étendues qui sont, ou vont être proposées, l’apport de ce type de systèmes n’a d’équivalence.
Bien que le grand public soit déjà sensibilisé à l’apport de ces technologies, il semble nécessaire d’entreprendre un travail d’apprentissage afin de changer les mœurs, si bien articulés autour des traditions, limité à ce que l’on sait déjà faire (c’est à dire au concept stéréophonique, de mixage par canaux de restitutions).
Un marché florissant, un système modulable selon les besoins, un accroissement des perceptions auditives, voici les caractéristiques d’un domaine précurseur...
VOICI UN COMPARATIF DES DIFFERENTS SYSTEMES DE DIFFUSION AUDIO 3D
Commençons par expliquer les principes de base sur lesquels repose la technologie WFS...
Nos oreilles disposent de trois principaux outils permettant la localisation d'un son dans l'espace:
- La différence d’intensité du son entre nos deux oreilles. Un son provenant de droite aura un niveau supérieur dans notre oreille droite par rapport à la gauche. Appelé ILD (Inter-aural Level Difference), cela permet surtout la localisation d’un son dans le haut du spectre auditif.
- La différence de temps (ou phase) entre l'arrivée du son dans une oreille par rapport à l'autre, Appelé ITD (Inter-aural Time Difference), cela permet surtout la localisation d’un son dans le bas du spectre.
- Et pour finir, la modification de spectre que subit un son à l’arrivée entre nos deux oreilles. Un son venant de droite aura un niveau inférieur à l’arrivée à notre oreille gauche, mais le haut du spectre sera également masqué par la présence de notre tête et les aigus s'en verront modifiés. Aussi appelée ISD (Inter-aural Spectral Difference), cela permet notamment la localisation d’un son dans le plan médian de notre tête (c’est à dire l’élévation).
Nb. Même si nous utilisons tout le temps ces 3 caractéristiques de nos oreilles pour localiser un son, nous avons quelques problèmes de localisation pour une source sonore se trouvant dans le plan vertical dans l’axe de notre tête. Concernant la face avant, le cerveau va corréler la localisation d’un son grâce à nos yeux (lorsque l’on peut voir d’où vient le son) et va automatiquement lever l’erreur. Pour tout le reste, nous faisons sans arrêt des mouvements de tête permettant au cerveau la réduction du taux d’erreurs de localisation du son.
Intéressons-nous maintenant aux fondements mathématiques de la synthèse de fronts d'ondes:
Selon la théorie de Huygens (1678), « Les vibrations qui se propagent à l’extérieur d’une surface fermée contenant la source sont identiques à celles que l’on obtiendrait en supprimant cette source et en la remplaçant par des sources convenablement réparties sur ladite surface ».
1 - Imaginons que l’on fasse tomber un caillou imaginaire (source primaire que nous appellerons plus tard « source virtuelle ») au milieu d’une flaque:
Des ondes concentriques se propagent à partir du point d’impact...
2 - Faisons un arrêt sur image et laissons maintenant tomber une infinité de cailloux (sources secondaires) sur une de ces ondes...
Les ondes au point d’impact de chaque caillou fusionnent et correspondent parfaitement à l’onde primaire du caillou virtuel tombé au centre.
Transposez cette théorie à un système de sonorisation et vous obtenez la base de la WFS!
En effet, l suffirait placer une infinité de sources acoustiques réparties autour d’un point précis, et nous percevrions le signal provenant du point précis et non venant des sources acoustiques.
Voyons maintenant le concept de la WFS...
Mise à plat du banc de Hauts-Parleurs
Le fait de disposer d'une infinité de sources secondaires le long d’un front d’ondes que l’on souhaiterait reconstituer est impossible en pratique...
Pour rendre la synthèse de fronts d’ondes possible dans la réalité, il faut répartir les sources secondaires en ligne et s’aider de délais (retard) pour simuler leur position sur l'onde de la source primaire.
On passe ainsi de la reconstitution d’une onde sphérique à une onde cylindrique profitant d’une atténuation théorique de 3dB par doublement de distances de l’onde acoustique.
Cela va permettre de synthétiser une source primaire n’importe où dans le demi-espace de « captation » (scène sonore) et donc le rendu de plusieurs sources virtuelles à la fois.
La synthèse des sources sonores virtuelles:
La mise à plat du banc de Hauts-Parleurs donne à synthétiser trois principaux types de sources virtuelles:
La source pontcuelle omnidirectionnelle:
Ce que l’on appelle source omnidirectionnelle ponctuelle est une source primaire non directive située dans le demi-espace de captation (derrière le banc de haut-parleurs) qui va être synthétisée par la ligne de sources secondaires.
La source à onde plane:
Une onde plane est une onde dont la source (omnidirectionnelle) primaire est située à l’infini acoustique. La restitution de cette onde par la ligne de sources secondaires va dépendre de l’angle d’incidence de cette ligne à la source primaire.
La source omnidirectionnelle ponctuelle "focalisée":
Cela concerne toutes les sources primaires situées dans le demi-espace de restitution.
Il existe également une source dite "à directivité arbitraire":
Cela concerne toute sources primaires dont le front d’onde synthétisée ne correspond pas à une source dont le rayonnement est omnidirectionnel ou plan.
Pour se faire, l'on utilise les propriétés des « harmoniques sphériques » afin de proposer la restitution d’une source directive. Grâce à la décomposition du rayonnement de la source primaire en harmoniques sphériques, il est possible de déduire les contributions de chaque source secondaire.
On peut ainsi proposer une synthèse complète (ou incomplète suivant le système WFS utilisé) des caractéristiques du rayonnement d’une source acoustique dans la nature ou plus fort encore, non-existant dans la nature !
C'est un front d’onde concave valable pour toute la zone d’écoute.
Dans cette configuration, la première source secondaire à rayonner sera celle se trouvant à la perpendiculaire de la ligne séparant les deux demi-espaces face à la source primaire.
Puis, suivant des délais calculés en fonction du front d’onde à synthétiser rayonneront à leur tour les sources secondaires limitrophes, et ainsi de suite, formant un front d’onde concave dont le diamètre dépend de la distance au foyer (lié à la source primaire).
La localisation en distance sera différente en fonction de l’aplanissement du front d’onde concave, et donc en fonction de la distance de nos oreilles à la source primaire comme le montre le schéma.
Dans ce cas, il faut faire très attention à l’utilisation d’onde plane,
Au niveau perceptif, l'on ne ressentira pas un effet d’éloignement si nous ne baissons pas le niveau sonore, ou ne rajoutons pas de réverbération (par exemple) à la source primaire.
Il s'agit en effet plutôt d'un effet dit de « glissement », comme lorsque nous nous déplaçons et que la source primaire nous suit.
On peut faire l’analogie avec une source lumineuse très forte à l’infini en champ libre tel que le soleil.
Les sources secondaires vont synthétiser un front d’onde convexe dont le foyer correspond à la source primaire.
Lorsque les rayonnements de chaque source secondaire convergent au foyer, un front d’onde concave se crée à partir de la source virtuelle. On peut donc localiser la source sonore dans le demi-espace de restitution.
Cela induit par contre des perturbations importantes, rendant le front d’ondes chaotique entre la ligne de sources secondaires et la source primaire, nous empêchant de la localiser.
Géométrie des sources secondaires, approximations et simplifications:
L'autre enjeu pour passer à une ligne finie de sources secondaires (un segment) est de savoir lesquelles contribueront le plus pour notre synthèse de front d’ondes, en fonction des sources virtuelles à restituer.
C’est ici que va se décider comment nous allons déduire la géométrie des sources secondaires (c’est-à-dire le placement des haut-parleurs).
Car cela va modifier la nature du champ sonore synthétisé, impliquant la nécessité d’évaluer les approximations et simplifications induites pour que la synthèse ne soit pas chaotique et que la perception n’en souffre pas.
Fenêtrage et zone de visibilité:
Ce que l’on appelle l'effet dit de « fenêtrage » s'assimile à « une fenêtre acoustique à travers laquelle on ‘’voit’’ un certain espace extérieur » [Corteel, 2006].
Il faut donc définir cette « zone de visibilité » comme étant la zone d’écoute du public selon les schémas suivants que sont:
La zone d'écoute optimale en fonction du type de source primaire synthétisée.
Et les limites de la zone d'écoute
pour un banc de Hauts-Parleurs
donné.
Le problème de la diffraction:
L'on constate également des effets de distorsions de localisation car la limitation de la distribution des sources secondaires à un segment induit un effet de « diffraction » aux bords de celui-ci (comme en optique avec des rayons lumineux rencontrant une ouverture plus ou moins large).
Pour limiter cet effet de diffraction, il faut diminuer les contributions des sources secondaires aux extrémités du segment.
L'aliasing spatial:
Le problème le plus compliqué à gérer est celui de « l’aliasing spatial » (lié à la distance inter-enceinte), c’est-à-dire du repliement du spectre au-dessus d’une fréquence de Nyquist dans le domaine spatial de Fourrier (c’est-à-dire en fonction de la longueur d’onde).
Ou bien distribuer convenablement les sources secondaires sur plusieurs segments (en fonction de l’installation en WFS souhaitée) afin d’additionner les zones de visibilité de chaque segment et ainsi proposer une zone d’écoute privilégiée.
Cela implique nombre de simplifications pour garder une synthèse de champs sonores correcte dans toute la largeur de la bande spectrale à restituer.
Voici quelques-unes des techniques utilisées afin de réduire l’impact de ce problème sur le timbre et les distorsions de localisations induites :
- Le filtre multicanal inversé en dessous de la fréquence d’aliasing spatial.
- Le filtre individuel par enceintes au-dessus de la fréquence d’aliasing spatial.
- La sélection des enceintes contribuant le plus à la synthèse de front d’ondes en fonction de la zone d’écoute privilégiée et donc réduction du nombre de sources secondaires actives [Corteel, Pellegrini, Kuhn-Rahloff, 2008].
Conclusion:
Interview d’Arnaud Damien, distributeur du système WFS proposé par Sonic Emotion :
« S’agissant de Synthèse de champs sonores, l’idée qu’ont eu les savants, c’est d’inventer un système qui permet de construire un champ sonore. Alors on ouvre les livres, et dans la théorie, on s’aperçoit que pour ce faire, il faut une infinité d’HP pour construire un vrai champ sonore tel que l’on en rencontre tous les jours dans toutes ses dimensions.
Donc, dès qu’on commence à vouloir construire une maquette du type, on s’aperçoit qu’on tord le cou à la théorie et qu’on va avoir des limitations, en particulier sur le nombre de HP.
Les laboratoires de recherche ont poussé très loin le bouchon de cette démarche théorique et proposent des systèmes qui permettent de créer de parfaits hologrammes sonores, l’équivalent des hologrammes visuels. »
Synthèse d’un front d’onde en fonction du temps.
La WFS sur le terrain:
Combien de Hauts-parleurs?
Les installations WFS dites classiques de l'IRCAM à Paris ou le Neue Aula Detmold en Allemagne comptent 128 et 340 canneaux.
IRCAM
Cependant le processeur Wave 1 de Sonic Emotion Labs permet de réduire ce nombre par dix. Il offre un contrôle spatial du champ sonore optimal (localisation, homogénéité spatiale excellentes) avec seulement 8 à 32 hauts-parleurs de type standard.
En effet, les installations modernes requièrent un haut niveau de pression acoustique et les enceintes standard offrent également d'excellentes performances dynamiques. Pour finir, le Wave 1rend possible d'étendre l'écoute WFS en 3D sans même avoir à doubler le nombre de sources, en effet il ne requiert qu'une faible densité en hauteur.
Le processeur Wave 1
Cet outil gère la Synthèse de Fronts d'Ondes à partir des différentes sources sonores qui lui sont envoyées, effectue tout ce qui est égalisation, calibrage des enceintes depuis une interface (logiciel PC branché en réseau avec le processeur).
Il effectue également le renvoi du flux Audio vers chaque canal à amplifier ainsi que la discussion en Open Sound Control avec tout type d'interface externe, permettant un contrôle en live de tout ce qui est paramétrable dans le processeur, dont le placement des objets sonores. Tout cela permet de créer un mixage appelé "mixage orienté objet".
Ces nombreuses simplifications rendent la WFS adaptable à n'importe quelle configuration de salle.
Les catégories d'installations:
Les Types d'enceintes nécessaires:
Front fill, cadre de scène, nez de scène:
- Enceintes compactes, peu directives (<90°)
- Par exemple coaxial 5 à 10 pouces ou systèmes deux voies peu directifs
Longue portée:
- Line array avec directivité horizontale large (>80°)
- Enceintes de type source ponctuelle à directivité asymétrique (>80° en horizontal)
Les configurations possibles:
Frontal 1 ligne (configuration "minimale"):
- 8 Haut-pareleurs
- Nez ou cadre de scène
Frontal, front-fill + longue portée:
- 8 à 12 Hauts-pareleurs au sol (front-fill densifié)
- 3 systèmes longue portée (2 line array + cluster/point central)
ou 5 à 7 enceintes à directivité plus marquée en vertical
Périphérique:
- 8 à 12 Hauts-pareleurs au sol (front-fill densifié)
- 3 systèmes longue portée (2 line array + cluster/point central)
ou 5 à 7 enceintes à directivité plus marquée en vertical
- 16 à 24 enceintes latérales et arrières
Pour plus de détails et des exemples d'installations illustrés et commentés, nous vous proposons un extrait du diaporama d'une conférence d'Etienne Corteel, l'un des concepteurs du processeur Wave 1:
NEUE AULA DETMOLD
En pratique:
Pour le projet WFS: Into The Wave
Avec ce système, il s’agit d’intercaler entre la console et le système de diffusion final, le processeur WAVE I, complété par un ajustement de la chaîne de diffusion.
Cet ajustement consiste à placer une ligne d’amplification par enceintes pour exploiter la synthèse de champs sonores.Il est nécessaire d’avoir au minimum 8 à 10 lignes d’amplification différentes pour avoir une synthèse cohérente.
Le placement des enceintes dépendra des prédispositions de la salle et de ses limites physiques (flexibilité du système).
Afin que la synthèse de champs sonores soit la plus performante possible, le placement idéal de chaque enceinte doit prendre en compte un espacement inter-enceinte correspondant à la moitié de la distance séparant la ligne d’enceintes du premier public.
Avec ce système nous n’avons pas accès aux sources virtuelles focalisée ou à directivité arbitraire, car cela ne permet pas d’avoir une solution stable et commerciale en l’état actuel de la technologie.