LES SYSTEMES TRADITIONNELS
Les systèmes traditionnels de diffusion du son s'appuient principalement sur un principe de base:
Le rayonnement du son traversant le prisme des haut-parleurs est calculé en fonction d’une place précise qui est celle de l’auditeur, appelée le « sweet spot ».
Nous définissons donc tous les systèmes dérivés de ce principe comme systèmes traditionnels ou conventionnels.
Les plus populaires d'entre eux sont les systèmes stéréophoniques, quadriphonies, 3/2/1 ou plus connus sous le terme 5.1, et tous les systèmes multicanaux du même type (il existe aujourd’hui de plus en plus de systèmes 10.2 pour le tout public par exemple).
La stéréophonie "binaurale":
Ce système de reproduction est lié à un système de prise de son. Il consiste à placer des microphones dans nos oreilles, le plus souvent matérialisées par celles de la tête de prise de son, et à écouter le résultat au casque.
Cependant, la qualité de restitution de la spatialisation dépendra de certains facteurs tels que l’utilisation d’un casque de qualité de type « ouvert ». Elle sera surtout fonction de la morphologie de la personne ou de la tête (synthétisée ou non) faisant la prise de son : si la personne ou la tête synthétisée a des cheveux, la forme de la tête, du buste, des oreilles où se trouvent les micros, etc.
Avec le binaural/transaural, et les débuts du mixage orienté objet, nous commençons à approcher le concept de base de la WFS sur le principe d’encodage du son par source sonore à restituer, et non par canal, comme pour la stéréophonie ou les systèmes multicanaux conventionnels.
Seulement, le rayonnement global du son est optimisé pour un seul point d’écoute. De ce fait, on ne peut pas se déplacer dans la scène sonore, car une fois éloigné du point d’écoute, des distorsions de localisation apparaissent, et il est nécessaire de les compenser par différentes méthodes d’égalisation, comme l’égalisation multicanal appliquée au transaural (Damaske, 1971).
Toutes ces méthodes de correction restent néanmoins empiriques.
« Si l’on s’amuse à spatialiser le son avec des techniques traditionnelles basées sur l’idée qu’on encode le champ sonore pour un point particulier de l’espace, on se retrouve avec une zone d’écoute cohérente limitée à quelques places dans l’axe de la console de mixage ou la console de mixage même, et sorti de là, cela ne va plus : dès qu’on est un peu trop sur le côté, on perçoit uniquement les sons qui viennent des enceintes desquelles on se rapproche. » [Arnaud Damien, FISM 2013]
On peut alors spatialiser le son grâce au «panoramique d’intensité». Certains systèmes développés dernièrement cherchent également à utiliser la phase, c’est-à-dire le facteur de temps, pour élargir la scène spatiale.
Dernièrement plusieurs entreprises ont cherché à ajouter le facteur d’élévation en rajoutant des enceintes au-dessus du public, tel que le « Dolby Atmos ».
Il « externalise » ainsi l’écoute de sorte que l’auditeur semble se retrouver dans l’environnement sonore 3D de la prise de son.
LES SYSTEMES WFS
La révolution de la WFS réside dans le fait que le rayonnement du son traversant le prisme des haut-parleurs est désormais calculé en fonction de la source sonore spatialisée que l’on souhaite émettre, et ce pour toute la zone publique.
On passe donc d’une situation dite « égocentrée » à une situation dite « exocentrée ».
« Avec la WFS tu recrées un champ sonore dans une zone étendue alors qu’avec les techniques de surround classique tu recrées les indices perceptifs de localisation pour un point précis dans la zone d’écoute : le sweet spot. » [Charles Verron]
Le gain d'intéligibilité:
Nous percevons alors le son comme correspondant à une source virtuelle et non aux haut-parleurs. Grâce à notre pouvoir de discrimination et de localisation du son, la WFS permet un gain important en intelligibilité sur un son choisi. Notre cerveau ne fera plus correspondre le son à une source de diffusion mais à la position de la source spatialisée.
Il est donc possible de jouer sur les propriétés psycho-acoustiques humaines à la diffusion grâce à la discrimination des sources sonores par séparation perceptive et aux effets de masquage : faire jouer deux sons différents mais n’en formant qu’un lorsqu’on les assemble, puis les déplacer afin de faire découvrir aux auditeurs ces deux sons.
L'évaluation de la perception de distance:
Grâce à la manipulation des paramètres de distance holophonique et de présence de la source, il est également possible créer une réelle perspective sonore réaliste ou artistique. Le technicien sera libre d’expression sur le choix de la représentation de la scène sonore.
Dans les faits, la courbure du front d’ondes est induite par ce que l’on va appeler « distance holophonique », qui est la distance entre le centre du dispositif dans la scène sonore et la source virtuelle. Mais la perception précise de la distance ne repose pas que sur la courbure du front d’ondes même si c’est un indice important permettant une estimation première de la direction et de la distance grâce à l’ITD (Cf. Nos oreilles).
Cela nécessite plus d’indices perceptifs afin que l’on puisse retranscrire le relief dans un environnement sonore, Il est donc nécessaire d’avoir un effet de salle et d’atténuation, avec le rapport du niveau du son direct sur le champ diffus en complément. Nous rappelons que la précision de localisation d’une source est en grande partie permise grâce aux mouvements de tête que nous faisons tout le temps. Sachant que l'écoute WFS est cohérente en tout point de la sweet zone, l’auditeur peut s’y déplacer tout en usant de ce principe pour réduire le taux d’erreurs des indices perceptifs.
Certains effets, en regard du spectre, participent aussi à l’effet de distance. Nous pouvons citer l’absorption des aigus dans l’air, et donc la modification spectrale du son (le bas du spectre est moins propice à cet effet). En sonorisation, lorsque l’on veut rayonner de façon efficace sur la distance, on augmente légèrement les aigus pour palier à cet effet.
On va donc utiliser plutôt la notion de « présence de la source » et d’impression spatiale (= terme générique rassemblant tous les aspects de la perception de l’espace sonore) [Lavandier, 1989], [Jullien, 1992 et 1995].
Une révolution pour les techniciens:
De cause à effet, nous perdons la pertinence d’utilisation du principe d’image fantôme (pour une position d’écoute préférentielle) qui devient donc obsolète avec l’utilisation de la stéréophonie sur un système WFS. Sauf pour certains cas précis où nous utilisons les propriétés des sources virtuelles à ondes planes afin de permettre une généralisation de l’effet d’image fantôme à une zone d’écoute plus élargie.
Il est donc très important pour le technicien responsable de se déplacer dans la sweet zone afin de comprendre l’influence de la spatialisation sur le rendu global mais aussi en tous points de l’audience et de créer sa représentation de la scène sonore en prenant en compte ces critères.
Ainsi la manipulation de la position exacte de la source sonore doit se faire avec précaution et de façon réfléchie. L’oreille reste le meilleur juge et nous pouvons adopter différents points de vue de la scène.
Il faut alors reconsidérer le mixage de telle façon qu’il reste cohérent pour toutes les positions d’écoutes.
« Un des avantages que procure la technologie WFS, c’est de proposer une mise en espace des sons qui est très proche de la situation naturelle. Puisqu’on va disposer un certain nombre d’enceintes acoustiques dans l’espace au travers desquelles on va faire jouer des sources (renforcer des sources sur scène ou faire jouer des sons préenregistrés). Et tout se passe comme si on avait des sources sur scène qui émettent suffisamment fort pour que tout l’auditoire perçoive les éléments sur la scène avec un bon niveau d’écoute, un bon confort sonore. » [Arnaud Damien, FISM 2013]
LA REPRODUCTION D'UN CHAMP SONORE: UN NOUVEL ART?
La pertinence de la WFS, sur le terrain, repose en grande partie sur les choix du mode d’utilisation du système :
- Va-t-on adopter un point de vue transparent par rapport à la scène visuelle (chaque source virtuelle correspond au placement des instruments sur scène et ne bouge qu’avec eux via un système de tracking par exemple) ?
- Ou va-t-on plutôt se rapprocher d’une perspective artistique, non réaliste (ne pas faire correspondre placement des instruments et sources virtuelles avec mise en mouvement de ces dernières, etc.) ?
Le technicien devra se poser toutes ces questions avant d’entamer un travail de spatialisation du son, car il aura à sa portée des choix qui n’était auparavant pas vraiment envisageables. Peut-être y aurait-il la nécessité d’un réalisateur artistique assumant ces choix suivant le cas auquel il serait confronté ?...
En d’autres termes, « cela va permettre la reproduction des propriétés acoustiques d’un champ sonore dans une zone étendue de l’espace et reproduire la courbure des fronts d’ondes en rapport avec la position de la source virtuelle. » [Corteel, 2006]. Nous pourrons spatialiser le son grâce aux techniques de « mixage orienté objet » dans une scène sonore prédéfinie à l’installation du système.
S’il ne vérifie pas son mixage dans tout l’espace d’écoute, il risque de perdre ce qui fait la pertinence du WFS et la cohérence de son mixé une fois éloigné de sa position d’écoute. Ainsi la manipulation de la position exacte de la source sonore doit se faire avec précaution et de façon réfléchie. L’oreille reste le meilleur juge et nous pouvons adopter différents points de vue de la scène.
Premier choix: La transparence:
Cela consiste en la création d’une scène sonore correspondant en tout point à une scène visuelle (écran ou concert). C’est à dire que la spatialisation des évènements sonores correspond à des événements visuels tels que des instruments. Il sera donc nécessaire de faire une mise à l’échelle de la scène sonore virtuelle correspondant à la taille du dispositif.
Cela soulève une question : est-ce que la scène sonore virtuelle créée avec un dispositif WFS, va être adaptée à un autre dispositif WFS et correspondre aux événements visuels ? Cela va dépendre du « comment nous créons notre scène sonore » ; d’où l’importance d’une mise à l’échelle de l’interface de création de la scène sonore pour que celle-ci soit en rapport relatif et s’adapte automatiquement à un dispositif analogue. Cependant une vérification perceptive dans toute la zone d’écoute sera nécessaire par sécurité.
Nous pourrons donc utiliser des outils tels que le tracking ou la reproduction d’effet de salle afin de proposer une perspective réaliste correspondant en tout point à la scène visuelle : le système d’amplification devient alors totalement transparent pour l’auditeur et se fait oublier. Très utile dans les musiques acoustiques (notamment classique et Jazz) ou le théâtre, cela n’empêchera pas la mise en place d’évènements non réalistes, en relation avec le cadre de son utilisation.
Exemple : tracking sur les comédiens dans un théâtre et inserts d’évènements sonores au lointain, type effets ou voix off. Dans ce cas précis, le technicien n’a plus besoin de disposer des haut-parleurs cachés dans le décor afin de faire correspondre certains événements spatialisés.
Afin d’être le plus transparent dans la scène sonore, il faudra travailler la spatialisation des sources virtuelles avec précision, et les confronter perceptivement à notre localisation à un maximum de point d’écoute dans la sweet zone, et peut-être, trouver des compromis de placement afin d’avoir un rendu global le plus qualitativement correct.
On y voit donc l’importance de l’interface utilisateur : va-t-on pouvoir jouer avec l’échelle afin d’augmenter la précision des contrôles ? Quels contrôles allons-nous avoir à notre portée ? Pouvons-nous user de contrôles de groupe de sources virtuelles afin d’améliorer l’efficacité du travail ? Etc.
L’effet de salle aura aussi son importance car il servira à mettre le spectateur dans une ambiance précise et lui proposer une immersion différente. Pour cela nous pourrons utiliser la synthèse d’ondes planes à différents endroits de la zone de reproduction pour diffuser une réverbération non corrélée améliorant le réalisme de l’effet de salle.
Par exemple: il est possible de positionner 8 sources virtuelles correspondant à une réverbération 8 points tout autour de la zone d’écoute avec un calcul des premières réflexions, des secondes et du champ diffus en fonction du temps, tout cela en fonction des positions respectives des autres sources virtuelles correspondant aux instruments dans la scène sonore. Le résultat perceptif se rapprochera de la diffusion acoustique dans un autre lieu. Cela placera automatiquement notre écoute dans un lieu ne correspondant pas forcément au lieu de diffusion (écouter un concert classique ou jazz, et faire croire à nos oreilles que nous sommes au Royal Albert Hall ou à l’Opéra de Sydney, entre autres ?).
Interview durant le FISM 2013 au Studio Charles Trenet à Radio France dans le cadre d’un concert Jazz du groupe Emakio sonorisé en WFS :
« La WFS est une technologie qui permet de faire oublier la technique, et que le public puisse s’attacher, se concentrer sur la performance, le contenu artistique. Et même, au premier rang, on n’a pas l’impression que le son sort particulièrement des enceintes, on peut s’attacher au discours musical. On peut atteindre un bon degré de transparence et c’est très agréable. »
Suivant le degré de transparence souhaité, le choix artistique concernant l’effet de salle ou non, la jauge d’audience, le lieu de diffusion, pour tel ou tel événement, nous devrons penser l’installation WFS en conséquence, et peut-être adapter le dispositif.
Interface de représentation de scène sonore avec le système WFS de Sonic Emotion.
Second choix: Le mixage orienté objet
« Jusqu’à présent, puisque ça n’existait pas sur scène, on a imaginé tout ça dans les mixes de nos disques : on a passé du temps à imaginer des sources qui bougent de droite à gauche et vont en profondeur, beaucoup de plans sonores différents en stéréo. Mais en live, on a opté pour une autre stratégie puisque cela n’existait pas. Là, tout ce que l’on fait sur un mixe CD on va pouvoir le faire sur scène. Ca va être un gros délire ! » [Emakio, FISM 2013]
On peut directement comprendre et imaginer la pertinence du système WFS dans un projet artistique, où nous pensons le son et sa spatialisation de façon non-conventionnelle. Dans les domaines où cela se prête, nous pouvons citer entre autres les musiques électroniques, le cinéma (animé ou non),..
Les possibilités d'un système WFS sont presque sans limites sur le potentiel créatif. Voici quelques exemples :
- Sons de type court et harmonieux lancés aléatoirement suivant l’octave, envoyés vers plusieurs sources virtuelles se déplaçant aléatoirement à différentes vitesses dans la scène sonore donnant une impression de « pluie d’étoiles » sur toute la zone d’écoute (mieux en 3D avec le facteur d’élévation).
- Renversement de la scène sonore
- Jeu « d’ouverture / fermeture » de la scène sonore (rassembler toutes les sources virtuelles en un point puis les éclater dans l’espace)
- L’effet Doppler avec manipulation de la vitesse et de la position exacte de la source.
C’est en s’éloignant de la recherche d’une scène sonore « transparente » que l’on va découvrir le potentiel du système et se rendre compte d’un nouveau pouvoir créatif aux frontières de nos connaissances artistiques.
Voici des Techniques de mixage orienté objet pour mixer un multipiste, en live ou en post-production avec un système WFS:
Suivant le système WFS utilisé, il peut y avoir des limitations dans le nombre de sources virtuelles à disposition ainsi que de sorties de notre interface audio alimentant ces sources virtuelles. Nous devrons donc penser le mixage afin de ne pas dépasser ces limites, et d’être plus efficace dans le routing des signaux d’alimentation des sources virtuelles.
Deux cas de figures vont se présenter :
- Le premier (le plus évident à penser) serait de penser que chaque piste sur notre console ou notre DAW (tel que Protools) alimente un objet source à la fois. Nous manipulerons donc cette source virtuelle en fonction de la spatialisation choisie pour chaque piste.
- Le second (le plus efficace en post-production cinéma) consiste à utiliser une source virtuelle et l’alimenter avec plusieurs pistes, mais à différent moment : lorsqu’une piste ne joue plus, nous alimentons la source virtuelle avec une autre piste, et ainsi de suite. Nous devrons donc faire bien attention de créer la spatialisation avec cette source virtuelle en fonction de la piste qui joue au moment adéquat ! Cette technique va permettre de spatialiser de nombreuses pistes audio, non continues, alimentant le système WFS ne disposant pas d’autant d’objet source que de pistes sur notre console ou notre DAW.
D’autres techniques de mixage orienté objets existent :
Avoir des sources virtuelles placées à différents endroits dans la scène sonore fixe, et travailler les effets de perceptions du type rapprochement, éloignement, immersion, ouverture-fermeture, etc... avec les possibilités de routing des signaux d’alimentation. Par exemple, faire passer avec une transition lente un même signal d’alimentation d’une source virtuelle fixe à une autre. Dans ce cas-là, il faudra faire bien attention que les sources virtuelles recevant ce même signal ne soient pas très éloignées entre elles afin d’éviter, au maximum, la création de flou perceptif dans la spatialisation.
Ce type de technique est plutôt utile lorsque l’on dispose les sources virtuelles à l’infini acoustique (restitution d’ondes planes) alimenté par des sons de type ambiance ou événement soudain entourant la zone d’audience (ex : quelques types de sound design, la musique, les ambiances dans les productions audiovisuelles). Le risque étant de perdre une partie de la cohérence dans notre scène sonore lors des transitions entre objets sources.
Ce qui va être très intéressant, c’est de mélanger toutes ces techniques de mixage orienté objet et de les combiner afin de créer de nouvelles techniques hybrides...