Audio spatial via des écouteurs : comment la science intègre 9 haut-parleurs et un caisson de basses dans votre tête
L’audio spatial connaît un moment. Bien que l’objectif d’offrir une expérience d’écoute plus immersive de type 3D soit né dans les salles de cinéma, une grande partie de la conversation autour de l’audio spatial s’est tournée vers la musique – en particulier la disponibilité relativement nouvelle des pistes Dolby Atmos Music via les services de streaming musical.
L'attrait de l'audio spatial n'est pas un mystère. Lorsque vous combinez l'une des premières façons novatrices d'écouter de la musique depuis la stéréo – associée à la prodigieuse puissance marketing d'Apple – vous obtenez beaucoup de gens qui veulent l'essayer.
Il reste cependant un mystère à savoir s'il existe une différence entre l'audio spatial d'un service de streaming à l'autre. Dites, sur Apple Music contre Amazon Music. Et qu’en est-il de vos écouteurs : affectent-ils le son spatial ?
Les réponses sont oui et oui, mais peut-être pas pour les raisons que vous pensez. Pour expliquer, examinons de plus près ce qui se passe dans les coulisses lorsque vous écoutez de l'audio spatial à l'aide d'un casque.
Avant de continuer, voici une introduction à l'audio spatial qui explique de quoi il s'agit et les différentes façons dont vous pouvez en faire l'expérience.
Une pièce pleine de haut-parleurs dans ta tête
Les formats audio spatiaux comme Dolby Atmos sont des extensions du son surround multicanal (pensez Dolby Digital), conçus pour une expérience d'écoute en salle de cinéma via des haut-parleurs placés dans une pièce. Cette salle théorique possède une façade, un arrière, deux côtés et un plafond.
La musique créée en Dolby Atmos commence par un « lit » de canaux 9.1, généralement configurés dans une disposition 7.1.2 qui correspond aux haut-parleurs à l'avant (gauche, centre, droite), aux côtés (surround gauche/droite), à l'arrière. (gauche/droite), le plafond (hauteur gauche/droite), plus un canal d'effets basse fréquence (LFE) envoyé à un subwoofer. En plus de ces neuf canaux, qui peuvent produire différentes quantités de son, Dolby Atmos ajoute jusqu'à 118 « objets » sonores qui peuvent se déplacer librement n'importe où dans l'hémisphère couvert par ces neuf haut-parleurs.
Lorsque vous écoutez de l'audio spatial via un casque, vous entendez la même bande sonore 9.1 canaux et 118 objets, ce qui semble être un paradoxe. Comment deux petits haut-parleurs fixés à votre tête peuvent-ils faire la même chose que neuf haut-parleurs disposés tout autour de vous ?
Tromper votre cerveau
La réponse se trouve dans la psychoacoustique, le domaine scientifique qui étudie la façon dont le cerveau interprète et réagit aux informations sonores. Cela inclut un processus connu sous le nom de localisation du son : la façon dont le cerveau utilise des signaux sonores pour déterminer de quelle direction vient un son et à quelle distance se trouve la source du son.
Nous localisons le son en synthétisant la hauteur et le volume. Mais le plus gros indice réside dans la manière dont le son parvient à chacune de nos oreilles. Nous sommes extrêmement sensibles aux moindres différences de timing. Si un son parvenait à notre oreille gauche juste une milliseconde avant d’atteindre notre oreille droite, notre cerveau le saurait et réagirait en conséquence.
À l’aide de modèles psychoacoustiques (et d’un casque stéréo), nous pouvons simuler la direction et la distance des sons du monde réel en contrôlant soigneusement la manière dont ces sons atteignent chaque oreille.
Rendu binaural
Le processus consistant à prendre un format audio spatial comme Dolby Atmos et à le transformer en utilisant les principes de la psychoacoustique en un ensemble de sons pouvant être émis via des écouteurs est connu sous le nom de rendu binaural.
Si vous avez déjà écouté Dolby Atmos, DTS:X ou Sony 360 Reality Audio (360RA) avec des écouteurs, à un moment donné de la chaîne de lecture, un algorithme logiciel de rendu binaural a été utilisé pour créer cette expérience. Il en va de même pour les jeux vidéo dotés de bandes sonores 5.1 ou 7.1 : celles-ci peuvent être restituées de manière binaurale par des technologies telles que THX Spatial Audio ou Immerse Gaming Hive .
Ce qui est intéressant dans le rendu binaural, c’est qu’il fonctionne sur n’importe quel casque ou écouteurs stéréo. Qu'ils soient filaires ou sans fil, et que vous ayez dépensé 10 $ ou 1 000 $, tous les casques stéréo sont compatibles avec le rendu audio spatial binaural. Un ensemble d'écouteurs peut spécifiquement annoncer qu'ils « fonctionnent avec l'audio spatial », mais cela revient un peu à dire qu'un ensemble de quatre pneus de voiture « fonctionnent avec des routes pavées » – ils le font tous.
Audio spatial : tout cela est hors de votre tête ?
Alors maintenant que je viens d'expliquer que le rendu binaural peut faire croire à votre cerveau qu'il écoute un système audio complet à 7.1.2 canaux en utilisant n'importe quel vieux casque – en d'autres termes, tout est dans votre tête – je vais me contredire. Partiellement.
La façon dont chacun de nous interprète les signaux de localisation sonore a beaucoup à voir avec la forme de notre tête. Plus précisément, la forme et l’emplacement de nos oreilles. La physiologie de notre tête crée une empreinte digitale unique (empreinte audio ?) sur les sons qui atteignent nos tympans – il n’y en a pas deux pareils. Dès la petite enfance, à mesure que notre cerveau développe notre capacité à localiser le son, il utilise cette empreinte audio comme modèle.
Lorsqu'elle est décrite mathématiquement et utilisée pour filtrer les sons entrants dans chaque oreille, cette empreinte audio est connue sous le nom de « fonction de transfert liée à la tête » (HRTF).
Les HRTF sont la clé
Pour que le rendu binaural soit aussi réaliste que possible, l'audio spatial est traité à l'aide d'un profil HRTF.
Comme vous l'avez probablement deviné, nous avons tous des profils HRTF uniques. Dans un monde idéal, nous scannerions notre tête et le haut de notre torse en 3D et téléchargerions le profil HRTF résultant dans Apple Music ou Amazon Music (ou toute autre application prenant en charge l'audio spatial). L'algorithme de rendu binaural de chaque application utiliserait ensuite ce profil HRTF pour créer un ensemble de sons que notre cerveau interprète avec un haut degré de réalisme.
Nous n’en sommes pas encore là. En l’absence de HRTF personnalisés téléchargeables, chaque application audio spatiale utilise un HRTF générique. Comme leur nom l'indique, ces HRTF génériques sont compilés à partir de centaines de HRTF individuels pour créer une approximation de la façon dont les sons pénètrent dans nos oreilles. Plus votre HRTF personnel correspond à ce HRTF moyen, plus l'audio spatial sera réaliste.
Les HRTF génériques sont également utilisés pour spatialiser le contenu stéréo ou améliorer l'audio spatial suivi de la tête. Si votre application musicale, vos écouteurs sans fil ou vos écouteurs sans fil disposent d'un mode sonore spatial, il peut être utilisé pour donner une profondeur supplémentaire au son stéréo. Et si vos écouteurs sont dotés de capteurs intégrés pour suivre les mouvements de votre tête, ils peuvent générer un son spatial suivi de la tête pour une expérience d'écoute encore plus réaliste, semblable à celle d'une pièce.
Qui a le meilleur HRTF ?
Curieusement, même si tous les moteurs de rendu binauraux utilisent un HRTF générique, ils n'utilisent pas tous le même HRTF générique. Certains, comme Amazon Music et Tidal, utilisent un HRTF générique fourni par Dolby – il est intégré au moteur de rendu binaural Dolby Atmos inclus dans ces applications – tandis qu'Apple Music utilise un HRTF générique propriétaire développé par Apple.
Par définition, chaque HRTF générique conviendra mieux à certaines personnes qu’à d’autres, de la même manière qu’un ensemble d’écouteurs sans fil conviendra mieux à certaines personnes qu’à d’autres. Que le HRTF d'Apple vous semble meilleur que celui de Dolby dépendra de la mesure dans laquelle vous les correspondez. La seule façon de le savoir est d’essayer les deux.
Un pas de plus vers la réalité : les HRTF personnalisés
Alors que les scans anatomiques 3D complets constituent le Saint Graal des HRTF personnalisés, certaines entreprises ont trouvé une étape intermédiaire qui nous permet d'aller facilement au-delà des HRTF génériques. Apple appelle sa version «audio spatial personnalisé ». " Si vous possédez un iPhone X ou une version plus récente (modèles SE non compris), exécutant iOS 16 ou une version ultérieure, vous pouvez utiliser la caméra selfie TrueDepth intégrée au téléphone pour prendre des photos 3D de l'avant de votre visage et de chaque oreille. Il s'agit de la même technologie qu'Apple utilise pour scanner votre visage lorsque vous utilisez FaceID pour déverrouiller votre téléphone.
Malheureusement, le HRTF personnalisé ainsi créé ne peut être utilisé qu'avec certains écouteurs et écouteurs sans fil Apple AirPods ou Beats – cela n'affectera pas la façon dont vous entendez l'audio spatial lorsque vous utilisez d'autres appareils.
Sony fait quelque chose de similaire dans l'application Sony Headphones. Si vous achetez un casque ou des écouteurs Sony compatibles 360RA, vous pouvez prendre des photos de chaque oreille et les télécharger dans l'application.
Les photos sont évaluées et utilisées pour créer un HRTF personnalisé, qui est transféré vers les applications musicales de votre téléphone qui diffusent les pistes Sony 360RA. Depuis mars 2024, cela inclut Amazon Music, Tidal, Nugs.net et PeerTracks.
Création d'un studio audio spatial virtuel
Aussi cool que soit d'utiliser le rendu binaural comme moyen d'écouter de l'audio spatial avec des écouteurs, pour de nombreux musiciens et autres créateurs, cela est devenu un élément essentiel de la création audio spatiale.
Comme indiqué dans la section « Une pièce pleine de haut-parleurs dans votre tête », les formats audio spatiaux comme Dolby Atmos sont créés pour l'écoute par haut-parleurs. Mais créer un studio 7.1.2 ou supérieur, doté de traitements acoustiques appropriés pour éliminer les échos et autres effets indésirables, peut coûter des milliers de dollars.
Si vous êtes un artiste prometteur ou quelqu'un qui souhaite expérimenter l'audio spatial comme passe-temps, cela peut être un investissement prohibitif. Mais grâce au rendu binaural, tout ce dont vous avez besoin est un casque décent et le bon logiciel, et vous disposez d'un studio virtuel directement sur votre ordinateur.
Un exemple de logiciel de studio virtuel est Immerse Virtual Studio Signature Edition d'Embody. Il fonctionne avec n'importe quelle station de travail audio numérique (DAW) – comme ProTools – ou comme moyen autonome d'expérimenter l'audio spatial rendu binaural à partir d'une variété d'autres sources.
Immerse vous permet de simuler le mixage audio spatial dans certains des studios professionnels Dolby Atmos les plus prestigieux, notamment le studio 7.1.6 d'Alan Myerson — où Hans Zimmer a masterisé bon nombre de ses musiques de films emblématiques — et Lurssen Mastering, un Grammy et un Oscar. -studio 7.1.4 gagnant.
La clé pour entendre ces espaces d'enregistrement comme vous le feriez si vous travailliez physiquement à l'intérieur est la combinaison du HRTF personnalisé d'Immerse – que vous pouvez créer à l'aide de presque n'importe quel smartphone – avec des profils de casque dédiés pour des dizaines d'écouteurs filaires et sans fil grand public et professionnels. et des écouteurs.
Ces éléments offrent aux artistes un environnement optimisé pour développer du contenu audio spatial. Cependant, comme indiqué précédemment, la plupart des gens ne disposent pas d’environnements optimisés pour écouter de l’audio spatial. Le logiciel d'Embody vous permet de passer à différents rendus binauraux – avec et sans HRTF personnalisés – afin que vous puissiez entendre vos enregistrements comme le ferait un auditeur moyen. Le logiciel inclut le moteur de rendu binaural propriétaire d'Apple Music et peut également être utilisé pour surveiller le Dolby binaural avec le même HRTF générique utilisé dans Tidal et Amazon Music.
Viser l'or
De manière générale, lorsqu'un label de musique fournit un morceau en Dolby Atmos à un service de streaming comme Apple Music ou Tidal, il ne s'agit que d'une seule version. Cela crée un dilemme pour les artistes.
Cette version aura probablement été masterisée dans un studio physique avec une configuration d'enceintes Atmos ou en utilisant un logiciel virtualisant un espace similaire. Pourtant, comme nous l'avons évoqué ci-dessus, des variables telles que les HRTF et les moteurs de rendu binauraux spécifiques utilisés peuvent profondément affecter le son de ces morceaux lorsque vous les écoutez sur différentes plateformes.
Un artiste pourrait être tenté de modifier son mix pour qu'il sonne mieux lorsqu'il est diffusé via Amazon Music et rendu binaural avec un HRTF générique – surtout s'il pense que c'est ainsi que la plupart de son public finira par écouter.
Mais cela compromettrait le son sur un système audio Dolby Atmos 7.1.4 complet ou même sur Apple Music avec un HRTF personnalisé.
Puisque la plupart des artistes n'ont ni le temps ni l'argent pour retourner en studio pour remasteriser leurs morceaux une fois qu'ils sont sortis, ils doivent prendre une décision : créer une version optimisée pour la meilleure expérience d'écoute 7.1.4 possible. et j'espère qu'au fil du temps, à mesure que des entreprises comme Apple et Amazon amélioreront leurs rendus binauraux et la prise en charge des HRTF personnalisés, l'expérience du casque s'améliorera tout simplement, ou créera une version qui n'est pas à la hauteur de ce à quoi elle pourrait ressembler, pour créer un mixage casque optimisé pour les auditeurs d'aujourd'hui.
Bien évidemment, cette décision appartiendra entièrement à l’artiste et/ou à son label. Cependant, je crains que des programmes tels quela prime audio spatiale d'Apple n'incitent tous les acteurs du secteur de la musique à précipiter leurs mixages spatiaux simplement pour obtenir la récompense financière promise.
Pourtant, nous sommes au tout début d’une ère passionnante dans le domaine de l’audio. Il redéfinira la manière dont la musique est créée et la façon dont elle sonne lorsque nous l’écoutons – avec ou sans casque.