Les écouteurs AI pilotés par Apple M2 peuvent traduire plusieurs haut-parleurs à la fois

Les écouteurs sans fil Pixel Buds de Google offrent depuis un certain temps déjà une fantastique fonction de traduction en temps réel . Au cours des dernières années, des marques telles que Timkettle ont proposé des écouteurs similaires aux clients professionnels. Cependant, toutes ces solutions ne peuvent gérer qu’un seul flux audio à la fois pour la traduction.

Les gens de l'Université de Washington (UW) ont développé quelque chose de vraiment remarquable sous la forme d'écouteurs pilotés par l'IA, capables de traduire la voix de plusieurs locuteurs à la fois. Considérez-le comme un polyglotte dans un bar bondé, capable de comprendre le discours des gens autour de lui, parlant dans différentes langues, en même temps.

L’équipe fait référence à son innovation sous le nom de traduction spatiale de la parole, et elle prend vie grâce à des écouteurs binauraux. Pour ceux qui ne le savent pas, l’audio binaural tente de simuler les effets sonores exactement comme les oreilles humaines les perçoivent naturellement. Pour les enregistrer, des micros sont placés sur une tête factice, espacés de chaque côté à la même distance que les oreilles humaines.

Cette approche est cruciale car nos oreilles n'entendent pas seulement le son, mais elles nous aident également à évaluer la direction de son origine. L’objectif primordial est de produire une scène sonore naturelle avec un effet stéréo pouvant donner l’impression d’un concert en direct. Ou, dans le contexte moderne, l'écoute spatiale .

Le travail est une gracieuseté d'une équipe dirigée par le professeur Shyam Gollakota, dont le répertoire prolifique comprend des applications capables d'installer un GPS sous-marin sur des montres intelligentes , de transformer des coléoptères en photographes , des implants cérébraux pouvant interagir avec l'électronique , une application mobile capable d'entendre les infections , et bien plus encore.

Comment fonctionne la traduction multi-locuteurs ?

"Pour la première fois, nous avons préservé le son de la voix de chaque personne et la direction d'où elle vient", explique Gollakota, actuellement professeur à la Paul G. Allen School of Computer Science & Engineering de l'institut.

L'équipe compare sa pile à un radar, car elle entre en action en identifiant le nombre d'enceintes dans les environs et en mettant à jour ce nombre en temps réel à mesure que les personnes entrent et sortent de la plage d'écoute. L'ensemble de l'approche fonctionne sur l'appareil et n'implique pas l'envoi des flux vocaux de l'utilisateur vers un serveur cloud pour traduction. Ouais, la vie privée !

En plus de la traduction vocale, le kit « préserve également les qualités expressives et le volume de la voix de chaque locuteur ». De plus, des ajustements de direction et d’intensité audio sont effectués à mesure que l’enceinte se déplace dans la pièce. Il est intéressant de noter qu’Apple développerait également un système permettant aux AirPod de traduire l’audio en temps réel.

Comment tout cela prend-il vie ?

L'équipe UW a testé les capacités de traduction des écouteurs AI dans près d'une douzaine d'environnements extérieurs et intérieurs. En ce qui concerne les performances, le système peut prendre, traiter et produire de l'audio traduit en 2 à 4 secondes. Les participants au test semblent préférer un délai de 3 à 4 secondes, mais l'équipe s'efforce d'accélérer le processus de traduction.

Jusqu'à présent, l'équipe n'a testé que des traductions en espagnol, allemand et français, mais elle espère en ajouter davantage. Techniquement, ils ont condensé la séparation aveugle des sources, la localisation, la traduction expressive en temps réel et le rendu binaural en un seul flux, ce qui constitue un exploit assez impressionnant.

En ce qui concerne le système, l’équipe a développé un modèle de traduction vocale capable de s’exécuter en temps réel sur un silicium Apple M2, réalisant ainsi une inférence en temps réel. Les tâches audio ont été assurées par une paire d'écouteurs à réduction de bruit WH-1000XM4 de Sony et un micro USB binaural Sonic Presence SP15C.

Et voici la meilleure partie. «Le code du dispositif de validation de principe est disponible pour que d'autres puissent s'en inspirer», indique le communiqué de presse de l'institution. Cela signifie que la communauté scientifique et de bricolage open source peut apprendre et baser des projets plus avancés sur les fondations posées par l'équipe UW.