Google rend public son codec vocal Lyra à faible débit binaire

8 avril 2021 Hibou Gourou

Google a publié son code source bêta du codec audio Lyra sur GitHub, mettant à la disposition de tous les développeurs un traitement audio à faible débit d'une qualité incroyable. Le codec est le plus utile dans les situations intégrées et à bande passante restreinte où autant de données doivent être enregistrées que possible.

Lyra: Presque rien n'a jamais sonné aussi bien

Le codec audio fonctionne sur le principe de fournir la parole la plus naturelle avec le débit de données le plus bas possible. Il réussit à créer des niveaux de reproduction audio presque étranges avec des débits aussi bas que 3 kbps. Google utilise déjà la compression Lyra en temps réel dans son application Duo , bien que vous ne soyez pas blâmé de ne même pas avoir réalisé une différence par rapport à l'audio de bande passante ordinaire.

Pour démontrer à quel point Lyra est meilleur que les autres codecs, Google fournit des exemples via un article de blog comparant le codec de compression basé sur l'apprentissage automatique à d'autres alternatives à 3 et 6 kbps.

C'est une différence de jour en jour, et donner aux développeurs le monde entier sur ces outils sera un moteur important pour améliorer la qualité de la communication là où la bande passante est rare. C'est également une excellente motivation pour les développeurs qui cherchent à créer de nouvelles applications sur les marchés émergents, ce que Google ne manquera pas de couvrir lors de la conférence virtuelle gratuite en ligne Google I / O de cette année.

Le code source bêta est actuellement conçu avec les périphériques Arm 64 bits à l'esprit, bien que les exemples fonctionneront également sur des systèmes Linux x86 64 bits. Le code source est fourni entièrement documenté, bien qu'il soit en version bêta, et la page GitHub fournit des instructions d'installation et comment construire Lyra sur des cibles Linux pour Arm 64 bits.

Pour obtenir le code source de Lyra beta, rendez-vous sur la page Lyra GitHub .

Comment fonctionne Lyra?

Alors que le processus réel utilisé par Lyra est une combinaison incroyablement complexe de modèles d'apprentissage automatique formés sur des milliers d'heures de données vocales et d'optimisations de la technologie de codec audio existante, la théorie est assez simple.

Toutes les 40 ms, les fonctionnalités sont extraites de la parole et compressées à 3 kbps. Ces caractéristiques représentent les points d'énergie vocale sur le spectre de fréquences les plus proches de la réponse vocale auditive humaine – les choses que nous devons reconnaître et comprendre lorsque quelqu'un parle.

L'élément clé de ce qui rend Lyra spécial est la façon dont il utilise ces informations:

Cependant, les codecs paramétriques traditionnels, qui extraient simplement des paramètres critiques de la parole qui peuvent ensuite être utilisés pour recréer le signal à l'extrémité de réception, atteignent des débits binaires faibles, mais semblent souvent robotiques et non naturels. Ces lacunes ont conduit au développement d'une nouvelle génération de modèles générateurs audio de haute qualité qui ont révolutionné le domaine en étant capable non seulement de différencier les signaux, mais également d'en générer de complètement nouveaux.

Après la transmission, Lyra reconstruit la forme d'onde en remplissant ce qui manque à l'aide de ce processus, tout en n'étant pas trop complexe en termes de calcul.

D'une part, c'est une merveille technologique qui fonctionnera presque partout. D'un autre côté, je ne suis toujours pas convaincu à 100% que ce n'est pas de la sorcellerie.