Pourquoi Spotify fonctionne-t-il sur un système de reconnaissance vocale?

Spotify, le plus grand service de streaming musical au monde, a obtenu un brevet pour la technologie de reconnaissance vocale permettant d'analyser la voix d'un utilisateur pour en déduire le sexe, l'âge et l'environnement. Considéré avec les autres développements de la société, il est clair que Spotify, ayant gagné nos oreilles, est maintenant après nos voix, aussi.

Mais pourquoi Spotify voudrait-il développer ce type de reconnaissance vocale et à quoi servirait-il? Examinons le brevet et ses implications.

Brevet de reconnaissance vocale de Spotify

En 2018, Spotify a déposé une demande de brevet intitulée « Identification des attributs de goût à partir d'un signal audio ». Après une attente de près de trois ans, le brevet a été délivré en janvier 2021. Comme son nom l'indique, le dépôt détaille, en principe, un système qui peut prendre l'audio enregistré de votre environnement, avec ou sans parole, le faire passer à travers un ensemble de algorithmes, et utilisez l'analyse qui en résulte pour jouer votre musique adaptée à votre environnement démographique et actuel.

Le brevet énumère quelques exemples de la façon dont l'algorithme pourrait catégoriser les données, y compris le sexe, l'âge, l'accent, l'état émotionnel, l'environnement physique et le nombre de personnes. Cependant, le dossier poursuit en notant qu'il ne s'agit pas d'une liste exhaustive, mais simplement de quelques exemples de la façon dont l'entreprise pourrait étiqueter les enregistrements audio. En plus de ces métadonnées, le brevet suggère que Spotify peut également analyser votre discours.

Pourquoi Spotify pourrait-il utiliser la reconnaissance vocale?

Actuellement, rien n'indique que Spotify a développé le système proposé décrit dans le brevet. Cependant, il s'aligne sur certains autres projets sur lesquels le service de streaming musical a travaillé. Peu de temps après la délivrance du brevet au début de 2021, Spotify a déployé une fonction de commande vocale . En utilisant le mot de réveil "Hey, Spotify", vous pouvez contrôler la lecture de musique dans l'application uniquement par des commandes vocales.

Comme Spotify est une application mobile plutôt qu'un assistant vocal au niveau du système comme Siri ou Google Assistant, il existe certaines limitations. Par exemple, l'application doit être ouverte, Spotify doit avoir accès à votre microphone et l'écran de votre smartphone doit être déverrouillé et allumé. Si le service de streaming espère construire un système plus complet, il aura besoin d'un accès au niveau du système ou de son propre matériel.

En 2019, Spotify a testé un appareil matériel basé sur un véhicule appelé Car Thing. Dans un article de Spotify Newsroom à l'époque, la société avait déclaré que l'appareil permettrait à certains utilisateurs de Spotify Premium aux États-Unis d'écouter de la musique et des podcasts dans leur voiture à l'aide de la commande vocale Car Thing. Il a également noté qu'ils cherchaient à effectuer des tests similaires appelés Voice Thing et Home Thing.

Cependant, on ne savait pas grand-chose sur les tests ou si Spotify avait l'intention de les déployer plus largement. En janvier 2021, deux jours après l'octroi du brevet, Spotify a déposé de nouvelles listes auprès de la FCC pour une nouvelle conception de Car Thing avec fonctionnalité Bluetooth. Bien qu'il n'y ait pas de confirmation officielle d'une date de sortie, il semble que la société attendait le brevet d'analyse audio avant de poursuivre ses plans matériels.

Le problème de l'apprentissage automatique

Bien que de plus en plus courants, les systèmes d'intelligence artificielle ne sont pas aussi intelligents qu'ils le paraissent initialement. La plupart utilisent l'apprentissage automatique, dans lequel le système reçoit un ensemble de données de formation dont il peut tirer des leçons. Dans ce cas, il peut s'agir d'enregistrements audio, classés par sexe et lieu. L'IA commence à comprendre comment repérer les différences qu'elle voit dans les données d'entraînement et les trie en conséquence.

Cependant, c'est là que des problèmes surviennent parfois. Tout le monde a une voix, un accent et un ton différents. Dans la plupart des cas, nous pouvons prendre le téléphone et déterminer si nous connaissons la personne à l'autre bout du fil, et si oui, de qui il s'agit. C'est sans aucune invite visuelle non plus, démontrant à quel point chaque voix est unique. Un ensemble de données d'entraînement ne pourra jamais capturer ce niveau de détail et de nuance.

Par conséquent, il y aura des moments où l'IA fera des hypothèses afin de pouvoir produire un résultat. Si la voix d'entrée est légèrement plus basse, cela peut la qualifier de voix d'homme. De même, l'inverse pourrait être vrai, où les tons aigus sont marqués comme des femmes, par exemple.

Malheureusement, ce n'est pas seulement un risque théorique, car il y a eu de nombreux cas très médiatisés où les algorithmes d'apprentissage automatique ont mal tourné .

Les implications du système de Spotify

Lorsqu'ils sont poussés, la plupart des gens auraient du mal à identifier avec précision un accent inconnu, et c'est avec une vie d'expériences et de souvenirs dont tirer. Le système d'apprentissage automatique ne saura que ce qu'il y avait dans les données d'entraînement, ce qui lui laissera encore plus d'hypothèses. Il est facile de voir comment cela pourrait conduire à des résultats potentiellement problématiques, voire racistes.

Ce n'est pas non plus sans précédent. En 2015, Jacky Alciné, ingénieur logiciel, a remarqué que Google Photos identifiait ses amis noirs comme des gorilles. Après une réaction en ligne, Google a affirmé avoir pris en charge ce problème sensible. Cependant, WIRED a rapporté en 2018 que Google n'avait pas résolu le problème de catégorisation d'image sous-jacent. Au lieu de cela, la société n'avait bloqué que les termes liés à certains primates comme le gorille, le singe et le chimpanzé de son système de classification.

Le système proposé par Spotify présente également des problèmes de confidentialité potentiels. Pour fonctionner de la manière attendue par l'entreprise, la fonction de reconnaissance vocale doit surveiller en permanence ce que vous dites et l'environnement dans lequel vous vous trouvez. La fonctionnalité permanente est un problème de confidentialité personnelle, mais peut également conduire à une application invasive de la loi. ou surveillance gouvernementale.

Certains se méfient également de la fonction de détection des émotions. Comme décrit, l'algorithme de Spotify identifierait votre état émotionnel et jouerait de la musique adaptée à votre humeur une fois que votre audio a été analysé. Cependant, cela est étayé par l'hypothèse que si vous êtes dans un espace de tête particulier, vous souhaitez y rester grâce à la musique. Il est également ouvert aux abus de la part des entreprises technologiques.

Par exemple, en 2012, Facebook a effectué une expérience secrète en affichant un contenu positif ou négatif dans plus d'un demi-million de flux d'utilisateurs pour voir comment cela affectait leur état émotionnel. Pour ces raisons, Access Now , une organisation de défense des droits de l'homme, a envoyé une lettre ouverte à Spotify demandant à l'entreprise d'abandonner le système.

L'avenir de la musique personnalisée?

Spotify a été l'une des premières entreprises à créer un service de streaming musical convaincant. L'interface et le vaste catalogue en font un favori dans le monde entier. Le service s'intègre également parfaitement à la plupart des assistants numériques et des équipements de maison intelligente. Au fil des ans, la société vous a simplifié la tâche pour découvrir de nouvelles musiques ou profiter de vos favoris avec des listes de lecture générées par algorithme.

En théorie, la reconnaissance vocale permanente devrait aller plus loin dans cette personnalisation, de sorte que le service de streaming puisse prendre passivement votre humeur et votre environnement pour vous jouer la meilleure musique au bon moment. Cependant, la nature toujours à l'écoute de la technologie a des implications de grande envergure sur la confidentialité qui peuvent l'emporter sur toute commodité offerte par la plate-forme.