Comment fonctionne la reconnaissance vocale ?
Parfois, nous nous trouvons plus à parler à nos appareils numériques qu'à d'autres personnes. Les assistants numériques de nos appareils utilisent la reconnaissance vocale pour comprendre ce que nous disons. Pour cette raison, nous sommes en mesure de gérer de nombreux aspects de notre vie simplement en ayant une conversation avec notre téléphone ou notre haut-parleur intelligent.
Même si la reconnaissance vocale occupe une si grande place dans nos vies, nous ne pensons généralement pas à ce qui la fait fonctionner. Il se passe beaucoup de choses dans les coulisses avec la reconnaissance vocale, alors voici un aperçu de ce qui la fait fonctionner.
Qu'est-ce que la reconnaissance vocale ?
Les appareils modernes sont généralement équipés d'un assistant numérique, un programme qui utilise la reconnaissance vocale pour effectuer certaines tâches sur votre appareil. La reconnaissance vocale est un ensemble d'algorithmes que les assistants utilisent pour convertir votre parole en un signal numérique et vérifier ce que vous dites. Des programmes comme Microsoft Word utilisent la reconnaissance vocale pour vous aider à taper des mots.
Le premier système de reconnaissance vocale
Le premier système de reconnaissance vocale s'appelait le système Audrey. Le nom était une contraction de "Automated Digit Recognition". Inventée en 1952 par Bell Laboratories, Audrey était capable de reconnaître les chiffres numériques. L'orateur dirait un nombre et Audrey allumerait l'une des 10 ampoules correspondantes.
Aussi révolutionnaire que soit cette invention, elle n'a pas été bien reçue. Le système informatique lui-même mesurait environ six pieds de haut et prenait énormément de place. Quelle que soit sa taille, il ne pouvait déchiffrer que les nombres 0-9. De plus, seule une personne ayant un type de voix spécifique pouvait utiliser Audrey, elle était donc principalement dirigée par une seule personne.
Bien qu'elle ait eu ses défauts, Audrey a été la première étape d'un long voyage pour faire de la reconnaissance vocale ce qu'elle est aujourd'hui. Il n'a pas fallu longtemps avant que le prochain système de reconnaissance vocale n'apparaisse, qui pouvait comprendre des séquences de mots.
La reconnaissance vocale commence par la conversion de l'audio en un signal numérique
Les systèmes de reconnaissance vocale doivent passer par certaines étapes pour comprendre ce que nous disons. Lorsque le microphone de votre appareil capte votre son, il est converti en un courant électrique qui descend jusqu'au convertisseur analogique-numérique (ADC). Comme son nom l'indique, l'ADC convertit le courant électrique (AKA, le signal analogique) en un signal binaire numérique.
Lorsque le courant circule vers l'ADC, il prélève des échantillons du courant et déchiffre sa tension à certains moments. La tension à un instant donné est appelée un échantillon. Chaque échantillon ne dure que quelques millièmes de seconde. Sur la base de la tension de l'échantillon, l'ADC attribuera une série de huit chiffres binaires (un octet de données).
L'audio est traité pour plus de clarté
Pour que l'appareil comprenne mieux le locuteur, l'audio doit être traité pour améliorer la clarté. L'appareil est parfois chargé de déchiffrer la parole dans un environnement bruyant ; ainsi, certains filtres sont placés sur l'audio pour aider à éliminer le bruit de fond. Pour certains systèmes de reconnaissance vocale, les fréquences supérieures et inférieures à la portée auditive humaine sont filtrées.
Le système ne supprime pas seulement les fréquences indésirables ; certaines fréquences de l'audio sont également accentuées afin que l'ordinateur puisse mieux reconnaître la voix et la séparer du bruit de fond. Certains systèmes de reconnaissance vocale divisent en fait l'audio en plusieurs fréquences discrètes.
D'autres aspects, tels que la vitesse et le volume de l'audio, sont ajustés pour mieux correspondre aux échantillons audio de référence que le système de reconnaissance vocale utilise pour comparer. Ces processus de filtration et de débruitage aident vraiment à améliorer la précision globale.
Le système de reconnaissance vocale commence alors à faire des mots
Les systèmes de reconnaissance vocale analysent la parole de deux manières courantes. L'une s'appelle le modèle de Markov caché et l'autre méthode utilise les réseaux de neurones.
La méthode du modèle de Markov caché
Le modèle de Markov caché est la méthode employée dans la plupart des systèmes de reconnaissance vocale. Une partie importante de ce processus consiste à décomposer les mots prononcés en leurs phonèmes (le plus petit élément d'une langue). Il y a un nombre fini de phonèmes dans chaque langue, c'est pourquoi la méthode du modèle caché de Markov fonctionne si bien.
Il y a environ 40 phonèmes dans la langue anglaise. Lorsque le système de reconnaissance vocale en identifie un, il détermine la probabilité de ce que sera le prochain.
Par exemple, si le locuteur prononce le son « ta », il y a une certaine probabilité que le prochain phonème soit « p » pour former le mot « tap ». Il y a aussi la probabilité que le prochain phonème soit "s", mais c'est beaucoup moins probable. Si le phonème suivant ressemble à « p », alors le système peut supposer avec une grande certitude que le mot est « tap ».
La méthode des réseaux de neurones
Un réseau de neurones est comme un cerveau numérique qui apprend beaucoup de la même manière qu'un cerveau humain. Les réseaux de neurones sont essentiels au progrès de l'intelligence artificielle et de l'apprentissage en profondeur.
Le type de réseau neuronal utilisé par la reconnaissance vocale est appelé réseau neuronal récurrent (RNN). Selon GeeksforGeeks , RNN est celui où la "sortie de [l'] étape[s] précédente[s] est alimentée en entrée de l'étape actuelle". Cela signifie que lorsqu'un RNN traite un peu de données, il utilise ces données pour influencer ce qu'il fait avec le prochain bit de données – il apprend essentiellement de l'expérience.
Plus un RNN est exposé à une certaine langue, plus la reconnaissance vocale sera précise. Si le système identifie le son "ta" 100 fois et qu'il est suivi du son "p" 90 fois, alors le réseau peut essentiellement apprendre que "p" vient généralement après "ta".
Pour cette raison, lorsque le système de reconnaissance vocale identifie un phonème, il utilise les données accumulées pour prédire lequel viendra probablement ensuite. Parce que les RNN apprennent en permanence, plus ils sont utilisés, plus la reconnaissance vocale sera précise.
Une fois que le système de reconnaissance vocale a identifié les mots (que ce soit avec le modèle Marvok caché ou avec un RNN), ces informations sont envoyées au processeur. Le système effectue alors la tâche qu'il est censé faire.
La reconnaissance vocale est devenue un élément essentiel de la technologie moderne
La reconnaissance vocale est devenue une partie importante de notre paysage technologique moderne. Il a été mis en œuvre dans plusieurs industries et services dans le monde entier ; en effet, de nombreuses personnes contrôlent toute leur vie avec des assistants à commande vocale. Vous pouvez trouver des assistants comme Siri chargés sur vos montres Apple. Ce qui n'était qu'un rêve en 1952 est devenu une réalité, et cela ne semble pas s'arrêter de si tôt.