La reconnaissance vocale est géniale, mais comment est-elle devenue si bonne ?

La technologie de reconnaissance vocale a une riche histoire de développement qui l'a amenée à ce qu'elle est aujourd'hui. C'est au cœur de la vie moderne, nous donnant la possibilité d'effectuer des tâches simplement en parlant à un appareil. Alors, comment cette technologie étonnante a-t-elle évolué au fil des ans ? Nous allons jeter un coup d'oeil.

1952 : Le système Audrey

La première étape de la reconnaissance vocale est apparue au début des années 1950. Les Laboratoires Bell ont développé la première machine capable de comprendre la voix humaine en 1952, et elle a été nommée Système Audrey. Le nom Audrey était en quelque sorte une contraction de l'expression Automatic Digit Recognition. Même s'il s'agissait d'une innovation majeure, elle comportait des limites majeures.

Surtout, Audrey ne pouvait reconnaître que les chiffres numériques 0-9, pas de mots. Audrey donnerait un retour lorsque l'orateur prononçait un nombre en allumant 1 des 10 ampoules, chacune correspondant à un chiffre.

Alors qu'elle pouvait comprendre les chiffres avec une précision de 90 %, Audrey était confinée à un type de voix spécifique. C'est pourquoi la seule personne qui l'utiliserait vraiment était HK Davis, l'un des développeurs. Lorsqu'un nombre était prononcé, le locuteur devait attendre au moins 300 millisecondes avant de prononcer le suivant.

Non seulement sa fonctionnalité était limitée, mais son utilité était également limitée. Il n'y avait pas beaucoup d'utilité pour une machine qui ne pouvait comprendre que des chiffres. Une utilisation possible consistait à composer des numéros de téléphone, mais il était beaucoup plus rapide et plus facile de composer les numéros à la main. Bien qu'Audrey n'ait pas eu une existence gracieuse, elle constitue toujours une étape importante dans la réussite humaine.

Connexe: Comment utiliser la saisie vocale sur Microsoft Word

1962 : la boîte à chaussures d'IBM

Une décennie après Audrey, IBM s'est essayé au développement d'un système de reconnaissance vocale. À l'Exposition universelle de 1962, IBM a présenté un système de reconnaissance vocale nommé Showbox. Comme Audrey, son travail principal consistait à comprendre les chiffres 0-9, mais il pouvait également comprendre six mots : plus, moins, faux, total, sous-total et désactivé.

Shoebox était une machine mathématique capable de résoudre des problèmes arithmétiques simples. En ce qui concerne les commentaires, au lieu de lumières, Shoebox a pu imprimer les résultats sur papier. Cela le rendait utile comme calculatrice, bien que le locuteur doive toujours faire une pause entre chaque nombre/mot.

1971 : l'identification automatique des appels d'IBM

Après Audrey et Shoebox, d'autres laboratoires dans le monde ont développé une technologie de reconnaissance vocale. Cependant, il n'a décollé que dans les années 1970, lorsqu'en 1971, IBM a mis sur le marché la première invention du genre. Il s'appelait le système d'identification automatique des appels. C'était le premier système de reconnaissance vocale qui a été utilisé sur le système téléphonique.

Les ingénieurs appelaient et étaient connectés à un ordinateur à Raleigh, en Caroline du Nord. L'appelant prononçait alors l'un des 5 000 mots de son vocabulaire et obtenait une réponse "parlée" en guise de réponse.

Connexes : Comment utiliser la dictée vocale sur les Mac

1976 : Harpie

Au début des années 1970, le département américain de la Défense s'est intéressé à la reconnaissance vocale. La DARPA (Defence Advanced Research Projects Agency) a développé le programme Speech Understanding Research (SUR) en 1971. Ce programme a financé plusieurs entreprises et universités pour aider à la recherche et au développement de la reconnaissance vocale.

En 1976, à cause de SUR, l'Université Carnegie Mellon a développé le système Harpy. Il s'agissait d'une avancée majeure dans la technologie de reconnaissance vocale. Les systèmes jusque-là étaient capables de comprendre des mots et des nombres, mais Harpy était unique en ce sens qu'il pouvait comprendre des phrases complètes.

Il avait un vocabulaire d'environ 1 011 mots, ce qui, selon une publication deB. Lowerre et R. Reddy , équivalait à plus d'un billion de phrases différentes possibles. La publication indique ensuite que Harpy pouvait comprendre les mots avec une précision de 93,77 %.

Les années 1980 : la méthode de Markov cachée

Les années 1980 ont été une période charnière pour la technologie de reconnaissance vocale, car c'est la décennie où la technologie de reconnaissance vocale, car c'est la décennie où nous avons été initiés à la méthode de Markov cachée (HMM). La principale force motrice derrière HMM est la probabilité .

Chaque fois qu'un système enregistre un phonème (le plus petit élément de la parole), il y a une certaine probabilité de ce que sera le prochain. HMM utilise ces probabilités pour déterminer quel phonème viendra le plus probablement ensuite et formera les mots les plus probables. La plupart des systèmes de reconnaissance vocale utilisent encore aujourd'hui le HMM pour comprendre la parole.

Les années 90 : la reconnaissance vocale atteint le marché de la consommation

Depuis la conception de la technologie de reconnaissance vocale, il s'est engagé dans un voyage pour trouver une place sur le marché des consommateurs. Dans les années 1980, IBM a présenté un prototype d'ordinateur capable de faire de la dictée parole-texte. Cependant, ce n'est qu'au début des années 1990 que les gens ont commencé à voir des applications comme celle-ci dans leurs maisons.

En 1990, Dragon Systems a lancé le premier logiciel de dictée vocale. Il s'appelait Dragon Dictate, et il a été initialement publié pour Windows. Ce programme de 9 000 $ était révolutionnaire pour apporter la technologie de reconnaissance vocale aux masses, mais il y avait un défaut. Le logiciel utilisait la dictée discrète , ce qui signifie que l'utilisateur doit faire une pause entre chaque mot pour que le programme puisse les saisir.

En 1996, IBM a de nouveau contribué à l'industrie avec Medspeak. Il s'agissait également d'un programme de dictée vocale, mais il ne souffrait pas d'une dictée discrète comme Dragon Dictate. Au lieu de cela, ce programme pouvait dicter un discours continu, ce qui en faisait un produit plus convaincant.

Connexe: Comment utiliser Google Assistant avec des écouteurs

2010 : Une fille nommée Siri

Tout au long des années 2000, la technologie de reconnaissance vocale a explosé en popularité. Il a été implémenté dans plus de logiciels et de matériel que jamais, et une étape cruciale dans l'évolution de la reconnaissance vocale a été Siri, l'assistant numérique. En 2010, une entreprise du nom de Siri a présenté l'assistant virtuel en tant qu'application iOS.

À l'époque, Siri était un logiciel impressionnant qui pouvait dicter ce que disait l'orateur et donner une réponse instruite et pleine d'esprit. Ce programme était si impressionnant qu'Apple a racheté l'entreprise la même année et a donné une refonte à Siri, le poussant vers l'assistant numérique que nous connaissons aujourd'hui.

C'est grâce à Apple que Siri a obtenu sa voix emblématique (voix de Susan Benett) et une foule de nouvelles fonctionnalités. Il utilise le traitement du langage naturel pour contrôler la plupart des fonctions du système.

Les années 2010 : les 4 Big 4 assistants numériques

À l'heure actuelle, quatre grands assistants numériques dominent la reconnaissance vocale et les logiciels supplémentaires.

  • Siri est présent dans presque tous les produits Apple : iPhones, iPods, iPads et la famille d'ordinateurs Mac.
  • Google Assistant est présent sur la plupart des 3 milliards et plus d'appareils Android du marché. En outre, les utilisateurs peuvent utiliser des commandes sur de nombreux services Google , comme Google Home.
  • Amazon Alexa n'a pas beaucoup de plate-forme dédiée là où il vit, mais c'est toujours un assistant de premier plan. Il est disponible pour être téléchargé et utilisé sur les appareils Android, les appareils Apple. et même certains ordinateurs portables Lenovo
  • Bixby est la dernière entrée de la liste des assistants numériques. C'est l'assistant numérique local de Samsung, et il est présent parmi les téléphones et les tablettes de l'entreprise.

Une histoire parlée

La reconnaissance vocale a parcouru un long chemin depuis l'époque d'Audrey. Il a fait de grands progrès dans plusieurs domaines ; par exemple, selon Clear Bridge Mobile , le domaine médical a bénéficié des chatbots à commande vocale pendant la pandémie en 2020. De la simple compréhension des chiffres à la compréhension des différentes variantes de phrases complètes, la reconnaissance vocale s'avère être l'une des plus utiles. technologies de notre époque moderne.