Qu’est-ce que le traitement automatique du langage naturel et comment fonctionne-t-il ?

3 septembre 2021 Hibou Gourou

Vous êtes-vous déjà demandé comment fonctionnent les assistants virtuels comme Siri et Cortana ? Comment comprennent-ils ce que vous dites ?

Eh bien, une partie de la réponse est le traitement du langage naturel . Ce domaine intéressant de l'intelligence artificielle a conduit à d'énormes percées au cours des dernières années, mais comment cela fonctionne-t-il exactement ?

Lisez la suite pour en savoir plus sur le traitement du langage naturel, comment il fonctionne et comment il est utilisé pour rendre notre vie plus pratique.

Qu'est-ce que le traitement du langage naturel ?

Le traitement du langage naturel, ou PNL, est la façon dont les ordinateurs peuvent comprendre les langues humaines. Par exemple, lorsque vous parlez à des assistants virtuels activés par la voix comme Alexa ou Siri , ils écoutent, comprennent votre discours et effectuent une action en fonction de ce que vous avez dit.

Traditionnellement, les humains ne pouvaient communiquer avec les ordinateurs que via le langage de programmation dans lequel ils étaient codés via des commandes particulières. Le code est intrinsèquement structuré et logique, et les mêmes commandes produiront toujours la même sortie.

En revanche, le langage humain est non structuré et beaucoup plus complexe. Le même mot ou la même phrase peut avoir plusieurs sens en fonction des inflexions et du contexte. Et, il existe de nombreuses langues différentes.

Alors, comment l'IA est-elle capable de comprendre ce que nous disons ?

Comment fonctionne la PNL ?

La PNL est formée à l'apprentissage automatique. L'apprentissage automatique est une branche de l'intelligence artificielle qui prend de grandes quantités de données dans un algorithme qui s'entraîne pour produire des prédictions précises. Plus l'algorithme dispose de données et de temps, meilleur il s'améliore. C'est pourquoi les machines PNL sont tellement meilleures aujourd'hui qu'elles ne l'étaient il y a dix ans.

La PNL fonctionne en prétraitant le texte, puis en l'exécutant via l'algorithme entraîné par l'apprentissage automatique.

Étapes de prétraitement

Voici quatre des étapes de prétraitement courantes qu'une machine NLP utilisera.

Tokenisation : La tokenisation est le processus de décomposition de la parole ou du texte en unités plus petites (appelées jetons). Ce sont soit des mots individuels, soit des clauses. La tokenisation est importante car elle permet au logiciel de déterminer quels mots sont présents, ce qui conduit aux étapes suivantes du traitement NLP.
Racine et lemmatisation : La racinisation et la lemmatisation sont des processus simplifiants qui réduisent chaque mot à sa racine. Par exemple, « courir » dans « courir ». Cela permet au PNL de traiter le texte plus rapidement.

Le radicalisme est un processus plus simple et consiste à supprimer tous les affixes d'un mot. Les affixes sont des ajouts au début et à la fin du mot qui lui donnent un sens légèrement différent. Cependant, la radicalisation peut entraîner des erreurs lorsque des mots similaires ont des racines différentes. Considérez les mots « chameau » et « venu ». La racine peut réduire « chameau » à « venu » malgré des significations complètement différentes.

La lemmatisation est beaucoup plus compliquée et précise. Il s'agit de réduire un mot à son lemme, qui est la forme de base d'un mot (comme on le trouve dans le dictionnaire). La lemmatisation tient compte du contexte et s'appuie sur le vocabulaire et l'analyse morphologique des mots. Un bon exemple est « soigner ». La racine peut réduire « soin » à « voiture », alors que la lemmatisation le réduira avec précision à « soin ».

Une autre technique fonctionne parallèlement aux deux processus, connue sous le nom de Stop Word Removal. Il s'agit de la simple suppression des mots qui n'ajoutent aucune information pertinente au sens du discours, tels que "à" et "a".

Tâches de l'algorithme d'apprentissage automatique

Une fois le texte prétraité, une machine NLP est capable de faire plusieurs choses en fonction de son intention.

Analyse du sentiment : processus de classification du sentiment du texte. Par exemple, si un avis sur un produit est positif, neutre ou négatif.
Classification des sujets : C'est là que le sujet principal du texte est identifié. Une machine NLP peut étiqueter des documents, des paragraphes et des phrases avec le sujet qui les concerne.
Détection d'intention : il s'agit du processus de détermination de l'intention derrière un texte particulier. Par exemple, cela peut aider les entreprises à déterminer si les clients souhaitent se désabonner ou sont intéressés par un produit.
Marquage des parties du discours : après la tokenisation, une machine NLP balise chaque mot avec un identifiant. Il s'agit notamment de marquer les mots comme des noms, des verbes, des adjectifs, etc.
Reconnaissance vocale : il s'agit de convertir la parole en texte et est particulièrement difficile en raison des différences d'accent, d'intonation, de grammaire et d'inflexion entre les personnes.
Reconnaissance d'entité nommée : processus d'identification de noms utiles tels que « Angleterre » ou « Google ». Ceci est combiné avec la résolution de coréférence, déterminant si deux mots font référence à la même chose, comme "Alice" puis "elle".
Génération de langage naturel : C'est l'opposé de la parole-texte et c'est ainsi que les machines NLP peuvent générer de la parole ou du texte pour communiquer en retour.

Pourquoi la PNL est-elle si importante ?

Le traitement automatique du langage naturel est un domaine immense et en constante évolution qui englobe de nombreuses fonctions. Certaines des principales utilisations de la PNL sont :

Analyse des informations en ligne : les entreprises et les chercheurs peuvent utiliser la PNL pour analyser des pans de données textuelles en informations utilisables. Par exemple, les commentaires sur les réseaux sociaux, les critiques, les tickets de support client et même les articles. La PNL peut les analyser à la recherche de tendances et d'idées de valeur pour l'entreprise.
Traduction de langue : des applications telles que Google Translate utilisent des machines NLP pour convertir une langue en une autre.
Vérification orthographique et grammaticale : les traitements de texte et les applications comme Grammarly vérifient votre texte pour les fautes d'orthographe et de grammaire, la lisibilité, la voix passive, etc., pour améliorer votre écriture.
Réponse vocale interactive (RVI) : les robots téléphoniques permettent aux humains de communiquer avec un système téléphonique géré par ordinateur pour effectuer des redirections et d'autres tâches.
Assistants virtuels : les assistants personnels tels que Siri, Cortana, Bixby, Google Assistant et Alexa utilisent la PNL pour écouter vos requêtes et produire des réponses ou effectuer des actions en fonction de ce que vous dites.
Texte prédictif : Votre smartphone fournit automatiquement des mots prédits en fonction de quelques lettres ou de ce que vous avez déjà écrit dans la phrase. Le smartphone apprend en fonction des phrases que vous tapez habituellement et propose des mots que vous êtes le plus susceptible d'utiliser. En fait, Microsoft Word va bientôt implémenter cela en tant que fonctionnalité .
Bots de discussion : de nombreux sites Web disposent désormais de robots de service client virtuels qui tenteront d'aider les clients avant qu'ils ne soient référés à un opérateur humain.

Conversateurs de robots

Le traitement du langage naturel change la façon dont nous communiquons avec les robots et la façon dont ils communiquent avec nous. Bloomberg News utilise un système d'IA appelé Cyborg pour produire près d'un tiers de son contenu. Pendant ce temps, Forbes, The Guardian et The Washington Post utilisent tous l'IA pour rédiger des articles de presse.

Et tout cela n'est possible que grâce à la PNL !