L’IA peut-elle vraiment remplacer votre clavier et votre souris ?
« Hé ChatGPT, fais un clic gauche sur le champ de saisie du mot de passe dans la fenêtre contextuelle qui apparaît dans le quadrant inférieur gauche de l'écran et remplis XUS&(#($J, puis appuie sur Entrée. »
Amusant, non ? Non, merci. Je vais juste déplacer ma souris bon marché et taper les 12 caractères sur mon clavier inutilement cliquable, au lieu de prononcer le mot de passe à voix haute dans mon espace de coworking.
C'est vraiment génial de voir ChatGPT comprendre votre commande vocale, réserver un billet pas cher pour huit personnes pour un match de Liverpool à Anfield et vous amener à la caisse. Mais allez-vous lui faire confiance pour le mot de passe ? Ou ne le saisirez-vous pas simplement avec un clavier physique ?
Imaginez vous lancer à fond dans l'IA, pour finalement réaliser que la dernière étape, où vous avez VRAIMENT besoin d'un clavier ou d'une souris, est impossible et que vous êtes bloqué. C'est pourtant précisément la question que beaucoup se posent après avoir vu des agents d'IA et des vidéos d'automatisation spectaculaires de Google, OpenAI et Anthropic.
C'est une question légitime
L'IA était le thème principal de l'événement I/O de Google plus tôt cette année. À la fin de la keynote, j'étais convaincu que les smartphones Android ne seraient plus jamais les mêmes. Et par extension, toutes les plateformes sur lesquelles Gemini sera présent, des applications Workspace comme Gmail à la navigation sur Google Maps en voiture.
La démonstration la plus impressionnante était celle du Projet Mariner, le prototype de recherche suivant du Projet Astra . Imaginez-le comme un assistant conversationnel nouvelle génération qui vous permettra de parler et d'accomplir des tâches concrètes , sans même toucher l'écran ni utiliser le clavier. Vous pouvez transférer vos requêtes d'un manuel d'utilisation hébergé sur le site web d'une marque vers des vidéos pédagogiques YouTube, sans jamais répéter le contexte.
C'est presque comme si le véritable concept de mémoire était arrivé à l'IA . Dans un navigateur web, l'application réserve vos billets et vous amène à la page finale où vous n'avez plus qu'à confirmer que tous les détails sont conformes, puis à procéder au paiement. On peut donc se demander si le clavier et la souris sont des concepts obsolètes pour les saisies numériques, alors que les interactions vocales prennent le dessus sur l'IA.
Le fardeau de l'erreur
Aussi étrange que cela puisse paraître, votre ordinateur est déjà équipé de commandes vocales pour naviguer dans le système d'exploitation. Sur les PC Windows et macOS, les outils d'accès vocal sont intégrés à la suite d'accessibilité. Plusieurs raccourcis sont disponibles pour accélérer le processus, et vous pouvez également créer les vôtres.
Avec l'avènement des modèles d'IA de nouvelle génération, nous parlons d'abandonner le clavier et la souris pour tout le monde, et pas seulement de les promouvoir comme une technologie d'assistance.
Imaginez une combinaison de Claude Computer Use et des données oculaires du casque Vision Pro d'Apple . Au cas où vous ne le sauriez pas, Computer Use d'Anthropic est… un agent d'utilisation d'ordinateur. Anthropic explique qu'il permet à l'IA « d'utiliser les ordinateurs comme les humains : en regardant un écran, en déplaçant un curseur, en cliquant sur des boutons et en saisissant du texte. »
Imaginez maintenant un scénario où votre intention est transmise à Claude par la voix, captée par les micros embarqués, et la tâche est exécutée. Quelle que soit l'étape finale requise, des gestes complètent le processus. Le Vision Pro a démontré que les commandes par suivi oculaire sont possibles et fonctionnent avec une grande précision.
Loin des casques, l'IA à commande vocale peut toujours fonctionner sur un ordinateur standard. Hume AI, en partenariat avec Anthropic, développe un système appelé Empathetic Voice Interface 2 (EVI 2) qui transforme les commandes vocales en commandes informatiques. C'est un peu comme parler à Alexa, mais au lieu de commander des brocolis, l'assistant IA comprend ce que nous disons et le transforme en commandes clavier ou souris.
Tout cela semble formidable, mais imaginons quelques scénarios réalistes. Vous aurez besoin d'un clavier pour des modifications multimédias précises. Apporter des modifications mineures à un canevas de codage. Remplir des cellules dans une feuille. Imaginez : « Dis, Gemini, mets quatre mille huit cent quatre-vingt-quinze dollars dans la cellule D5 et nomme-le comme frais de voyage aérien ? » Oui, je sais. Je le taperais aussi.
Le dernier kilomètre, pas la fin
Si vous visionnez des démonstrations du mode IA dans la recherche, de l'agent Project Mariner et de Gemini Live, vous aurez un aperçu de l'informatique vocale. Toutes ces avancées en matière d'IA semblent incroyablement pratiques, jusqu'à ce qu'elles ne le soient plus. Par exemple, à quel moment devient-il trop irritant de dire des choses comme « Allez dans la boîte de dialogue en haut à gauche et faites un clic gauche sur le bouton bleu « Confirmer » ? »
C'est trop lourd, même si toutes les étapes précédentes étaient réalisées de manière autonome par une IA.
Et n'oublions pas le sujet tabou : l'IA a tendance à se détraquer . « À ce stade, elle est encore expérimentale, parfois lourde et sujette aux erreurs », prévient Anthropic à propos de Claude Computer Use. La situation n'est pas très différente de celle d'Operator Agent d'OpenAI , ou d'un outil similaire du même nom actuellement en développement chez Opera, l'équipe à l'origine d'un navigateur web plutôt cool .
Retirer le clavier et la souris d'un ordinateur dopé à l'IA, c'est comme conduire une Tesla avec la conduite entièrement autonome (FSD) , mais sans le volant, et les seules commandes disponibles sont les pédales de frein et d'accélérateur. La voiture vous emmènera certainement quelque part, mais vous devrez prendre le contrôle en cas d'imprévu.
Dans le contexte informatique, pensez à l'outil de dépannage, où vous DEVEZ être aux commandes. Mais supposons qu'un modèle d'IA, piloté principalement par la voix (et capté par le micro de votre ordinateur préféré), vous amène à l'étape finale où vous devez clôturer le workflow, comme effectuer un paiement.
Même avec Passkeys, vous devrez au moins confirmer votre identité en saisissant votre mot de passe, en ouvrant une application d'authentification ou en touchant un capteur d'empreintes digitales. Aucun fabricant de systèmes d'exploitation ni développeur d'applications (surtout en matière de vérification d'identité) ne laisserait un modèle d'IA contrôler ouvertement cette tâche critique.
Il est tout simplement trop risqué d'automatiser avec un agent d'IA, même avec des fonctionnalités comme Passkeys . Google affirme souvent que Gemini apprendra de la mémoire et de vos propres interactions. Mais tout commence par lui permettre de surveiller l'utilisation de votre ordinateur, qui repose essentiellement sur les saisies au clavier et à la souris. Donc, oui, on revient à la case départ.
Passer au virtuel ? L'attente est longue.
Lorsqu'on parle de remplacer la souris et le clavier d'ordinateur par l'IA (ou toute autre avancée), on parle simplement de les remplacer par un proxy. On aboutit alors à un remplacement familier. De nombreuses recherches sur les souris et les claviers virtuels existent , remontant à au moins une décennie, bien avant la publication de l'étude phare « Transformers » qui a propulsé l'industrie de l'IA à la vitesse supérieure.
En 2013, DexType a lancé une application exploitant le minuscule matériel Leap Motion pour offrir une expérience de frappe virtuelle en l'air. Aucun écran tactile n'était requis, ni aucun projecteur laser sophistiqué comme le Humane AI Pin . Leap Motion a disparu en 2019, mais l'idée est restée. Meta est sans doute la seule entreprise à disposer d'une pile logicielle et matérielle réaliste, prête à accueillir une forme alternative d'entrée-sortie informatique, appelée interaction homme-machine (IHM).
L'entreprise travaille sur des objets connectés au poignet permettant une toute nouvelle forme de contrôle gestuel. Au lieu de suivre les mouvements spatiaux des doigts et des membres, Meta utilise une technique appelée électromyographie (EMG). Elle transforme les signaux nerveux moteurs électriques générés au poignet en données numériques permettant de contrôler les appareils. Et, oui, la saisie au clavier et au curseur fait partie intégrante du système.
Parallèlement, Meta affirme que ces gestes seront plus rapides qu'une simple pression sur une touche, car il s'agit de signaux électriques transmis directement de la main à l'ordinateur, plutôt que d'un simple mouvement des doigts. « C'est un moyen beaucoup plus rapide d'agir sur les instructions que vous envoyez déjà à votre appareil lorsque vous appuyez pour sélectionner une chanson sur votre téléphone, cliquez avec la souris ou tapez sur un clavier », explique Meta.
Moins de remplacements, plus de reconditionnement
L'approche de Meta pose deux problèmes, avec ou sans l'IA. Le concept de curseur est toujours bien présent, tout comme le clavier, même s'il est numérique. Nous passons simplement du physique au virtuel. Le remplacement proposé par Meta paraît très futuriste, surtout avec l'arrivée des modèles d'IA multimodaux de type lama.
Vient ensuite le dilemme existentiel. Ces objets connectés relèvent encore largement du domaine des laboratoires de recherche. Et lorsqu'ils sortiront, ils ne seront pas bon marché, du moins pendant les premières années. Même les applications tierces les plus basiques comme WowMouse sont soumises à des abonnements et limitées par les limitations du système d'exploitation.
Je n'imagine pas abandonner mon clavier bon marché à 100 $ pour un appareil expérimental de saisie vocale ou gestuelle, et imaginer qu'il remplace le clavier et la souris dans mon travail quotidien. Plus important encore, il faudra du temps avant que les développeurs n'intègrent les saisies en langage naturel dans leurs applications. Ce sera un processus long et fastidieux.
Et les alternatives ? Nous disposons déjà d'applications comme WowMouse , qui transforme votre montre connectée en un véritable centre de reconnaissance gestuelle pour les mouvements des doigts et de la paume. Cependant, elle ne remplace que les gestes du curseur et du toucher, et ne propose pas vraiment une expérience clavier complète. Mais là encore, laisser les applications accéder à votre clavier représente un risque que les maîtres des systèmes d'exploitation dénonceront. Vous vous souvenez des enregistreurs de frappe ?
En fin de compte, nous sommes à un point où les capacités conversationnelles des modèles d'IA et leurs capacités d'agent font un bond en avant. Mais elles nécessiteraient toujours un clic de souris ou quelques pressions de touches, au lieu de les remplacer complètement. De plus, elles sont tout simplement trop complexes lorsqu'il suffit d'appuyer sur un raccourci clavier ou la souris au lieu de réciter une longue chaîne de commandes vocales.
En résumé, l'IA réduira notre dépendance aux données physiques, mais ne la remplacera pas. Du moins, pas pour le grand public.
