La plus grande mise à jour d’Apple cette année arrive, et la forme ultime de l’IA Siri est plus de science-fiction que l’aperçu de GPT-4o

Siri a pris du retard.

Selon le New York Report, c'est ce que pensaient Craig Federighi, responsable des logiciels d'Apple, et John Giannandrea, responsable de l'apprentissage automatique, après avoir passé des semaines à tester ChatGPT l'année dernière. Ils ont donc décidé de donner une cure de jouvence majeure à l'assistant vocal de 13 ans.

À moins d'un demi-mois de la conférence des développeurs de la WWDC, le journaliste technologique Mark Gurman a apporté les dernières nouvelles sur la version IA de Siri. Il semble que cet assistant vocal, toujours qualifié de « artificiellement retardé », fera effectivement son apparition. une grande percée.

La mauvaise nouvelle : certaines de ses fonctionnalités les plus importantes pourraient ne pas arriver cette année.

Malgré cela, Mark Gurman a déclaré qu'Apple considère toujours iOS 18 comme la mise à niveau la plus importante de l'histoire. Apple WWDC24 se tiendra le 11 juin à 1 heure du matin, heure de Pékin, l'APPSO vous présentera les derniers rapports à Apple Park, alors restez à l'écoute.

La fonctionnalité « applications de contrôle » tant attendue mais prometteuse

Selon les rapports, avec le soutien de l'IA, Siri sera en mesure de « contrôler davantage les applications » et d'obtenir un contrôle précis des fonctions des applications.

Par exemple, demandez à Siri de déplacer des fichiers d'un dossier à un autre, ou demandez à Siri d'ouvrir un article d'actualité spécifique, ou même demandez à Siri de donner un résumé de l'article.

Bien que vous puissiez désormais utiliser Siri pour envoyer des messages texte et même WeChat, Siri, basé sur la refonte de l'IA, ira plus loin et sera capable d'analyser la façon dont les gens utilisent leurs appareils et d'apprendre de plus en plus d'opérations automatiques. Apple prévoit de prendre en charge « des centaines » de commandes dans les applications qu'elle développe.

▲ La fonction Siri d'envoi de WeChat a été implémentée dans iOS 10

Cela semble vraiment bien, mais Gurman a déclaré que cette fonctionnalité serait initialement limitée aux applications développées par Apple et ne serait pas lancée cette année. Il faudra peut-être attendre la prochaine mise à jour d'iOS 18 l'année prochaine au plus tôt.

Et il y a aussi des nouvelles selon lesquelles les anciens modèles ne peuvent être équipés que de l'iPhone 15 Pro A17 Pro, et les Mac au-dessus de M1 peuvent prendre en charge davantage de fonctions d'IA locales.

Le nouveau Siri ne sera peut-être capable de comprendre et d'exécuter qu'une seule commande à la fois au début, mais il devrait prendre en charge une série de commandes à l'avenir, comme la génération d'un résumé de l'enregistrement de la réunion enregistrée (également une fonctionnalité qui devrait être lancé dans iOS 18), puis par e-mail. Lors de l'envoi à des collègues, vous pouvez également ajouter directement des instructions textuelles, et un ensemble d'opérations peut être effectué par Siri en une seule phrase.

Le nouveau Siri devrait également être le même que les autres fonctions d'IA dans iOS 18. Il y aura un système de jugement pour juger si la tâche d'IA peut être effectuée localement sur l'appareil ou doit être exécutée dans le cloud en fonction du puissance de calcul requise.

Si nous voulons résumer le développement de Siri au cours des 13 dernières années, « prendre soin des étudiants mais ne pas les cultiver » est probablement la solution la plus appropriée.

Lors de la conférence de lancement de l'iPhone 4s en 2011, Siri a fait sa dernière apparition, ce qui a choqué le public et le monde. La démonstration de Siri à cette époque ressemblait à ceci : vous pouvez lui demander quel temps il fait dans une certaine ville ou comment évolue une certaine action, et vous pouvez définir un rappel qui s'affichera automatiquement lorsque vous quitterez l'entreprise dans un » C’était aussi une fonctionnalité très cool et futuriste à l’époque.

En conséquence, 13 ans plus tard, les fonctions ci-dessus semblent toujours être les scénarios les plus utilisés pour Siri. Même les commandes de contrôle domestique et de raccourci qui ont ensuite été prises en charge sont toujours généralement des fonctions activées et désactivées. saut.

Même face aux défis d'autres assistants vocaux récents tels que Google Assistant, Microsoft Cortana, Samsung Bixby, etc., et même le Xiaomi "Xiao Ai Classmate" domestique devient de plus en plus utile, Apple n'a toujours pas voulu progresser. jusqu'à l'émergence de ChatGPT. Sachez que Siri est en retard.

▲ Xiao Ai a déjà accédé au grand modèle l'année dernière

Bien qu'Apple semble le présenter de temps en temps lors de conférences de presse, Siri est redevenu plus fort, peut comprendre plus d'instructions et peut faire plus de choses. Mais dans de nombreux cas, être capable de comprendre ne signifie pas que cela peut être fait, et. être capable de le faire ne signifie pas que cela puisse être bien fait.

Par exemple, dites à Siri que je veux prendre un selfie, et Siri vous aidera à ouvrir l'appareil photo et la caméra frontale sans dire un mot, puis plus rien ne se passera. L'utilisateur devra toujours tendre la main et cliquer sur le déclencheur. Même parfois, Siri passe automatiquement à l'application Appareil photo au lieu de passer en mode face avant.

S'il s'agit de l'assistant Bixby de Samsung, il entrera automatiquement dans le compte à rebours pour les selfies et l'ensemble du processus ne nécessite pas d'opération manuelle de l'utilisateur.

L'application de caméra par défaut d'Apple elle-même est dotée d'une fonction de compte à rebours, donc la mise en œuvre de ce processus ne nécessite pas beaucoup de facteurs d'IA, mais Apple ne rend tout simplement pas l'expérience bonne.

Le rival de Siri, ce sont les raccourcis

Je me demande si vous avez déjà utilisé la fonction « Commandes de raccourci » ?

Après l'acquisition de Workflow par Apple, son produit a été intégré à l'iPhone en tant que « commande de raccourci » dans iOS 12, et a également été lancé sur la plate-forme Mac dans macOS 12.

▲ Les commandes de raccourci ont été intégrées à la chaîne écologique d'Apple

Cette fonction peut réaliser de nombreuses fonctions iOS avancées, telles que le pointage en un clic sur DingTalk, la production en un clic de LivePhotos et de vidéos en GIF, et même un fonctionnement automatique pour « éteindre automatiquement le réveil pendant les vacances ».

Mais cette fonctionnalité n’est pas conviviale pour les utilisateurs novices. Pour créer une nouvelle commande de raccourci, l'utilisateur doit sélectionner divers modules d'opération dans une interface similaire à la programmation de script et les connecter avec diverses logiques telles que "si… alors" et "tant que… alors", comme comme "réveil de vacances" "Ce type de commande de raccourci contient une variété de jugements logiques et d'opérations automatisées. Même si les utilisateurs le configurent conformément au didacticiel, il est facile de commettre des erreurs.

Bien qu'Apple fournisse un « Centre de commande rapide » où vous pouvez obtenir directement des scripts prêts à l'emploi, les commandes de raccourci fournies sont simples et comportent rarement des fonctions qui répondent aux problèmes des utilisateurs.

Cette fonction est similaire au module « Good Lock » des téléphones mobiles Samsung Galaxy, qui offre des fonctions de personnalisation très puissantes, mais le seuil n'est pas bas.

L’une des capacités les plus importantes des grands modèles d’IA est la capacité à comprendre le langage naturel et la pensée logique. En d'autres termes, si l'utilisateur dit à l'IA grand modèle : "Je ne travaille pas, aidez-moi à m'enregistrer", l'IA saura que vous souhaitez effectuer les opérations "ouvrir DingTalk" et "s'enregistrer". ", au lieu de dire que vous " n'avez pas écouté " clairement ".

Le Siri d’aujourd’hui n’est pas totalement dépourvu de cette capacité. Demander à Siri de vous rappeler d'acheter un gâteau d'anniversaire pour votre famille lorsque vous quittez l'entreprise est une fonctionnalité qui a été démontrée lors de la conférence iPhone 4s. Derrière cela se cache également un processus de compréhension de la langue de l'utilisateur et de sa conversion en opérations pertinentes.

▲ De nombreuses fonctions présentées lors de la conférence de presse de Siri constituent toujours les principales capacités de Siri.

Et Siri, avec le soutien de grands modèles d’IA, devrait être capable de faire bien plus que cela. Les utilisateurs décrivent leurs besoins complexes en langage naturel. Une fois que Siri l'a compris, il le convertit en logique du script et exécute lui-même les étapes correspondantes. C'est la véritable commande « rapide » sans que l'utilisateur soit confronté à une programmation compliquée.

▲ChatGPT m'a appris à utiliser les raccourcis iOS pour régler les réveils de vacances. Bien que la logique soit claire, elle ne semble pas très utilisable.

En plus de permettre aux utilisateurs de personnaliser les opérations de manière plus naturelle, vous pouvez également vous attendre à ce que Siri devienne un assistant plus « actif ».

Si vous utilisez l'iPhone assez longtemps, vous constaterez que parfois, l'iPhone affiche automatiquement des suggestions. Par exemple, lorsqu'un utilisateur met un casque Bluetooth, il est recommandé d'activer NetEase Cloud Music car il s'agit de votre modèle d'utilisation ou lors d'une charge tard dans la nuit, le téléphone réduit automatiquement la puissance de charge pour maintenir la batterie ; peut encore être utilisé avant de vous réveiller. C'est aussi parce que j'ai découvert qu'on a l'habitude de charger longtemps avant de se coucher.

Ce sont les résultats de l’apprentissage automatique, et ce sont également les fonctions d’IA sur lesquelles Apple a travaillé. Les gens modernes passent beaucoup de temps sur leur téléphone portable chaque jour. Il est très courant d'utiliser leur téléphone portable pour acheter, manger et travailler. Naturellement, les téléphones portables comprennent mieux votre existence que les vers ronds dans votre estomac.

Imaginez la puissante connaissance de la situation d'Apple, associée aux capacités de fonctionnement automatique plus puissantes des téléphones mobiles, la version IA de Siri pourrait vraiment se transformer en un véritable « assistant personnel », prédisant les choses avant de les laisser faire. à vos besoins.

Par exemple, grâce aux billets d'avion que vous avez réservés, il vous aidera automatiquement à vérifier la météo après votre arrivée à destination, et également à régler une alarme à l'avance. En fonction de vos habitudes de voyage et des conditions de circulation en temps réel, il vous aidera à appeler un. taxi à l'avance lorsque vous arrivez à l'aéroport en fonction du temps de trajet estimé. Il affiche automatiquement vos billets d'avion et utilise l'application pour vous enregistrer. Lorsque vous arrivez dans la région, il ouvrira pour vous les restaurants recommandés par Dianping. un assistant personnel + guide touristique.

Si nous voulons réaliser cet ensemble d'opérations fluides, nous y réfléchirons bien sûr, ce qui oblige les développeurs et Apple à aller dans les deux sens. Cependant, la vitesse de développement de l’IA a dépassé notre imagination. Peut-être qu’à l’avenir, l’IA pourra imiter directement les opérations humaines.

Une interface utilisateur que l’on peut comprendre, l’IA apprend aussi

Bien que le fonctionnement intelligent du nouveau Siri ne prenne en charge que les propres applications d'Apple dans la phase initiale, je préfère croire que ce n'est que le point de départ ou le milieu du parcours AI Siri d'Apple, pas la fin.

Je crois que le but ultime de l'IA d'Apple est de réaliser ce scénario : se réveiller le matin, réveiller Siri avec "Siri", puis le laisser ouvrir le compte public WeChat "Aifan'er" et lire le dernier article à haute voix, sans avoir à utiliser vos mains du tout. Ensuite, écoutez le reportage matinal d'Ai Faner.

▲ Une coque de téléphone concept pour iPhone d'il y a de nombreuses années. L'idée est de personnifier « Siri » et de libérer les mains avec la voix.

Les « commandes de raccourci » peuvent prendre en charge le fonctionnement d'applications tierces, principalement parce qu'Apple a ouvert l'API, et les fabricants d'applications tierces peuvent également diviser les opérations dans l'application en modules pouvant être exécutés par des commandes de raccourci.

Mais cela dépend de la volonté du fabricant de l'application de fournir les modules et opérations pertinents. Par exemple, si l'application Cainiao n'ouvre pas l'opération d'affichage du code de collecte, peu importe à quel point Siri est intelligent, elle ne pourra pas ouvrir le code. Application Cainiao pour afficher seul le code de retrait.

Et si nous allions plus loin et permettions à l'IA de comprendre directement ce qu'est un code de retrait et où se trouve le code de retrait dans l'application, et de l'ouvrir d'elle-même après avoir reçu les instructions ?

Cela peut paraître un peu trop science-fiction, mais l’industrie fait déjà des tentatives dans ce sens.

Lors de la conférence des développeurs Microsoft Build 2024 la semaine dernière, Microsoft a organisé un événement en direct : Copliot pris en charge par GPT-4o peut visualiser le contenu à l'écran en temps réel et guider les joueurs pour jouer ensemble à "Minecraft".

Dans la démonstration, Copilot a utilisé un langage très fluide et naturel, même avec une touche d'émotion, pour guider les joueurs dans la fabrication d'une épée dans le jeu. Dans ce processus, Copilot peut identifier les éléments du sac à dos du jeu et informer le joueur des matériaux manquants, tout comme un « maître » qui vous guide tout au long du jeu.

Cela montre que l'assistant IA n'est plus seulement un robot textuel qui « demande et répond » ou ne peut programmer et traiter des données qu'en arrière-plan, mais peut vraiment commencer à comprendre l'interface utilisateur que nous, les humains, voyons, et peut également savoir comment nous le faisons fonctionner.

Le "matériel IA" Rabbit R1, qui est populaire depuis un certain temps cette année, a essentiellement abandonné l'interface d'exploitation et a complété l'utilisation de divers services entièrement via l'assistant vocal AI. La société Rabbit a affirmé avoir utilisé une méthode appelée ". La technologie de modèle d'IA de Large Action Model" (LAM) peut imiter les opérations humaines sur le serveur après avoir compris les instructions de l'utilisateur et compléter directement les instructions de l'utilisateur dans les pages Web et les applications pertinentes.

▲ Rabbit R1 prétend utiliser la voix pour réaliser des opérations multi-applications et multi-plateformes.

Bien que les performances de Rabbit R1 soient loin de la scène qu'ils ont représentée, la vision elle-même est très belle. Les excellentes performances de robots tels que GPT-4o en matière de compréhension visuelle donnent également aux gens le sentiment que l'avenir de l'IA remplaçant les humains n'est en effet pas loin. .

En tant qu'entreprise très attractive auprès des développeurs, Apple n'a pas besoin d'imiter l'utilisation complète du "LAM" par la startup Rabbit. Elle peut ouvrir des interfaces pertinentes et fournir des SDK pour permettre aux principaux développeurs tiers de l'utiliser dans leurs applications. Opérations, apportant une expérience d'opération vocale plus mature et stable.

Les recherches liées à Apple montrent qu'ils ont cette idée. En conjonction avec les normes de conception d'interface utilisateur des applications d'Apple, Siri peut plus facilement comprendre tout ce qui se trouve sur l'écran de l'iPhone.

▲ Apple étudie également comment faire comprendre l'interface utilisateur aux grands modèles

Bien que la technologie soit inférieure à l'humain, le leadership d'Apple en termes de nombre d'utilisateurs et de construction écologique peut devenir un avantage très puissant.

9to5Mac prédit et commente les prochaines mises à jour Siri et AI d’Apple :

à la WWDC. Nous ne voyons peut-être rien de particulièrement révolutionnaire, mais l’intégration de l’IA dans des systèmes et des applications utilisés chaque jour par des millions de personnes est une révolution en soi.

Comparés au matériel tendance comme le Rabbit R1, les smartphones que tout le monde possède pourraient être le meilleur support pour l’IA.

L'utilisateur n'a pas besoin de savoir qu'il utilise une fonction d'IA, mais lorsqu'il demande à Siri de l'aider à planifier un voyage et à réserver des billets d'avion, l'IA commence déjà à changer profondément sa vie.

# Bienvenue pour suivre le compte public officiel WeChat d'aifaner : aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo