L’application HuggingSnap est le meilleur outil d’IA d’Apple, avec une touche pratique
La plateforme d'apprentissage automatique, Hugging Face, a publié une application iOS qui donnera un sens au monde qui vous entoure tel que vu par l'appareil photo de votre iPhone. Pointez-le simplement sur une scène ou cliquez sur une image et il déploiera une IA pour la décrire, identifier des objets, effectuer une traduction ou extraire des détails textuels.
Nommée HuggingSnap, l'application adopte une approche multimodèle pour comprendre la scène qui vous entoure en tant qu'entrée, et elle est désormais disponible gratuitement sur l'App Store. Il est alimenté par SmolVLM2, un modèle d'IA ouvert qui peut gérer le texte, l'image et la vidéo comme formats d'entrée.
L’objectif principal de l’application est de permettre aux gens de découvrir les objets et les paysages qui les entourent, y compris la reconnaissance des plantes et des animaux. L'idée n'est pas très différente de l'intelligence visuelle sur les iPhones , mais HuggingSnap a une longueur d'avance cruciale sur son rival Apple.
Il n'a pas besoin d'Internet pour fonctionner
Tout ce dont il a besoin est un iPhone sous iOS 18 et vous êtes prêt à partir. L'interface utilisateur de HuggingSnap n'est pas trop différente de ce que vous obtenez avec Visual Intelligence. Mais il y a ici une différence fondamentale.
Apple s'appuie sur ChatGPT pour que l'intelligence visuelle fonctionne . En effet, Siri n'est actuellement pas capable d'agir comme un outil d'IA générative, tel que ChatGPT ou Gemini de Google, qui disposent tous deux de leur propre banque de connaissances. Au lieu de cela, il décharge toutes ces demandes et requêtes des utilisateurs vers ChatGPT.
Cela nécessite une connexion Internet puisque ChatGPT ne peut pas fonctionner en mode hors ligne. HuggingSnap, en revanche, fonctionne très bien. De plus, une approche hors ligne signifie qu’aucune donnée utilisateur ne quitte votre téléphone, ce qui constitue toujours un changement bienvenu du point de vue de la confidentialité.
Que pouvez-vous faire avec HuggingSnap ?

HuggingSnap est alimenté par le modèle SmolVLM2 développé par Hugging Face. Alors, que peut accomplir ce modèle qui dirige le show derrière cette application ? Eh bien, beaucoup. En plus de répondre aux questions basées sur ce qu'il voit à travers l'appareil photo d'un iPhone, il peut également traiter des images sélectionnées dans la galerie de votre téléphone.
Par exemple, montrez-lui une photo de n'importe quel monument historique et demandez-lui de vous donner des suggestions de voyage. Il peut comprendre les éléments apparaissant sur un graphique, ou donner un sens à l'image d'une facture d'électricité et répondre à des requêtes basées sur les détails qu'il a extraits du document.
Il possède une architecture légère et est particulièrement bien adapté aux applications d’IA sur appareil. Sur les benchmarks, il fonctionne mieux que le modèle ouvert PaliGemma (3B) ouvert concurrent de Google et côtoie le modèle Qwen AI rival d'Alibaba avec des capacités de vision.

Le plus grand avantage est qu’il nécessite moins de ressources système pour fonctionner, ce qui est particulièrement important dans le contexte des smartphones. Il est intéressant de noter que le populaire lecteur multimédia VLC utilise également le même modèle SmolVLM2 pour fournir des descriptions vidéo, permettant aux utilisateurs de rechercher dans une vidéo à l'aide d'invites en langage naturel.
Il peut également extraire intelligemment les moments forts les plus importants d’une vidéo. "Conçu pour être efficace, SmolVLM peut répondre à des questions sur les images, décrire du contenu visuel, créer des histoires basées sur plusieurs images ou fonctionner comme un modèle de langage pur sans entrées visuelles", indique le référentiel GitHub de l'application.