Dia, le navigateur IA super populaire testé en temps réel, j’ai vu le futur moment iPhone du navigateur
Après 30 ans, le plus grand changement dans les navigateurs sera peut-être les icônes.
Le modèle d'interaction de base conçu par le « Père de l'Internet » Tim Berners-Lee en 1990 – passer d'une page Web à l'autre via des hyperliens (hyperliens), et la logique ultérieure consistant à saisir l'URL, à attendre le chargement, à cliquer sur le lien et à revenir à la page précédente, reste inchangé aujourd'hui.
Nous sommes en 2025 et nous utilisons toujours la même posture, regardant l’écran et attendant que la page se charge.
Au cours des dix dernières années, nous avons vu de nombreux navigateurs prétendre « subvertir le marché des navigateurs ». Arc a également été salué comme l’acteur le plus prometteur du village. Cependant, après avoir eu des millions d'utilisateurs et dépensé 150 millions de dollars, la société mère The Browser Company a annoncé qu'elle arrêterait la mise à jour et quitterait malheureusement.
L’année dernière, après avoir finalisé un financement de 50 millions de dollars, ils ont décidé de se concentrer sur le développement d’un navigateur d’IA natif appelé Dia.
Le fondateur Josh Miller a déclaré que Dia souhaitait créer un type de navigateur complètement différent : un navigateur plus proactif, plus puissant, plus centré sur l'IA et plus conforme à la vision originale. Vous pouvez l'appeler l'iPhone des navigateurs Web ou un « ordinateur Internet ».
Le navigateur Arc a utilisé un système de code d'invitation dans ses premières phases bêta publiques, et The Browser Company en a évidemment profité.
Récemment, ce navigateur nommé Dia a enfin été lancé, grâce à un système de code d'invitation, et a commencé à s'ouvrir à petite échelle pour l'expérience. Les appareils Experience sont soumis à certaines limitations et sont actuellement disponibles sur macOS 14+ équipés d’une puce Mac M1 ou version ultérieure.
Alors que tout le monde s’efforce d’intégrer l’IA dans le navigateur le plus proche de l’utilisateur, nous souhaitons explorer la question de savoir si Dia peut se démarquer et comment l’IA peut remodeler l’expérience de navigation.
Google+Perplexité, Dia Vous souhaitez utiliser l'IA pour changer de navigateur ?
La page d'accueil de Dia est très simple, avec uniquement le champ de recherche le plus ordinaire. On peut même dire que c'est un peu rafraîchissant, mais c'est peut-être l'apparence idéale d'un navigateur : poser des questions, obtenir des réponses et terminer. Au lieu de remplir la liste de recherche chaude et de détourner votre attention.
Après avoir saisi la question, Dia fera apparaître une fenêtre de candidat, proposant deux options : Google et Chat.
Comme son nom l'indique, le premier accède directement à une page de moteur de recherche classique, tandis que le second est similaire à un assistant de chat IA commun, appelant le grand modèle de Dia pour donner directement des réponses, et possède ses propres enregistrements de chat historiques. Bien entendu, lorsqu’il rencontre des problèmes complexes, il effectuera également une recherche en ligne.
« Les animaux de compagnie peuvent-ils désormais voyager sur le train à grande vitesse ? » "Combien d'entreprises Musk gère-t-il actuellement ?" La qualité des réponses de Dia est également instable. Plusieurs réponses à la même question ont oscillé à plusieurs reprises entre correcte et incorrecte.
Si la question est posée en anglais, la qualité de la réponse ne sera pas significativement améliorée, et on pourra même confondre Starlink avec une société indépendante. Selon des tests réels, Dia attache occasionnellement des images aux réponses ; lorsque vous posez des questions en chinois, cela déclenche parfois accidentellement des réponses en anglais.
Au bas de la zone de saisie, vous pouvez également voir « Personnaliser Dia », où vous pouvez définir la personne que vous admirez, votre méthode d'apprentissage préférée et le style de réponse de Dia, ce qui peut aider Dia à se comprendre rapidement et à jouer un rôle dans la formation de la personnalité de l'IA.
Téléchargez simplement un mème Internet et Dia peut facilement identifier l'implication de l'émoticône. Le résumé du document est en place et les 100 000 mots sont clairement triés. Cependant, il convient de noter que la taille du document est limitée à 100 Mo et que le test réel ne prend pas en charge le téléchargement de documents au format Doc.
▲Deux ChatGPT seront affichés dans le coin supérieur gauche, ce qui devrait être un bug.
Pour résumer l'article du compte public, déposez simplement un lien.
Il est à noter que le navigateur Dia utilise une version spécifique du moteur Chromium. Chromium est un projet open source sur lequel sont construits de nombreux navigateurs modernes, dont Chrome.
L'interaction est le plus grand point fort, mais Dia est encore un produit à moitié fini
La conception d’interaction de Dia est un point fort. Les plug-ins d'IA traditionnels sont principalement présentés sous la forme de barres latérales et de fenêtres flottantes, couvrant le chat IA, la traduction, le résumé de la page Web, etc. Le chat dans le coin supérieur droit peut être considéré comme une version castrée du plug-in IA. Bien que la fonction soit légèrement mince, elle fait du bon travail dans l'expérience interactive.
Après avoir marqué le mot, la fonction de recherche ou d'explication peut être directement fournie sur le côté droit, et le fonctionnement global est fluide et fluide.
Par exemple, j'ai vu quelqu'un recommander un livre d'algèbre linéaire sur Zhihu. Au départ, je voulais commenter "Je ne sais pas à quel point c'est bon", mais je suis resté coincé en plein milieu de l'écriture. Que dois-je faire? À ce moment-là, lorsque je le place sur le curseur, le curseur deviendra bleu et épais, et cliquer dessus fera automatiquement apparaître l'interface de discussion sur la droite.
Ensuite, j'ai brièvement décrit l'idée de "Je ne comprends pas, mais j'ai été choqué", et DIa parcourait toute la page et proposait plusieurs options de commentaires.
Ces suggestions imitent même le ton détendu de la zone de commentaires chauds de Zhihu, qui est concis, simple et humain. Après avoir confirmé qu'il est correct, cliquez sur "Insérer" pour insérer et développer automatiquement le commentaire sur la gauche.
Si vous n'avez pas le temps de regarder la vidéo, vous pouvez simplement résumer le contenu de la vidéo. Voici une petite astuce qui lui permet également de donner des sous-titres résumant la vidéo. Cependant, après lui avoir demandé de générer un document Word ou PDF, il n'y a eu aucun retour de suivi.
De plus, Dia peut également « diviser l'écran » rapidement dans le navigateur en cliquant sur « Menu Affichage-Ajouter un volet de vue divisé » et peut diviser jusqu'à 4 écrans en même temps. Cependant, l'aspect pratique de cette fonction est limité : elle affiche uniquement les résultats de la recherche, et cliquer sur une page Web spécifique passera toujours en mode plein écran, ce qui est vraiment "apparent mais pas utile".
De plus, Arc a souvent été critiqué pour son incapacité à migrer les favoris Chrome. Désormais, Dia, qui a appris sa leçon, propose une fonction d'importation de signets en un clic pour prendre en charge une migration sans problème. L’autre est qu’il n’est pas allé aussi loin qu’Arc, mais a choisi une conception à onglets horizontaux plus conventionnelle. Vous pouvez ajouter diverses balises de page Web dans la zone de saisie et ajouter toutes les balises au contexte de conversation en même temps pour améliorer les capacités de liaison d'informations des pages à plusieurs onglets.
De la même manière que ChatGPT appelle les GPT, Dia prend également en charge l'appel de chaque balise de page Web via @. Le gameplay est très simple. J'ai sélectionné quelques articles antérieurs sur Ai Pin et leur ai demandé de résumer les points qui méritent d'être critiqués à propos d'Ai Pin. J'ai rapidement obtenu une réponse claire.
L'ère du navigateur 2.0 a commencé et le Web est loin d'être mort.
En 2010, Chris Anderson et Michael Wolff ont co-écrit l'article « Le Web est mort, l'Internet est éternel » dans le magazine Wired.
L'article souligne clairement que le World Wide Web (Web) est en déclin progressif vingt ans après sa naissance. En effet, le mode traditionnel de navigation sur le Web est progressivement remplacé par des services plus simples et plus fluides, notamment avec la montée en puissance d'applications (Apps), plus simples et plus efficaces, pouvant répondre directement à leurs besoins.
Par exemple, vous pouvez ouvrir une application d'actualités et parcourir les titres immédiatement sans avoir à saisir l'URL dans le navigateur et attendre que la page se charge. Cette tendance « App first » a presque dominé la logique de développement des produits Internet au cours de la dernière décennie.
Cependant, l’essor de l’IA générative a ramené le développement de produits au modèle Web.
Cela semble inattendu, mais c’est logique. L'interaction de l'IA est essentiellement centrée sur le texte/le dialogue, et l'interface Web prend naturellement en charge la saisie et la sortie de texte complexe et peut faciliter le partage des résultats et la collaboration.
Les modèles d’IA générative ont des exigences de calcul importantes et des vitesses d’itération rapides. Pendant la période d'exploration où l'on ne sait pas quels scénarios d'application d'IA sont les plus utiles, la plateforme Web peut couvrir tous les utilisateurs d'appareils au moindre coût et accélérer la vérification de l'adéquation produit-marché.
De plus, par rapport au coût psychologique et réel du téléchargement de l'application, la version Web permet aux utilisateurs de « cliquer et utiliser », ce qui est particulièrement important pour un produit naturellement peu familier comme ChatGPT, ce qui réduit les obstacles à l'essai des utilisateurs.
La forme et les fonctionnalités de base des navigateurs sont conservées depuis près de trente ans. En 1989, alors qu'il travaillait au CERN, Sir Tim Berners-Lee a créé le World Wide Web (WWW) pour répondre au besoin de partage d'informations entre scientifiques, universités et autres instituts de recherche.
Le navigateur Web a vu le jour, mais sa conception originale était centrée sur les documents, et cette logique sous-jacente n'a pas encore été modifiée.
Du dernier Netscape Navigator aux Chrome, Safari, Firefox et Opera d'aujourd'hui, on ne peut pas dire que l'apparence des éléments principaux du navigateur (onglets, barre d'adresse, favoris) soit restée inchangée, mais elle n'a pas beaucoup changé.
Dans le passé, la manière dont nous obtenions des informations via les moteurs de recherche était la suivante : saisir des mots-clés, obtenir une douzaine, voire des dizaines de pages de résultats, puis cliquer, parcourir, juger et filtrer une par une, et enfin trouver la petite partie dont nous avons besoin parmi la masse d'informations.
Ce processus revient à parcourir des piles de livres dans une bibliothèque : cela prend du temps et est inefficace. À cette époque, la capacité de trouver des informations était une compétence en soi, donnant même lieu à des tutoriels et à des cours tels que « Techniques de recherche avancées ».
Plus tard, le moteur de recherche est devenu plus intelligent et la conception et les performances de l’interface ont été optimisées. Par exemple, la page à onglet est passée d'une fenêtre unique à un outil de gestion multitâche, et la barre d'adresse a également intégré la fonction de recherche. Cependant, en dernière analyse, ces changements restaient fragmentaires et ne constituaient pas une refonte complète.
À l’heure où l’informatique spatiale immersive et l’IA conversationnelle ont le vent en poupe, nous sommes toujours contraints d’utiliser des navigateurs conçus sur la base du paradigme documentaire il y a plus de 30 ans. Il ne s’agit pas tant d’un problème d’interface que d’une inadéquation dans l’ensemble du modèle d’interaction de l’information.
Les progrès rapides de l’IA ont ouvert une brèche dans la refonte de l’expérience du navigateur. L'année dernière, l'engouement pour les plug-ins d'IA s'est répandu et des joueurs tels que Kimi et Monica sont entrés dans le jeu les uns après les autres, apportant de nouvelles façons de jouer : vous pouvez obtenir des réponses et effectuer des tâches sans quitter la page, et votre efficacité est montée en flèche.
À en juger par l'expérience actuelle, Dia, qui est encore un produit semi-fini, présente quelques points forts dans des détails tels que l'interaction dans la barre latérale et l'explication des mots, mais en dernière analyse, il ne sort toujours pas de la catégorie des plug-ins d'IA et concerne davantage l'intégration et le perfectionnement des fonctions existantes.
Josh Miller a dit un jour que les besoins en interface des navigateurs traditionnels ne sont plus aussi urgents et que sa structure sous-jacente déterminera notre avenir. "La plupart des gens pensent que nous construisons un navigateur", a déclaré Miller lors d'une conversation, "mais nous construisons en réalité un système basé sur un navigateur".
Son ambition est de transformer le navigateur d'un simple outil d'affichage de contenu en une existence semblable à un système d'exploitation capable de gérer les préférences et les comportements personnels et de réaliser une expérience d'IA multi-appareils au niveau du système sans avoir à répéter les paramètres dans chaque application.
Dans les premières démos, Dia a montré comment les navigateurs peuvent effectuer des tâches pour le compte des humains.
Par exemple, Dia parcourt elle-même Amazon, trouve ces articles et les ajoute à son panier. C'est exactement ce qu'un navigateur peut faire : utiliser son accès à toutes vos applications Web et données de navigation pour faire le travail à votre place.
Bien que le Dia d'aujourd'hui soit encore loin de cet objectif, ce passage du concept de réponse passive au concept d'exécution coïncide avec l'Agent populaire actuel.
Dans l'opérateur lancé par OpenAI et le nouvel agent « Méditation » de Zhipu, nous avons également vu que le navigateur commence à prendre des mesures au nom de l'utilisateur, comme réserver des billets d'avion, comparer les prix des produits, remplir des formulaires et même effectuer des achats en ligne.
Afin de mieux comprendre cette tendance, jetons un œil à l’idée du « système d’exploitation LLM » proposée par Andrej Karpathy, l’ancien gourou de l’IA chez OpenAI :
- LLM comme noyau : LLM est le centre de l'ensemble du système, semblable au processeur d'un système d'exploitation traditionnel, responsable du traitement des tâches principales et de la coordination des autres composants.
- Système de stockage : comprenant une fenêtre contextuelle (similaire à la RAM), utilisée pour stocker les informations en cours de traitement.
- Système de fichiers : utilisé pour le stockage à long terme des données, similaire au disque dur d'un ordinateur traditionnel.
- Bases de données vectorielles (embeddings/bases de données vectorielles) : utilisées pour stocker et récupérer des vecteurs intégrés, qui constituent une base importante pour que LLM puisse effectuer une compréhension et une récupération sémantiques.
- Navigateur : en tant que périphérique d'E/S, il est utilisé pour accéder aux ressources Internet et obtenir des informations en temps réel.
- Outils multimodaux : prennent en charge le traitement du texte, des images, de l'audio et d'autres types de données.
- D'autres outils : tels que des interpréteurs de code, des calculatrices, etc., sont utilisés pour aider LLM à accomplir des tâches complexes.
Depuis leurs racines, les navigateurs ont été étroitement alignés sur les besoins humains depuis leur création, et les attributs du fait d'être né pour les humains sont omniprésents. Les outils d'automatisation de l'interface utilisateur sur lesquels s'appuient les navigateurs traditionnels (tels que Selenium) sont essentiellement des simulations miroir des opérations humaines.
Contrairement aux interfaces graphiques et aux opérations manuelles, les agents IA doivent accéder aux données et les analyser via du code pour interagir automatiquement avec les pages Web. Le contenu chargé dynamiquement, les structures de pages complexes et l'application généralisée de mécanismes anti-exploration (tels que les codes de vérification) sont autant de difficultés qui doivent être résolues.
Paul Klein, fondateur du fournisseur de services de navigation Browserbase, a également donné quelques idées techniques :
- Développez un navigateur open source et efficace pour réduire le temps d'attente au démarrage du navigateur et la quantité de ressources requises pour l'installation, et améliorer la vitesse d'exécution et la commodité de déploiement.
- LLM est utilisé pour localiser rapidement les données d'une page Web. VLM identifie les éléments sur la base de captures d'écran et prend en charge l'interaction en langage naturel sans scripts complexes. Il peut même s'adapter à un contenu obscurci ou dynamique.
- Fournissez des outils de développement de SDK et d'API plus fiables, simplifiez le processus de développement et améliorez l'expérience AI Agent.
Un état plus idéal est que l'agent IA et le navigateur/site Web doivent communiquer directement via des protocoles standardisés, en sautant le lien d'interaction visuelle, en réalisant des opérations automatisées basées sur des interfaces de données (telles que les API, les protocoles sous-jacents) et en complétant la connexion directe de « humain → interface → données » à « machine → protocole → données ».
MCP, qui est fréquemment apparu aux yeux du public au cours de cette période, est une solution au goulot d'étranglement du modèle traditionnel « humain → interface → données ». Il connecte l'agent AI (hôte/client) aux ressources externes (serveur) via une architecture client-serveur, remplaçant les opérations d'interface par des protocoles.
Pour faire simple, vous pouvez considérer MCP comme une « interface universelle », au même titre que l’interface USB-C d’un ordinateur. Cette interface permet aux modèles d'IA de se connecter facilement à diverses ressources externes, telles que des fichiers, des bases de données, des services en ligne, etc.
Grâce à MCP, l'assistant IA peut non seulement obtenir des données, mais également opérer directement sur les données, comme la lecture du contenu des fichiers, la mise à jour des enregistrements de la base de données, etc.
Les navigateurs continueront à servir les humains, mais s’adapteront de plus en plus aux besoins de l’IA. Un modèle collaboratif dans lequel les humains émettent des ordres et les agents les exécutent efficacement deviendra la norme à l’avenir.
Depuis les premières interfaces de ligne de commande (CLI) jusqu'à l'interface utilisateur graphique (GUI), en passant désormais par l'interaction en langage naturel pur entre les humains et les machines et l'interaction de la couche de protocole entre les machines, la technologie devient de plus en plus complexe, mais les méthodes d'interaction se simplifient constamment.
Aujourd’hui, l’ère des navigateurs 2.0 a commencé et le Web est loin d’être mort.
"L'IA n'existera pas sous la forme d'une application, ni sous la forme d'un bouton. Nous pensons qu'il s'agira d'un tout nouvel environnement, construit sur un navigateur Web", indique le site officiel de Dia.
# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (WeChat ID : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.
Ai Faner | Lien original · Voir les commentaires · Sina Weibo