Gemini, le modèle le plus puissant de l’histoire de Google, « écrase-t-il » vraiment le GPT-4 ?
Tard hier soir, Google a soudainement publié son outil de tueur d'IA à succès – Gemini.
Multimodal Gemini peut comprendre, manipuler et combiner différents types d’informations, notamment le texte, le code, l’audio, les images et la vidéo.
Moins de deux semaines après la sortie de ChatGPT l'année dernière, Google avait déjà lancé une "alerte rouge" pour relever le défi. Mais Bard, qui a été lancé en urgence, a commis une erreur lors de ses débuts, faisant perdre du jour au lendemain à Google 100 milliards de dollars de valeur marchande.
Au cours de l'année écoulée, les chatbots basés sur de grands modèles ont reçu plus de 2 milliards de visites mensuelles, parmi lesquelles ChatGPT arrive loin devant. Bien que Google Bard se classe deuxième, il est plus à juste titre classé dans la catégorie « autres » avec plusieurs produits concurrents.
▲ Photo tirée de : Les informations
Par conséquent, Gemini a longtemps placé de grands espoirs de rattraper ChatGPT. Quel que soit le succès ou l'échec, c'est le résultat des efforts désespérés passés de Google sur les grands modèles d'IA.
Capable de voir, de parler et de raisonner
Gemini 1.0 a officiellement annoncé trois tailles différentes : bonnet moyen, grand bonnet et très grand bonnet.
Medium : Gemini Nano – le modèle le plus efficace pour les missions d'appareils Large : Gemini Pro – le meilleur modèle pour une large gamme d'extensions de mission Extra Large : Gemini Ultra – le modèle le plus grand et le plus performant pour les tâches très complexes
En mettant de côté pour le moment les informations complexes sur les paramètres, utilisons quelques cas pour vous donner une compréhension complète des capacités de Gemini.
Lorsque vous dessinez un canard au hasard, les Gémeaux peuvent tout identifier avec précision, de la courbe à la forme du canard. Tracez une ligne ondulée pour le canard, et il comprendra votre signification et indiquera avec précision la réponse à la scène du canard nageant dans l'eau.
Dans le même temps, il peut également imiter les cris du canard de manière humaine, même si vous pouvez parler couramment le mandarin.
Si vous vous ennuyez, vous pouvez également jouer à un jeu avec les Gémeaux. Quelle région vous pointez du doigt, les Gémeaux vous parleront de ce pays et de ses éléments représentatifs.
Les trois immortels retournent dans la grotte. Devinez sous quelle tasse se trouve la boule de papier. Peu importe la vitesse à laquelle vous vous déplacez, vous ne pouvez pas vous cacher des « yeux » des Gémeaux.
Si vous recevez le fil mais n’en avez aucune idée, ne vous inquiétez pas, le cerveau intelligent des Gémeaux organisera déjà le produit fini pour vous dès qu’il verra le fil, il vous suffit « d’imiter le chat et le tigre ».
La reconnaissance des images n'est que le niveau de base des Gémeaux. Lorsque vous voyez des instruments de musique, les Gémeaux peuvent également générer une musique qui correspond à l'atmosphère de l'environnement.
Logique et résolution d'énigmes, analyse de séquences d'images, interprétation de tours de magie, mémoire et logique, les Gémeaux possèdent toutes ces capacités et les maîtrisent toutes.
Google a également publié une version de démonstration textuelle. Si vous ne souhaitez pas regarder la vidéo, vous pouvez visiter https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html pour le visualiser.
Peut-être que cette vidéo est trop choquante et que certains internautes ont mis en doute la possibilité que la vidéo de Google soit "fausse". Cependant, Gemini sera bientôt ouvert au public dans Google AI Studio, et l'authenticité pourra alors être distinguée.
Gemini multimodal VS GPT-4
Selon les responsables de Google, depuis la compréhension naturelle des images, de l'audio et de la vidéo jusqu'au raisonnement mathématique, les performances de Gemini Ultra ont dépassé les 30 dernières avancées actuelles dans 32 références académiques largement utilisées pour la recherche et le développement de grands modèles de langage (LLM).
À en juger par les résultats des tests publiés par Google, les performances de Gemini ont presque complètement écrasé le GPT-4 d'OpenAI dans des domaines tels que le texte, le raisonnement conventionnel, les mathématiques et le codage.
MMLU (Massive Multi-Task Language Understanding) est l'un des moyens les plus populaires pour tester les connaissances et les capacités de résolution de problèmes des modèles d'IA. Gemini Ultra est devenu le premier modèle à surpasser les experts humains dans ce test avec une précision de 90,0 %. À titre de comparaison, le GPT-4 n'avait qu'une précision de 86,4 %.
Le nouveau test de référence MMMU inclut des tâches multimodales dans différents domaines et présente un degré plus élevé de tests de grands modèles multimodaux, mais Gemini Ultra a également obtenu un score élevé de 59,4 %.
Dans une interview accordée au MIT Technology Review, le PDG de Google, Sundar Picha, a déclaré que l'une des raisons importantes pour lesquelles Gemini est remarquable est qu'il s'agit fondamentalement d'un modèle multimodal. Tout comme les gens, il apprend non seulement à partir du texte, mais aussi à travers la vidéo, audio et code.
Les fonctionnalités multimodales sont des fonctionnalités natives que Gemini a passé du temps à peaufiner. Gemini 1.0 peut simultanément reconnaître et comprendre du texte, des images, de l'audio et d'autres informations. Il a une plus grande capacité à comprendre les informations et peut répondre facilement aux questions liées à des sujets complexes. Dans le test SOTA multimodal, le niveau de test multimodal d'image, de vidéo et d'audio de Gemini est encore une fois loin devant.
Le code est l'un des indicateurs importants pour tester le niveau des grands modèles. La capacité de Gemini 1.0 à travailler dans plusieurs langages et à raisonner sur des informations complexes est sa force, et il peut comprendre des codes de haute qualité tels que Python, Java, C++. , etc. Il y a deux ans, Google a lancé AlphaCode, le premier système de génération de code d'IA à atteindre des niveaux compétitifs dans les compétitions de programmation.
Aujourd'hui, AlphaCode lance sa deuxième génération, un modèle de codage compétitif affiné par Gemini. Comparé à l'AlphaCode original sur la même plate-forme, AlphaCode-2 a obtenu un score de 87 % par rapport à ses concurrents humains, contre seulement 46 % pour le précédent AlphaCode.
Adresse du rapport technique AlphaCode-2 :https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf
Dans un rapport technique, Google DeepMind (producteur d'AlphaCode 2) a partagé une multitude de détails sur son système de recherche, de filtrage et de reclassement par temps d'inférence. Jim Fan, scientifique principal chez NVIDIA, a salué ces derniers résultats comme étant le Q* de Google (qui peut être simplement compris comme une avancée majeure dans l'IA).
Arman, PDG de thehiredai, a fait une prédiction audacieuse : "Gemini AI vient de tuer ChatGPT !"
Il convient de mentionner que Google a également annoncé le lancement du système TPU le plus puissant, efficace et évolutif à ce jour : Cloud TPU v5p.
▲ Cloud TPU v5p
La formation de Gemini 1.0 est effectuée sur l'infrastructure d'optimisation de l'IA des unités de traitement tensoriel (TPU) v4 et v5e conçues en interne par Google.
Thomas Kurian, PDG de Google Cloud, a fait l'éloge de son produit sans hésitation : "Cloud TPU v5p est notre accélérateur TPU le plus puissant et le plus évolutif à ce jour, et sa vitesse de formation de modèles est 2,8 fois plus rapide que celle de son prédécesseur. "
Nouveaux acteurs dans les modèles de téléphones mobiles
Les téléphones mobiles sont un moyen important de percée des nouvelles technologies. Si Gemini veut entrer dans la société de masse à grande échelle, le Pixel 8 doit être son meilleur choix.
En tant que premier téléphone mobile doté d'une intelligence artificielle intégrée, le Pixel 8 Pro s'est bâti une bonne réputation sur la voie d'une utilisation civile de haute technologie. À en juger par les retours des utilisateurs ayant déjà utilisé le Pixel 8 Pro, Google a fait du bon travail. intégrer l'IA aux applications de terminaux mobiles. .
Sur cette base, Google a officiellement annoncé que Gemini Nano, un modèle de taille moyenne, fonctionnerait officiellement sur Pixel 8 Pro à partir d'aujourd'hui.
Dès que la nouvelle est sortie, Morimoto, CTO de PassionateGenius, était impatient de faire l'expérience de l'exécution de grands modèles sur le Pixel 8.
En tant que premier smartphone conçu spécifiquement pour Gemini Nano, le Pixel 8 Pro dispose de deux fonctions d'extension exclusives qui seront ajoutées dans les mises à jour ultérieures : "Recorder Summary" et "Gboard Smart Reply".
Même s'il n'y a pas de connexion réseau, l'enregistreur peut obtenir des résumés d'enregistrements de conversations téléphoniques mobiles, d'interviews, de démonstrations, etc. Un matériel terminal puissant constitue la base de la prise en charge de cette fonction, et l'algorithme latéral optimisé permet de « continuer à être hors ligne même si le réseau est déconnecté".
La fonction de réponse intelligente est très similaire à la réponse automatique après avoir raccroché, mais par rapport au contenu fixe traditionnel, Gemini Nano peut identifier le contenu de la lettre entrante et générer des réponses correspondantes basées sur différentes phrases. naturel et convivial, le faisant ressembler à une star. L’équipe opérationnelle répond aux sentiments immédiats des fans sur les plateformes sociales.
Ces deux fonctions ne prennent actuellement en charge que la reconnaissance de texte en anglais, mais quand j'y pense, cela ne semble pas avoir d'impact sur ceux d'entre nous qui ne peuvent pas acheter de téléphones Google. Le Pixel 8 Pro doit encore attendre un certain temps.
En termes d'optimisation de la productivité, Pixel de l'autre côté de l'océan a enfin rattrapé le niveau de base de la Chine.
Des fonctions similaires d'édition d'IA pour les photos et les vidéos sont devenues synonymes des nouveaux téléphones de Google lors du premier lancement des nouveaux téléphones. Désormais, l'optimisation continue des optimisations d'édition d'IA peut ajouter un nouvel « éditeur professionnel » au téléphone.
Une nouvelle fonction de nettoyage peut aider à éliminer les taches, les taches et les plis des documents numérisés. Vous pouvez désormais éliminer les taches de vos photos en quelques clics dans votre album photo.
Tirant parti de la puissance de Google Tensor G3, le modèle d'amélioration vidéo du Pixel 8 Pro peut ajuster la couleur, l'éclairage, la stabilité et la granularité dans le cloud.
À en juger par la comparaison d'affichage officielle, un filtre "vivant" a été ajouté à la vidéo, rendant les couleurs plus riches et le contraste entre la lumière et l'obscurité plus élevé. Surtout dans les environnements de lumière sombre la nuit, l'effet de cette optimisation de l'IA sera plus évident .
Par rapport au montage vidéo, l'embellissement de l'image devrait être l'attente d'un plus grand nombre de personnes. Surtout lors de la prise de vue d'objets dynamiques, les images floues vous laisseront toujours quelques regrets lorsque vous les feuilleterez par la suite. L'édition IA améliorée peut modifier les photos Google. Tous les flous sont supprimés. .
À l'avenir, vous pourrez enregistrer les moments forts de vos animaux de compagnie sans vous soucier de l'anxiété causée par la mise au point de l'appareil photo.
De plus, Google a également amélioré la liaison entre plusieurs appareils. La Pixel Watch peut être un autre moyen de déverrouiller votre téléphone. Elle peut également vous aider à ignorer les appels indésirables ou à confirmer qui appelle et pourquoi vous appelez avant de répondre.
Si vous pouvez acheter un Pixel 8 Pro ou si vous êtes déjà un utilisateur de téléphone Google, vous pouvez essayer de vérifier si ces nouvelles fonctionnalités deviendront une motivation pour vous d'acheter ou de continuer à utiliser Google.
À partir d'aujourd'hui, grâce à la nouvelle version Gemini Pro, Bard bénéficiera de fonctions de raisonnement, de planification, de compréhension et d'autres fonctions plus avancées. Il sera disponible en anglais dans plus de 170 pays et régions.
Dans une interview accordée au MIT Technology Review, Sundar Pichai a également déclaré : « Gemini Pro s'est très bien comporté lors des tests de référence, et je peux personnellement ressentir ses avantages lors de son intégration dans Bard. Nous l'avons testé et avons constaté des améliorations significatives dans toutes les catégories de tâches, nous l'appelons l'une de nos plus grandes mises à niveau à ce jour.
▲Actuellement, Bard utilise la version Gemini Pro. La photo provient de l'utilisateur X @gijigae.
Au cours des prochains mois, Gemini lancera progressivement davantage de produits et services de Google, tels que la recherche, la publicité, Chrome et Duet AI.
À partir du 13 décembre, les développeurs et les entreprises clientes peuvent accéder à Gemini Pro via l'API Gemini dans Google AI Studio ou Google Cloud Vertex AI.
Actuellement, Gemini Ultra est en cours de test interne et prévoit de le proposer aux développeurs et aux utilisateurs professionnels au début de l'année prochaine. Au début de l'année prochaine, Google lancera également Bard Advanced pour permettre aux utilisateurs plus ordinaires d'utiliser le Gemini Ultra le plus puissant.
Le PDG de Google, Sundar Pichai, a déclaré lors du lancement de Gemini :
Chaque changement technologique est une opportunité de faire progresser la découverte scientifique, d’accélérer le progrès humain et d’améliorer la vie.
Je crois que la transformation que nous observons aujourd’hui en matière d’IA sera la plus profonde de notre vie, bien plus grande que les transformations du mobile ou du Web qui l’ont précédé.
Si vous souhaitez réaliser l'AGI (intelligence générale artificielle), vous avez besoin que l'IA soit capable de résoudre des tâches complexes dans différents domaines et modes aussi sereinement que les humains. Dans ce processus, en plus du calcul de base, du raisonnement et d'autres capacités de base, les texte, les capacités multimodales telles que les images et les vidéos doivent également suivre le rythme.
DeepMind a proposé un cadre pour l'évaluation et la classification des AGI. Les deux premières étapes sont :
AGI-0 : Intelligence artificielle de base qui peut faire preuve d'intelligence dans des domaines et des tâches spécifiques, tels que la reconnaissance d'images, le traitement du langage naturel, etc., mais ne peut pas apprendre et raisonner dans plusieurs domaines et modalités, ni interagir avec les humains et d'autres communications et communications d'IA. collabore efficacement et naturellement, et ne peut pas non plus percevoir et exprimer ses émotions et ses valeurs.
AGI-1 : Intelligence artificielle générale primaire, capable de faire preuve d'intelligence dans de multiples domaines et tâches, tels que les questions et réponses, le résumé, la traduction, le dialogue, etc., capable d'apprendre et de raisonner dans plusieurs domaines et modalités, et capable d'interagir avec les humains. et d'autres IA s'engagent dans la communication et la collaboration de base et sont capables de percevoir et d'exprimer des émotions et des valeurs simples.
La vidéo de démonstration de Gemini démontre pleinement sa profonde compréhension de l'interaction dans diverses modalités. Il peut voir, parler, raisonner, percevoir et exprimer des émotions et des valeurs simples. Cela nous permet également de voir le potentiel d'AGI-1.
Cet article a été co-écrit par Li Chaofan, Xiao Fanbo et Mo Chongyu
# Bienvenue pour suivre le compte public officiel WeChat d'aifaner : aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.
Ai Faner | Lien original · Voir les commentaires · Sina Weibo