Google lance « AI Family Bucket » pour contrer GPT-4o ! Une rare mise à jour majeure du moteur de recherche, 121 phrases « IA » pour éliminer l’anxiété

17 mai 2024 Hibou Gourou

Après qu'OpenAI ait publié ChatGPT-4o hier soir, la pression était sur Google I/O, comme si Google ne pouvait pas se débarrasser du titre de « Wang Feng dans l'IA » quoi qu'il arrive.

Google, en revanche, a mentionné l'IA 121 fois et a lancé plus de dix nouveaux produits et mises à niveau lors d'une conférence de presse de près de deux heures. On peut dire qu'elle est « importante en volume et complète en gestion », avec une couverture complète de l'IA. puissance de feu, mais il n'y a pas beaucoup de surprises.

Laissez-nous d’abord vous résumer les points forts de cette conférence. Veuillez poursuivre votre lecture pour une analyse fonctionnelle plus approfondie.

Points clés de la conférence de presse :

Google Search AI : publication des aperçus de l'IA, d'une version améliorée de la fonction de résumé de recherche AI et de capacités de raisonnement en plusieurs étapes.
Grands modèles Gemini : Gemini 1.5 Flash (1 million de contextes) ; Gemini Pro (2 millions de contextes).
Grand modèle Gemma : lancement de grands modèles multimodaux open source Pali Gemma et Gemma2.
IA dans Google Workspace : utilisez les fonctionnalités de Gemini et le formulaire du panneau latéral pour regrouper la série de produits Google.
Application Gemini : La version mobile de l'application Gemini prendra bientôt en charge les conversations vidéo avec l'IA et sera publiée dans les dernières semaines.
Projet Astra : le dernier projet d'IA multimodale, comprenant l'IA générative pour les images, la musique et les vidéos telles que Imagen3, Music AI Sandbox et Veo.

Commencé par faire une recherche, utilisez Search King pour exploser

La recherche Google est l'un des plus grands domaines d'investissement et d'innovation de Google, et c'est son produit fondateur.

Il y a 25 ans, Google lançait la recherche, et ce soir, Google repousse à nouveau les limites de la recherche.

En termes simples, avec la recherche Google d'AIGC, vous pouvez faire plus :

Quoi que vous pensiez, quoi que vous ayez à faire, il vous suffit de le demander et la recherche Google le trouvera.

Toutes les évolutions de la recherche Google sont basées sur le modèle Gemini personnalisé pour celle-ci.

Google a présenté lors de la conférence de presse que la recherche Google « distinctive » présente trois principaux avantages uniques :

Les informations en temps réel de Google comprennent plus d'un billion de faits sur des personnes, des lieux et des objets.
Un produit de premier ordre et l'un des meilleurs services en ligne
Le pouvoir des Gémeaux

La combinaison de ces trois éléments ouvre la voie aux nouvelles capacités de recherche de Google.

La première nouvelle fonction est AI Review. Les utilisateurs peuvent obtenir des résumés générés par de grands modèles d'IA en haut des résultats de recherche, simplifiant ainsi l'ensemble du processus de recherche et simplifiant le processus de récupération de problèmes complexes.

Google affirme que d'ici la fin de cette année, plus d'un milliard de personnes utiliseront la fonctionnalité AI Review dans la recherche Google, et Google affirme qu'il s'agira de l'une des plus grandes mises à jour de son moteur de recherche depuis 25 ans.

Le raisonnement en plusieurs étapes est une autre fonctionnalité importante de la recherche Google.

Grâce au nouveau raisonnement en plusieurs étapes, il deviendra très simple pour nous de faire des projets de vie, de travail et de voyage à l'avenir.

Par exemple, vous pouvez utiliser la barre de recherche pour trouver « le meilleur studio de yoga à proximité », puis toutes les informations importantes sur les studios de yoga à proximité telles que les résultats d'évaluation, les recommandations de cours, les distances, etc. seront classées en blocs et clairement affichées dans le champ de recherche. Résultats de recherche.

En s'appuyant sur l'immense base de données de Google, l'IA peut faire appel aux informations de haute qualité les plus récentes et les plus complètes pendant le processus de recherche, de sorte que l'exactitude et la crédibilité des résultats de recherche sont mieux garanties.

Actuellement, Google inclut plus de 250 millions d'emplacements dans le monde, qui sont mis à jour en temps réel et incluent des informations importantes telles que les notes, les avis et les heures d'ouverture.

Planning in Search est une autre mise à jour qui réduit la charge qui pèse sur vous.

Disons que vous restructurez vos repas et planifiez à partir de zéro et que vous ne voulez pas manger de macaroni au fromage au petit-déjeuner, au déjeuner et au dîner.

Indiquez simplement vos besoins dans le champ de recherche et la recherche Google vous proposera une nouvelle recette hebdomadaire conforme à vos besoins et raisonnablement organisée.

De plus, vous pouvez modifier les conditions et les détails à tout moment, et les résultats de la recherche seront mis à jour en temps réel en fonction des dernières invites.

Si nous avons vu ou même utilisé les fonctions ci-dessus dans les produits d’autres sociétés, alors Ask with Video vous réservera certainement des surprises.

Il existe de nombreux objets dans la vie, tous portant leur propre nom exclusif. Lorsque certains équipements présentent des problèmes mineurs, il existe également des méthodes de réparation correspondantes. Mais dans de nombreux cas, seuls les professionnels peuvent le savoir et eux seuls peuvent « prescrire le bon médicament ».

Désormais, grâce à Ask with Video de la recherche Google, tout le monde peut être qualifié d'expert, ce qui équivaut à une encyclopédie sur votre téléphone mobile.

Les parties du disque ne fonctionnent plus et je ne sais plus par où commencer. L'obturateur de l'appareil photo tombe soudainement en panne… Autrefois, il fallait peut-être se donner beaucoup de mal pour le renvoyer au fabricant. pour le service après-vente, mais vous pouvez désormais utiliser l'objectif d'un appareil Google pour prendre une photo du problème, et la recherche Google peut vous aider à trouver le problème. Un diagnostic préliminaire des problèmes que vous rencontrez et des solutions à certains défauts mineurs peuvent être effectués. être fournis sur place.

Lors de la démonstration en temps réel lors de la conférence de presse, AI a également répertorié une par une toutes les étapes de réparation. En suivant les instructions à l'écran, le démonstrateur a pu résoudre rapidement les problèmes mineurs.

Cette fonction utilise l'IA pour décomposer la vidéo image par image, importer les informations clés de chaque image dans la longue fenêtre de contact de Gemini pour les analyser une par une et parcourir les articles, forums, vidéos, etc. connexes sur Internet pour trouver des informations, ainsi réaliser les suggestions intelligentes de Ask with Video.

Par rapport à la saisie de texte traditionnelle, le plus grand avantage de la vidéo est que le processus d'interaction entre nous et l'IA devient plus intuitif. L'utilisation de mots vagues tels que « ici » et « ceci » peut également permettre au grand modèle de savoir à quoi nous faisons référence.

Google a déclaré que ces dernières fonctionnalités d'IA seraient lancées dans les fonctions de laboratoire dans les prochaines semaines, ce qui signifie également qu'une recherche Google plus puissante n'est pas loin d'arriver.

Dans les versions ultérieures, il pourra même trouver des réponses basées sur les sous-titres automatiques des vidéos sur la page. Je me demande si cela supprimera le travail de ces blogueurs qui "regardaient XX films en 1 minute".

Images, chansons et films, destinés à OpenAI

Si GPT-4o au cours des deux derniers jours était l'IA qui a encore une fois apporté un petit choc au monde, alors le projet Astra officiellement annoncé par Google ce soir est une continuation du choc.

Le projet Astra est un prototype de GoogleMind, un assistant général d'intelligence artificielle.

Semblable à GPT-4o, les utilisateurs peuvent avoir des conversations en temps réel avec l'IA et un chat vidéo via celui-ci.

La démonstration lors de la conférence de presse peut très bien démontrer cette nouvelle fonctionnalité. Dans la vidéo de démonstration, le personnel a pointé l'objectif du téléphone portable vers les objets autour d'eux et a posé quelques questions au Projet Astra, et celui-ci a pu répondre avec précision dans un délai presque nul. .

Par exemple, Project Astra peut déterminer que la moitié supérieure du haut-parleur est un tweeter et peut facilement identifier sa fonction spécifique à partir du code affiché sur l'écran de l'ordinateur.

Google dit :

Notre nouveau projet se concentre sur la création d’un assistant IA futuriste qui peut réellement aider dans la vie de tous les jours.

S'appuyant sur des performances d'IA plus puissantes, Google a également annoncé trois autres fonctions pratiques au niveau des E/S. Elles se situent dans les domaines des « images », de la « musique » et des « vidéos », reflétant le « sens futur » de la technologie avancée.

Imagen 3 est le dernier modèle de génération d'images publié par Google.

Il peut mieux comprendre nos mots-clés et les utiliser pour créer des images plus réalistes.

L'image générée de "Wolf" affichée lors de la conférence de presse montre qu'Imagen 3 a extrait avec précision 8 informations détaillées dans un récit, et toutes ont été reflétées dans l'image.

Il n’est pas difficile de constater que les images générées sont non seulement précises dans les détails, mais aussi très réalistes.

Imagen 3 peut également gérer certaines créations d'images plus abstraites, telles que des images créatives générées sur la base des invites « couleur arc-en-ciel », « lumière plume » et « fond noir ».

Comme s'il savait exactement ce que vous voulez.

Le porte-parole a même déclaré en plaisantant lors de la conférence de presse que "on peut l'utiliser pour compter les barbes sur le visage des autres".

Google a également réalisé de nouvelles avancées dans la génération musicale.

Music AI Sandbox est le dernier modèle de génération musicale lancé cette fois par Google qui a également invité Marc Rebillet à le partager sur le site I/O.

Basé sur une courte démo musicale créée par l'artiste, Music AI Sandbox peut être étendu et étendu sur cette base. Il peut également créer un deuxième morceau de musique en fonction des invites saisies par l'utilisateur, telles que le style et le type de musique, etc. .

Google a déclaré qu'eux et YouTube avaient construit le Music AI Sandbox :

Il s'agit d'un ensemble d'outils musicaux professionnels d'IA qui peuvent créer de nouvelles parties d'instruments à partir de zéro, convertir des styles entre les pistes, etc. pour nous aider à les concevoir et à les tester.

Un autre modèle pratique appelé Veo se concentre sur la génération de vidéos.

Les utilisateurs n'ont qu'à saisir des invites de texte, d'image ou de vidéo pertinentes, et Veo peut créer des vidéos 1080p de haute qualité d'une durée maximale de 60 secondes.

Il capture les détails dans des instructions dans différents styles visuels et cinématographiques.

Par exemple, nous pouvons saisir des éléments, des paysages ou des photos aériennes en accéléré dans les invites et utiliser d'autres invites pour éditer davantage la vidéo.

Pendant longtemps, l'IA de génération vidéo n'a été « établie que théoriquement ». En fait, il y a eu de nombreux obstacles, parmi lesquels le plus grand seuil de « convivialité » est le suivant : le temps de génération vidéo n'est que de quelques secondes, et généralement il est élevé. ne peut sauter que de manière répétée en un ou deux mouvements.

C'est pourquoi Sora a suscité beaucoup de discussions lors de sa sortie. Depuis ce soir, le Veo de Google est également devenu le centre de l'attention de tous, du photoréalisme au surréalisme et à l'animation, il peut couvrir la plupart des styles de cinéma et de télévision.

En plus du projet Astra, Google nous propose également un Gemini personnalisable – Gems.

Google a déclaré qu'il pouvait accomplir des tâches tout en conservant des caractéristiques spécifiées et devenir un assistant personnel pour des milliers de personnes. Les utilisateurs peuvent ajuster son positionnement pour devenir un ami de yoga, un personnage populaire virtuel, un partenaire de fitness, un coach d'écriture créative ou même un compte WeChat. . Les tuteurs de points, etc. sont tous un problème.

Les Gémeaux adorent les longs textes et la famille Gémeaux a ajouté un nouveau membre

Le projet Gemini a attiré beaucoup d'attention depuis sa révélation. Il y a eu une certaine controverse au début, mais plus tard, elle s'est appuyée sur ses propres forces pour restaurer sa réputation, et maintenant elle devient de plus en plus mature.

Selon Pichai, plus de 1,5 million de développeurs utilisent actuellement le modèle Gemini, et le nombre d'utilisateurs a atteint 2 milliards. Aujourd'hui, Pichai évoque à nouveau « l'ère Gemini », dans le but de l'intégrer dans tous les produits et d'en apporter de nouveaux. produits aux utilisateurs. L’expérience crée également de nouvelles opportunités pour les créateurs, les développeurs et les startups.

Le dernier Gemini 1.5 Pro prend actuellement en charge 1 million de volumes de texte symbolique, et plus tard cette année, il est dit que ce nombre atteindra 2 millions, capable de traiter 2 heures de vidéo, 22 heures d'audio, plus de 60 000 lignes de code, ou plus. plus de 1,4 million de mots en même temps.

En outre, la conférence a également annoncé Gemini Advanced basé sur Gemini 1.5 Pro, qui serait capable de gérer "plusieurs documents volumineux, totalisant jusqu'à 1 500 pages, ou de résumer 100 e-mails", et prend également en charge 35 langueset plus de 150 pays/régions.

Il faut dire qu'en termes de volume de texte, Gemini est en effet très important, "un grand pas vers l'objectif de convertir n'importe quelle entrée en n'importe quelle sortie".

La sécurité est toujours la priorité absolue

Depuis les débuts de l’IA, un débat est en cours sur la manière d’identifier le contenu généré par l’IA. La contre-mesure de Google consiste à ajouter des filigranes invisibles aux images et au son générés par l'IA via SynthID pour les rendre plus faciles à distinguer.

À l'avenir, Google étendra cette portée au texte et à la vidéo, et dans les prochains mois, en mettant à jour la boîte à outils d'IA générative et le filigrane de texte open source SynthID, cela aidera davantage de développeurs à créer l'IA plus facilement et de manière plus responsable.

Une fois Gemini intégré, Android émettra un avertissement lorsqu'une activité suspecte est détectée pendant l'appel, comme par exemple si vous êtes invité à fournir votre numéro de sécurité sociale et vos informations bancaires. C'est comme si vous installiez le « centre anti-fraude » directement sur le téléphone. .

La fonctionnalité d'accessibilité TalkBack sera également améliorée grâce à Gemini Nano. Les descriptions d'images seront plus claires et plus riches, aidant les utilisateurs malvoyants à mieux utiliser leur téléphone grâce au retour vocal, reflétant le soin humaniste constant de Google.

Quant aux performances de Google ce soir, l'évaluation du NVIDIA Research Manager Jim Fan a été très pertinente.

Le modèle récemment publié par Google semble être une entrée multimodale, mais pas une sortie multimodale. Imagen3 et Music AI Sandbox sont toujours séparés de Gemini en tant que composants indépendants. La fusion native de toutes les E/S modales est un avenir inévitable.

Il peut effectuer des tâches telles que « utiliser une voix plus robotique », « éditer cette image », « générer des bandes dessinées cohérentes ».

Et sans perdre d'informations aux limites modales, telles que les émotions et les bruits de fond, le nouveau modèle ouvre de nouvelles capacités contextuelles et les utilisateurs peuvent enseigner le modèle avec quelques exemples et combiner différentes significations de manière innovante.

GPT-4o n'est pas parfait, mais il obtient le bon facteur de forme, pour paraphraser la métaphore du LLM en tant que système d'exploitation d'Andre :

Nous avons besoin que le modèle prenne en charge nativement autant d’extensions de fichiers que possible.

Google fait une bonne chose : il fait enfin un effort sérieux pour intégrer l'intelligence artificielle dans le champ de recherche.

Les Gémeaux ne doivent pas nécessairement être le meilleur, mais ils peuvent être le plus largement utilisés.

*Wang Meng a également contribué à cet article

# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo