L’IA de Google vient d’avoir des oreilles

10 avril 2024 Hibou Gourou

Google

Les chatbots IA sont déjà capables de « voir » le monde à travers des images et des vidéos. Mais maintenant, Google a annoncé des fonctionnalités audio-parole dans le cadre de sa dernière mise à jour de Gemini Pro . Dans Gemini 1.5 Pro, le chatbot peut désormais « entendre » les fichiers audio téléchargés dans son système, puis extraire les informations textuelles.

La société a rendu cette version LLM disponible en avant-première publique sur sa plateforme de développement Vertex AI. Cela permettra aux utilisateurs davantage axés sur l'entreprise d'expérimenter la fonctionnalité et d'élargir sa base après un déploiement plus privé en février, lorsque le modèle a été annoncé pour la première fois. À l’origine, cette fonctionnalité n’était proposée qu’à un groupe limité de développeurs et d’entreprises clientes.

1. Décomposer + comprendre une longue vidéo
J'ai mis en ligne l'intégralité du concours de dunk NBA d'hier soir et j'ai demandé quel dunk avait obtenu le score le plus élevé.
Gemini 1.5 a été incroyablement capable de trouver les 50 dunks parfaits et les détails spécifiques à partir de sa longue compréhension vidéo contextuelle ! pic.twitter.com/01iUfqfiAO
— Rowan Cheung (@rowancheung) 18 février 2024

Google a partagé les détails de la mise à jour lors de sa conférence Cloud Next , qui se déroule actuellement à Las Vegas. Après avoir qualifié le Gemini Ultra LLM qui alimente son chatbot Gemini Advanced de modèle le plus puissant de sa famille Gemini, Google appelle désormais Gemini 1.5 Pro son modèle génératif le plus performant. La société a ajouté que cette version permet un meilleur apprentissage sans ajustement supplémentaire du modèle.

Gemini 1.5 Pro est multimodal dans le sens où il peut interpréter différents types d'audio en texte, notamment des émissions de télévision, des films, des émissions de radio et des enregistrements de conférences téléphoniques. Il est même multilingue dans la mesure où il peut traiter l'audio dans plusieurs langues différentes. Le LLM peut également être en mesure de créer des transcriptions à partir de vidéos ; cependant, sa qualité peut être peu fiable, comme mentionné par TechCrunch .

Lors de sa première annonce, Google a expliqué que Gemini 1.5 Pro utilisait un système de jetons pour traiter les données brutes. Un million de jetons équivaut à environ 700 000 mots ou 30 000 lignes de code. Sous forme médiatique, cela équivaut à une heure de vidéo ou environ 11 heures d’audio.

Il y a eu quelques démos privées de Gemini 1.5 Pro qui démontrent comment le LLM est capable de trouver des moments spécifiques dans une transcription vidéo. Par exemple, Rowan Cheung, passionné d'IA, a obtenu un accès anticipé et a détaillé comment sa démo a trouvé un plan d'action exact lors d'une compétition sportive et a résumé l'événement, comme le montre le tweet intégré ci-dessus.

Cependant, Google a noté que d'autres premiers utilisateurs, notamment United Wholesale Mortgage, TBS et Replit, optent pour des cas d'utilisation davantage axés sur l'entreprise, tels que la souscription de prêts hypothécaires, l'automatisation du marquage des métadonnées et la génération, l'explication et la mise à jour du code.