L’IA Gemini de Google peut désormais traiter et commenter les fichiers audio
L'IA Gemini de Google est multimodale, ce qui signifie qu'elle peut traiter et générer des fichiers dans différents formats, allant du texte aux images en passant par les vidéos . Bien qu'elle puisse générer de l'audio, elle ne pouvait jusqu'à présent pas traiter les fichiers audio téléchargés par les utilisateurs. Cela change enfin : Gemini permet désormais d'alimenter des fichiers audio et d'en discuter.
Quel est le grand changement ?
La possibilité de télécharger des fichiers audio est désormais disponible dans l'application mobile Gemini et la version web. Dans la bulle de discussion Gemini, appuyez sur l'icône « + » et téléchargez le clip audio en sélectionnant l'icône de téléchargement en forme de clip. Au fait, cette fonctionnalité est gratuite pour tous les utilisateurs Gemini.
D'après la page d'assistance de Google, vous pouvez télécharger des clips audio d'une durée maximale de dix minutes. Cependant, si vous achetez les packs Gemini AI Pro ou Ultra, vous pouvez télécharger des fichiers audio d'une durée maximale de trois heures.
Si vous êtes curieux de savoir quels autres formats de fichiers vous pouvez alimenter Gemini, voici un bref aperçu :
- Jusqu'à 10 fichiers en une seule fois, y compris les fichiers ZIP.
- Vidéo d'une taille maximale de 2 Go. Durée de 5 minutes pour les utilisateurs gratuits et 1 heure pour les clients payants.
- Un dossier de code ou un référentiel GitHub (jusqu'à 5 000 fichiers / 100 Mo de taille)
Une aubaine pour les bibliophiles
Tout le monde n'aime pas se plonger dans un livre audio, un podcast ou un enregistrement de conférence. Parfois, c'est dans les murs de texte que la magie opère, ou que réside le confort cognitif. Si vous faites partie de ceux qui recherchent une libération auditive, cette mise à jour de Gemini est une véritable aubaine. Et oui, la prise en charge audio va au-delà de l'anglais, comme vous pouvez le constater dans l'article ci-dessous.
Qu'il s'agisse de résumer une longue conférence ou d'extraire quelques points précis d'un podcast, Gemini gère l'audio et vous fournit exactement ce que vous souhaitez. Vous pouvez lui demander de rédiger de longs rapports, de courts résumés, ou même de les convertir en diapositives de connaissances exportables sous forme d'images.
À l'autre bout du fil, nous avons le fantastique outil NotebookLM . Il peut transformer vos longs fichiers texte en un podcast audio captivant pour deux personnes. Si vous préférez les présentations vidéo, il est également disponible. Et tant qu'à faire, profitez de l' offre gratuite Gemini AI Pro que Google propose aux étudiants de nombreux pays, dont les États-Unis.
