Je laisse Gemini transformer des recherches complexes en podcasts. Je n’y retournerai jamais

L' abandon de Google Assistant et l'entrée dans l'ère Gemini en sont presque à leurs dernières étapes. On peut être nostalgique de l'assistant virtuel éponyme, mais il est indéniable que l'arrivée de Gemini a véritablement changé ce qu'un agent IA peut faire pour nous.

Les capacités de compréhension du langage sont bien meilleures avec les Gémeaux .Les conversations sont naturelles , les interactions avec les applications sont fluides, l'intégration avec d'autres produits Google est enrichissante, et même dans son état gratuit , Gemini emmène Siri aux nettoyeurs même sur un iPhone .

Il existe cependant quelques astuces qui placent les Gémeaux dans une ligue totalement différente. Deep Research est l'une de ces fonctionnalités agentiques que j'utilise quotidiennement et qui continue d'être étonnée. En mars, Google a ajouté une autre fonctionnalité enrichissante à l'arsenal Gemini : les aperçus audio.

Transformer tout cela en podcast

Invite de présentation audio dans Gemini.
Nadeem Sarwar / Tendances numériques

Imaginez transformer vos documents ternes, vos documents de recherche ouvertement complexes ou vos lectures universitaires en une discussion podcast bidirectionnelle animée. C’est essentiellement l’objectif des aperçus audio. La fonctionnalité est arrivée pour la première fois sur NotebookLM, profondément sous-estimée de Google, et a finalement été transférée vers l'expérience Gemini de base sur mobile et Web.

Vous n'avez pas besoin de passer par des obstacles techniques ni d'écrire une invite textuelle hyper spécifique pour obtenir ces transformations audio. Téléchargez simplement un fichier à partir du sélecteur de pièces jointes et vous verrez une puce « Générer un aperçu audio » apparaître juste au-dessus de la boîte de discussion. Appuyez dessus et la génération de podcast commencera.

Cela peut prendre quelques minutes, mais en attendant, vous pouvez passer en toute sécurité à une autre application (ou fenêtre). Une fois le processus terminé, vous recevrez une notification indiquant que le podcast est prêt pour votre plus grand plaisir d'écoute ou de partage avec d'autres personnes.

L’aperçu audio est généralement une conversation libre à deux personnes sur un ton étrangement naturel. C'est presque comme si vous discutiez avec Gemini Live, ce qui lui-même semble considérablement plus naturel que n'importe quel chatbot IA que j'ai utilisé jusqu'à présent en mode conversation vocale.

Ces podcasts générés par l’IA sont généralement plutôt bien réalisés, je dirais. Mais je suis attiré par eux pour plusieurs raisons. Tout d’abord, je regarde un écran, je lis des articles de recherche et j’écris mes propres trucs, presque toute la journée.

Création du podcast Gemini en cours.
Nadeem Sarwar / Tendances numériques

Cela laisse peu de place à l’utilisation d’autres contenus textuels, qu’ils soient académiques, professionnels ou même récréatifs. Cependant, si je pouvais simplement changer le mode sensoriel pour interagir avec ce matériel, ma fatigue de lecture passerait au second plan.

Les podcasts audio offrent une toute nouvelle façon d’interagir avec du matériel textuel de manière plus immersive. Cela nous amène au deuxième avantage, qui est la stimulation sensorielle, ou variance. Cette formule a été bien documentée et expérimentée dans le domaine du coaching universitaire et professionnel.

Comment cela m'a aidé ?

La fatigue du texte a des conséquences néfastes. Même un travail passionnant apparaît comme une corvée que vous devez surmonter, simplement parce que vous ne pouvez pas vous permettre de le manquer. Cependant, s’engager dans la même œuvre, ou dans son essence, à travers un média sensoriel différent supprime cette peur de surcharger davantage de matériel textuel. Cela aide en fait de plusieurs autres manières.

"L'engagement de plusieurs sens renforce la mémoire. Lorsque nous écoutons et interagissons, que ce soit en lisant, en écrivant ou en faisant, le cerveau établit des connexions plus fortes, ce qui facilite le rappel ultérieur", explique Yasir Naseem, un expert en linguistique dont les travaux de recherche se sont concentrés sur la modernisation et la gamification des méthodologies d'enseignement.

Naseem, qui est actuellement expert en programmes d'études dans une grande entreprise de technologie éducative, me dit qu'on ne peut pas compter uniquement sur un seul support d'apprentissage. Au lieu de cela, me dit-il, vous devez combiner différentes méthodes pour obtenir un bénéfice maximal, allant de l'effet sentimental à la rétention de la mémoire.

Gemini créant un aperçu audio.
Nadeem Sarwar / Tendances numériques

Une recherche publiée dans la revue Computers & Education a également souligné comment les étudiants considéraient que les fichiers audio constituaient un matériel d'apprentissage et de révision supérieur. La flexibilité et la polyvalence sensorielle ont joué un rôle majeur dans leur préférence pour les podcasts par rapport aux autres médias.

"Une véritable compréhension et une rétention à long terme se produisent lorsque l'écoute est associée à des visuels, des discussions ou des activités pratiques", ajoute Naseem. Mes propres expériences avec les aperçus audio de Gemini font écho à ses conseils. J'ai un souvenir plus fort des connaissances que j'ai absorbées via les podcasts audio par rapport à la lecture du même matériel .

Vous voyez, ces podcasts audio ne sont pas une simple conversion texte-audio. Au lieu de cela, ils décomposent un mur de texte autrement ennuyeux en une conversation à deux dont vous êtes essentiellement le seul public. C'est une aubaine pour tout matériel textuel qui n'éveille pas instantanément votre curiosité et ne vous pousse pas à une lecture instantanée.

Lors de mon expérience la plus récente, le podcast audio de Gemini m'a aidé à comprendre l'importance d'un article traitant d'un « cadre d'apprentissage neuronal interprétable basé sur des fonctions d'objectif locales de la théorie de l'information ». En termes plus simples, la recherche a porté sur la façon dont les cellules nerveuses s’organisent.

Vous comprenez ce que j’essaie de faire valoir ici, n’est-ce pas ?

La commodité avant tout

Gemini AI crée un podcast audio à partir d'un document de recherche.
Nadeem Sarwar / Tendances numériques

La commodité joue un rôle important lorsqu’il s’agit d’absorber des informations. Il en va de même pour l’enthousiasme et l’enthousiasme suscités par l’ensemble du processus. Selon un article publié dans la revue Computers in Human Behaviour , les podcasts « améliorent la commodité, la flexibilité et l’accessibilité à l’information et aux connaissances ». Il ne m’a pas fallu longtemps pour m’en rendre compte.

Vivre dans la capitale nationale, passer entre 2 et 3 heures coincé dans les embouteillages ou dans les transports en commun est pour moi une réalité quotidienne. Mais plus que l’inconfort de tout cela, c’est le temps perdu qui fait le plus mal. Le matériel d’apprentissage audio offre le moyen le plus pratique d’utiliser ce temps de manière productive.

Avec Gemini, vous bénéficiez d’un autre avantage crucial. Vous n'êtes pas obligé de compter sur la disponibilité audio d'un certain livre, article de presse ou matériel académique. Vous pouvez simplement télécharger le matériel à votre disposition et Gemini le transformera en une conversation de type podcast.

Il existe de nombreuses recherches multidisciplinaires qui soutiennent les avantages d’une approche d’apprentissage basée sur l’audio. Et il ne s’agit pas uniquement d’écouter, mais plutôt de décomposer les choses et de les présenter d’une manière plus accessible.

"Quelques personnes ont dit… qu'elles aiment le fait que nous leur donnions des choses qu'elles ne lisent pas dans le journal. Elles aiment le fait… que nous essayons de nous présenter d'une manière différente", indique un article de recherche citant un rédacteur en chef. L'article, gracieuseté de l'Université de Syracuse, a été publié en 2006, au tout début de la tendance des podcasts.

Génération d'un podcast de présentation audio dans Gemini.
Nadeem Sarwar / Tendances numériques

Depuis 2025, les podcasts sont devenus un véritable phénomène de consommation d’informations, du matériel pédagogique au divertissement. Selon le Pew Research Center , près de la moitié des Américains ont interagi avec les podcasts. Plus de la moitié du public interrogé a écouté des podcasts pour apprendre, se divertir ou avoir du matériel audio tout en faisant autre chose.

Près d'un tiers souhaitait entendre l'opinion des autres, et un autre segment tout aussi important a été branché afin de pouvoir garder un œil sur l'actualité et l'actualité. Mes fiançailles ne s’éloignaient pas trop du modèle susmentionné. Pour les reportages journalistiques de longue durée ou les travaux d’enquête, j’ai souvent trouvé leur version podcast plus agréable.

Plus efficace aussi

Il est intéressant de noter que les podcasts semblent également entraîner des changements pratiques. Environ les deux tiers des auditeurs ont lu un livre ou un film après avoir entendu un podcast, plus de la moitié de l'auditoire a commencé à suivre une personne sur les réseaux sociaux et un tiers d'entre eux ont modifié leur mode de vie, comme faire de l'exercice ou modifier leur régime alimentaire.

Une recherche publiée dans le Journal of Social Media Marketing a mis en évidence des concepts tels que la substitution des médias et la similarité fonctionnelle dans le contexte de l'écoute des médias et de la volonté du public. L’idée générale est que les utilisateurs évaluent le support et choisissent celui qui leur convient le plus.

"En ce qui concerne le caractère unique du contenu des podcasts, l'influence sur la volonté d'écoute et la substitution des médias est positive, ce qui suggère que des contenus uniques, de haute qualité et une grande diversité donnent envie aux gens d'écouter des podcasts", indique le journal. Je peux personnellement attester de cette découverte également.

Au cours des derniers jours, j’ai « podcasté » de nombreux articles de recherche traitant de l’impact de la consommation de fibres, de viande et d’aliments emballés sur les habitudes de sommeil, la santé cognitive et la santé intestinale. Comparé au ton ouvertement technique des articles scientifiques, le fait que deux animateurs décomposent les résultats avec un ton « sentimental » et « persuasif » a eu un effet visiblement plus profond sur moi.

Considérez-le comme un apprentissage des étiquettes sociales ou des sensibilités culturelles dans un livre. Et des années plus tard, les voir en action de vos propres yeux. Ou pensez à apprendre une langue étrangère à partir d’un livre, tout seul, et à la différence que cela fait lorsque vous l’apprenez auprès d’une personne qui met toutes ces connaissances dans vos oreilles.

Cette dernière approche donne de meilleurs résultats. Et cela est principalement dû au fait que l’effet combiné de l’engagement multisensoriel accélère le processus d’apprentissage, ou le rend simplement plus efficace. Les aperçus audio de Gemini ont créé un effet similaire et m'ont beaucoup aidé.

Quelques accrocs

Aussi productifs que cela puisse paraître, les aperçus audio de Gemini ne le sont pas. Ils peuvent drainer la véritable essence d’une histoire écrite avec goût dans ses efforts de « podcasti-fication », ou passer à côté de quelques petits détails. Il existe également quelques bizarreries fonctionnelles. La longueur de l’aperçu audio, qui correspond directement à la profondeur du matériel source, peut être assez aléatoire.

Réponse fournie par Gemini Deep Research.
Le type de travail de recherche que vous pouvez transformer en podcasts. Nadeem Sarwar / Tendances numériques

Par exemple, lorsque je lui ai fourni un livre de 260 pages sur le thème de la conjugaison et de la morphologie des verbes en langue persane, l'aperçu audio généré par Gemini durait un peu plus de sept minutes. Qualitativement, il couvrait les parties les plus cruciales, mais passait à côté des détails les plus fins.

Dans un autre cas, j'ai transformé un document Deep Research de quatre pages en podcast audio. La durée de celui-ci était d'environ 13 minutes. Malheureusement, la puce de tâches automatique de Gemini ne vous permet pas d'ajuster la longueur ou la profondeur de la conversation de l'aperçu audio.

Si vous utilisez Google NotebookLM, où la fonction de présentation audio est apparue pour la première fois, vous pouvez rédiger une invite qui peut dicter la profondeur de la conversation podcast. J'ai généré un podcast audio avec un runtime 59 sur NotebookLM il y a quelques semaines.

Les Gémeaux ne vous laisseront pas faire ça. Pas encore.

Première étape du traitement par Gemini d'un PDF dans l'application Files by Google.
Reconnaissance automatique des documents par Gemini dans l'application Fichiers. Nadeem Sarwar / Tendances numériques

Ensuite, il y a la barrière de la langue, car Google est actuellement en train de peaufiner l’ensemble du pipeline au-delà de l’anglais. Un autre problème était la prononciation anglicisée. Par exemple, l’animateur du podcast AI a mal prononcé le monde persan « Raf-thin » par « Raaf-tin ».

Pour une oreille non avertie qui n’est pas familière avec les nuances bilingues de la traduction anglais-persan, ni avec la manière dont les accents modifient la perception auditive des mots dans une langue différente, les animateurs de podcasts IA pourraient très bien déverser un charabia total.

La somme totale de mes expériences est que les aperçus Gemini Audio ne sont pas une révolution. Ils offrent simplement un support différent et plus captivant pour interagir avec le contenu. Cela ne fonctionne pas tout le temps, mais cela élimine certainement l'ennui de lire des pages de texte qui autrement vous endormiraient.