Je peux faire avancer les choses avec juste ma bouche. Ces 7 outils d’IA sont devenus des outils de productivité indissociables pour moi | L’IA est utile.


La voix est un médium qui est « du miel pour une personne et de l'arsenic pour une autre ». Les amis qui ont été bombardés de messages vocaux de 60 secondes sur WeChat savent mieux que quiconque à quoi cela ressemble.

Vous avez dit que la sortie vocale est rapide, mais je pense que cela semble gênant. Vous pensez que la voix est plus émotionnelle, je pense que le texte est plus clair. Les positions sont opposées et les attitudes envers la prononciation sont également différentes.

Heureusement, l’IA, qui a déjà remodelé de nombreux produits, a enfin laissé sa marque sur les outils vocaux. Cela peut vous faire penser que la voix n’est pas si ennuyeuse.

APPSO a sélectionné plusieurs outils de synthèse vocale et partagé des expériences d'utilisation spécifiques basées sur 4 scénarios différents. Il n'y a pas de recommandation pure, et il y a des erreurs et des erreurs dans le processus.

En plus de traiter la voix des autres, nous pouvons également utiliser ces outils pour enregistrer des idées, améliorer l'efficacité et même ouvrir la porte à un nouveau monde dans des scénarios auparavant inattendus.

Si vous pensez qu’il existe des produits utiles, partagez-les dans la zone de commentaires !

Des pièces inspirantes pour capturer votre imagination

——Shuannian Shell, notes vocales

Bien que recevoir de la parole rende les gens irritables, produire de la parole est plus rapide que taper. En d’autres termes, la voix est un moyen moins chronophage de capturer des pensées éphémères.

Mais il y a ici un problème : les informations enregistrées dans la voix sont grossières, peu intuitives et peu pratiques à récupérer. Après avoir fini de parler, nous devons encore les trier.

L'application "Shing Nian Shell" (actuellement disponible uniquement en version iOS) prend en compte les points douloureux qui existent depuis longtemps.

▲ Spécialement conçu, l'écran d'ouverture rend hommage au Faucon Millenium dans "Star Wars"

Vous n'avez pas à vous soucier des pauses, des expressions familières ou de la confusion logique, exprimez simplement ce que vous pensez directement. L'IA peut organiser automatiquement le contenu pour vous et ajouter des balises pour une gestion et une recherche faciles.

Après avoir généré du texte, vous pouvez également utiliser des mots d'invite prédéfinis pour réécrire le contenu dans différents styles tels que des tâches à faire et la rédaction de Xiaohongshu en un seul clic, ou discuter avec l'IA pour améliorer vos idées.

J'ai dicté la routine de travail quotidienne du rédacteur en chef et lui ai demandé de l'organiser en tâches à faire. Lorsque je parlais, je parlais de tout ce qui me venait à l'esprit, mais l'IA peut l'organiser en fonction du calendrier.

Lorsque j'ai publié des critiques de romans et de films de manière plus informelle et que j'ai comparé les enregistrements, j'ai découvert que l'IA m'a aidé à omettre certaines particules modales telles que « ah » et « euh », et que le « alors » dénué de sens sera également utilisé. L'élimination signifie qu'après qu'un mauvais mot soit répété, la version correcte sera conservée.

Une fois que l'IA a terminé le travail de nettoyage, nous pouvons à nouveau discuter avec elle. Après avoir lu ceci, je pense qu'il est préférable de communiquer avec une IA qui connaît un peu tout.

Cependant, il peut y avoir des erreurs dans la rédaction par l'IA, qui peuvent être réorganisées par l'IA ou affinées manuellement après avoir cliqué sur la page.

Les fonctions de base n'ont pas été ignorées. Shannian Shell conserve les enregistrements et le texte en même temps, et peut exporter les enregistrements, ce qui nous permet de corriger plus facilement les erreurs.

Il est quelque peu regrettable que les « points » de l'expérience utilisateur gratuite soient limités et que l'enregistrement ne puisse excéder 1 minute. Il faut payer (19 yuans par mois, 149 yuans par an, 198 yuans à vie) pour continuer à utiliser le. Fonction AI sans limiter la durée d'enregistrement.

Voicenotes, une application de notes vocales étrangère, a un positionnement et des fonctions similaires à ceux de Shannian Beike : conservation des enregistrements, ajout de balises, correction manuelle des erreurs de transcription, style de réécriture de l'IA et communication d'idées avec l'IA, mais la conception de l'interface est plus minimaliste.

▲Le "Musée exclusif des éléphants de l'homme riche" est en fait "Madame Tussauds"

Les notes vocales sont disponibles en Chine. La langue de l'application est l'anglais. Elle prend en charge le changement de notre langue de saisie et de translittération en chinois simplifié dans les paramètres.

De même, Voicenotes nécessite un abonnement (68 yuans par mois ou 328 yuans à vie) pour réaliser des enregistrements de plus d'1 minute et utiliser de meilleurs grands modèles comme GPT-4o et Claude Opus.

Un secrétaire à vie qui donne des instructions en une phrase

——Miley

En plus du brainstorming et des questions de travail, il existe également des scénarios plus quotidiens, plus légers et d'une seule phrase dans nos vies. En ce moment, vous pouvez essayer Miley AI, une mémoire personnelle axée sur l'IA « enregistrement + intelligence », actuellement uniquement disponible. sur iOS.

Il est très approprié pour noter ce que vous avez mangé, combien vous avez dépensé, toute inspiration soudaine ou ce que vous devez faire ensuite pour garder la journée du PNJ humain en ordre lorsque la saisie au clavier n'est pas pratique.

La chose la plus intéressante est que Miley peut analyser intelligemment différents types de sujets en fonction du contenu que vous saisissez.

Lorsque vous mentionnez des choses heureuses, l’IA peut reconnaître vos émotions et les marquer avec les expressions correspondantes. Dites-moi combien vous avez dépensé pour le déjeuner et l'IA le suivra pour vous. Si vous avez peur de manquer l’heure de commander des plats à emporter, l’IA peut définir une bannière de rappel.

Même si vous souhaitez définir un petit objectif d'exercice quotidien, vous pouvez autoriser les données de santé Apple à surveiller si cet objectif est effectué chaque jour. Par exemple, si vous dites à l'IA de faire 2 000 pas chaque jour et de faire 17 800 pas en ville le week-end, cet élément peut être vérifié.

Juste en discutant avec désinvolture, nous avons un grand livre, un enregistrement sportif, des rappels…

C'est l'avantage de l'IA. Il ne faut pas autant de temps qu'avant pour trier un contenu fragmenté. Même les gens paresseux comme moi qui n'aiment pas faire de plans sont prêts à essayer. Un mini journal est formé et les réalisations se feront dans le cœur.

Cependant, pour les utilisateurs gratuits, le quota de reconnaissance vocale et d'analyse d'agents est limité, en particulier l'analyse d'agents, qui est facile à atteindre le sommet, à l'heure actuelle, le « pouvoir monétaire » est requis, soit 28 yuans par mois ou 188 yuans par mois. année pour l'abonnement.

▲Le mot « réunion de sélection de sujet », l'IA identifie si c'est faux ou juste

Ce qui affecte encore plus l'expérience utilisateur, c'est que la précision de la reconnaissance vocale n'est pas suffisamment élevée. Même si elle prend en charge les modifications, cela affectera l'intention initiale de notre utilisation : l'IA devrait éviter les ennuis, pas les rendre gênants.

Des outils créatifs qui changent les habitudes de production

——Note de Mo Wen

Lorsqu'il s'agit de création, nous avons cette scène en tête : assis devant l'ordinateur, tapant sur le clavier, et nos yeux sont presque rivés sur l'écran…

Une voix plus décontractée et plus réaliste peut-elle être utilisée dans des créations plus longues ? Si vous voulez savoir si vous pouvez parler de manière cohérente, Mo Wen Notes est un bon point de départ.

Mowen Notes est une applet WeChat. Sa fonction vocale AI prend en charge l'enregistrement jusqu'à 10 minutes par note. Elle est actuellement gratuite.

▲ Appuyez et maintenez le signe "+" en bas pour appeler la fonction vocale

L'une des conceptions est très intéressante. Mowen Notes prend en charge la sortie en temps réel. Vous pouvez voir le texte transcrit tout en parlant, au lieu de voir uniquement la durée d'enregistrement.

Mais cette fonction peut aussi être un élément d'interférence qui perturbe notre sortie. Même si elle se corrige constamment, la précision du texte transcrit doit être améliorée.

Une fois la sortie terminée, appuyez sur le bouton d'arrêt et l'IA peaufinera le texte, notamment en le segmentant, en corrigeant les fautes de frappe, en supprimant les mots répétés à cause d'absurdités, etc. Cependant, l'IA ne peut pas corriger toutes les erreurs et nous pouvons également le modifier. manuellement plus tard.

Enfin, nous avons compilé une note qui conserve la voix, qui ne peut être visible que par nous-mêmes ou publiquement.

Mowen Notes se positionne comme un « outil de création ». Lorsque vous ouvrez le mini programme, la première chose qui apparaît est son slogan : L'enregistrement est la création.

Normalement, je ne ressens rien de mal lorsque je regarde un écran d'ordinateur, mais parler avec un téléphone portable pendant 10 minutes reste un défi. Non seulement j'ai la bouche sèche, mais je me sens aussi impuissant après une longue recherche. n'ayant rien à dire.

Les petits programmes offrant une expérience légère peuvent réellement faire de la réflexion une habitude.

Assistant d'efficacité pour le traitement vocal lourd

——Feishu Miaoji, écoute iFlytek, écoute Tongyi et illumination

La plupart des scénarios vocaux ci-dessus ne sont pas obligatoires et peuvent être expérimentés de manière ludique.

Lorsque j'ai besoin d'utiliser la voix au travail, Feishu Miaoji est mon premier choix. Si rien d'autre, habituez-vous, "Équipes avancées, utilisez d'abord Feishu", le compte d'entreprise est vraiment bon.

Pendant des dizaines de minutes, voire des heures de conférences de presse et d'interviews hors ligne, je sortais mon téléphone portable et utilisais "Feishu Miaoji" dans l'application Feishu pour enregistrer l'audio, puis je traitais l'audio sur la page Web de Feishu et l'exportais avec des horodatages. . documents écrits.

De cette façon, s'il y a un problème avec l'enregistrement du texte, vous pouvez localiser avec précision la position correspondante de l'audio et la corriger pendant l'écoute.

Feishu Miaoji prend également en charge le téléchargement de fichiers audio et vidéo locaux. Si la connexion Internet n'est pas bonne, vous pouvez utiliser l'outil d'enregistrement fourni avec votre téléphone mobile pour enregistrer, puis laisser Feishu Miaoji le traiter. Plus les besoins fondamentaux sont résolus, plus l’expérience utilisateur sera fluide.

Avant Feishu, j'utilisais souvent iFlytek. Feishu possède également des fonctions telles que l'importation d'audio, la distinction des haut-parleurs, la lecture à double vitesse et la recherche de mots-clés.

Cependant, bien que l'enregistrement d'iFlytek soit gratuit, le service de base est payant : pour convertir l'audio en texte et l'exporter, vous devez acheter un forfait de transcription d'enregistrement (abonnement mensuel continu de 18 yuans) ou profiter d'un forfait (abonnement mensuel continu de 79 yuans).

iFlytek propose désormais des bonus d'IA et prend en charge les aperçus de chapitres et les questions. J'ai demandé au chatbot « Xiao Di » de résumer l'interview de 40 minutes sur la « méditation ». Les points clés étaient assez organisés, ce qui a été quelque peu utile pour rédiger des articles. Mais la fonction AI n'est pas gratuite et est incluse dans le package de transcription d'enregistrement et le package Enjoy.

Si Feishu Miaoji est utilisé hors ligne et basé sur des téléphones mobiles, alors Tongyi Tingwu complète le scénario en ligne.

Tongyi Tingwu dispose d'une page Web, d'un plug-in de navigateur et d'une applet WeChat, et est plus "prêt à l'emploi". Vous pouvez automatiquement recevoir 10 heures de transcription chaque jour lorsque vous vous connectez, ce qui équivaut fondamentalement à une utilisation gratuite. .

Tongyi Listening prend également en charge la conversion de l'audio et de la vidéo locaux en texte, ce qui permet de distinguer les locuteurs et de fournir des traductions, mais ce que j'utilise davantage, c'est la fonction parole-texte en temps réel.

Sur la page Web, partagez l'onglet avec Tongyi Tingwu. Lorsque nous organisons des réunions, regardons des vidéos et suivons des conférences de presse, nous disposerons d'un outil capable d'enregistrer et de fournir des sous-titres en temps réel.

Si des langues étrangères sont impliquées, Tongyi Listening prend également en charge les sous-titres bilingues en temps réel. Sélectionnez d'abord la langue audio et vidéo, puis sélectionnez la langue de traduction, puis activez l'enregistrement en temps réel.

▲ Le haut est la compréhension orale Tongyi, le bas est la traduction bilingue basée sur les sous-titres CC

Cependant, la vitesse de traduction de Tongyi Listening est retardée et les résultats de la traduction changeront également en fonction des modifications apportées au texte original. C'est normal, les phrases en anglais sont plus longues et ont de nombreux attribut. Vous ne pouvez connaître le sens qu'après avoir terminé une phrase. Même s’il y a des sous-titres, vous êtes parfois toujours confus.

▲ Tongyi Listening ajuste les résultats de la traduction en temps réel

Par conséquent, d'après mon expérience réelle, pour les sous-titres en temps réel, Tongyi Listening fonctionne mieux dans les conférences en chinois que dans les conférences en anglais. Le mandarin légèrement non standard comme Lei Jun est très approprié pour Tongyi Listening.

Après le partage, Tongyi Listening peut fournir le texte original transcrit, résumer intelligemment le contenu et extraire les points clés, ce qui est très approprié pour la rédaction de documents.

iFLYTEK a « Little Truth » et Tongyi Listening a « Little Enlightenment ». Vous pouvez lui poser des questions pertinentes en fonction des enregistrements de texte, cliquer sur l'horodatage dans la réponse et vous pouvez également localiser le contenu original.

Mais le vieux problème de la reconnaissance vocale persiste : prononcer un mauvais nom. Kimi est devenu « km », et la tour secrète est devenue « tour de miel ». A l'utilisateur de la distinguer et de la corriger.

Convertissez la parole en texte, attendez que l'IA recommence

La synthèse vocale est dans une certaine mesure une nécessité.

Nous pouvons l'utiliser pour transcrire des messages de chat, suivre des interviews, des réunions et des conférences de presse, et enregistrer des brainstormings et des fragments de vie.

Essentiellement, ces nouveaux produits de synthèse vocale qui mettent davantage l'accent sur la présence de l'IA se concentrent en réalité sur un traitement de contenu plus intelligent et plus approfondi, notamment la translittération et le polissage du texte, l'organisation du contenu par balises et par types, la recherche et l'expansion du contenu via des conversations. , etc. .

Dans le même temps, il reste encore beaucoup à désirer.

  • La précision de la conversion parole-texte doit encore être améliorée, et la conservation des enregistrements et la prise en charge de l'édition manuelle compensent à peine ce problème.
  • La fonction est créative, mais pas assez parfaite, et devient même une distraction qui gêne l'enregistrement.
  • Le seuil de facturation est très bas. Après un petit nombre d’adoptants précoces, vous devez vous abonner, mais cela ne peut pas être imputé aux développeurs. Tout le monde veut gagner de l’argent par lui-même.

Les développeurs indépendants sont en concurrence sur le marché de la synthèse vocale, mais les perspectives ne sont pas claires.

La Capsule Flash lancée par Smartisan Mobile en 2017 est le « Clair de Lune Blanche » dans le cœur de nombreuses personnes.

Appuyez longuement sur le bouton Accueil ou sur le bouton central de la télécommande du casque pour démarrer la saisie vocale et enregistrer vos pensées éphémères. Le texte et l'enregistrement seront enregistrés et vous pourrez à nouveau modifier le texte.

Les « capsules » enregistrées peuvent être glissées vers des notes, insérées dans la zone de saisie WeChat et transformées en tâches à faire…

De telles fonctions basées sur le système nécessitent moins d'étapes à appeler et à utiliser, et sont plus conformes à notre intuition. Ce n'est qu'en ne compliquant pas les enregistrements que nous pouvons réellement améliorer l'efficacité.

Par conséquent, malgré l’explosion actuelle des produits, les fabricants de systèmes d’exploitation pourraient encore avoir le dernier mot à l’avenir, grâce à des attaques de consolidation au niveau du système et de réduction de dimensionnalité comme Apple Intelligence.

J'ai déjà vu une blague selon laquelle le système d'exploitation dominant en Chine n'est pas iOS ou Android, mais WeChat.

Il y a une part de vérité dans cette affirmation. Un de mes collègues, podcasteur, est habitué à enregistrer des idées en déplacement. Il a essayé de nombreux outils de conversion voix-texte et a finalement opté pour la simplicité. puis je l'ai converti en texte.

Les ingrédients haut de gamme ne nécessitent souvent que les méthodes de cuisson les plus simples. La ruée vers les idées elles-mêmes est la plus précieuse. Parfois, nous n’avons pas besoin de fonctions auxiliaires de l’IA. Nous voulons simplement enregistrer les choses rapidement. Le moyen le plus courant d’atteindre l’objectif ultime en un seul clic est souvent la méthode la plus efficace.

Elle est aussi vive que le gel d’automne et peut conjurer les désastres maléfiques. E-mail professionnel : [email protected]

# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo