L’application d’IA qu’il a créée pour sa fille a remporté l’Apple Design Award. J’ai également découvert ces applications anglaises aux idées originales.
Grâce à l'IA, la barrière de la langue semble avoir été « brisée ». La traduction n'est plus un problème, le peaufinage devient automatique, et imiter, réécrire et copier différents styles est encore plus facile.
Ces commodités ont certes considérablement allégé notre fardeau : nous n'avons plus besoin de mâcher chaque mot et de mémoriser par cœur pendant tant de temps. Mais cela nous oblige à nous remettre en question : après toutes ces économies d'efforts, que reste-t-il entre nous et la langue ?
Apprendre une langue devient-il un « usage instrumental » ? La langue est-elle encore un moyen de percevoir le monde, un moyen de nous raconter et un moyen d'explorer le monde et les choses ?
La réponse ne viendra peut-être pas de sitôt. Mais au moins, nous pouvons d'abord observer de nouveaux outils : dans ce dossier spécial, APPSO s'est entretenu avec les développeurs de Capwords, Read Easy et Para Translation, des outils liés à l'anglais. Ils ont tous prospéré grâce à l'IA : certains ont revisité des scènes de la vie réelle pour trouver des repères mémoriels, d'autres ont apporté des modifications subtiles à l'expérience de lecture, et d'autres encore ont simplement reconstitué le processus de lecture.
Plus important encore, ils pointent tous dans la même direction : après que la difficulté du langage a été réduite par la technologie, ce qui doit réellement être reconstruit, c’est la relation entre nous et le langage lui-même.
Mots clés : Le vocabulaire est la « friction » avec la vie
Qualifier ce produit, qui vient de remporter l'Apple Design Award, d'« outil d'apprentissage de l'anglais » est évidemment trop restrictif. Capwords s'apparente davantage à un appareil axé sur le langage, la mémoire et les scènes de vie : il reconnaît les mots en prenant une photo, et son design en autocollants, associé à un style visuel vivant et léger, incite les utilisateurs à y jeter quelques coups d'œil supplémentaires pour apprendre quelques mots supplémentaires.
Derrière la conception quasi intuitive de Capwords se cache un concept simple mais profond : l'apprentissage des langues doit revenir au quotidien. Cela peut commencer par un simple geste du doigt, une promenade ou une question : « Comment dit-on cela ? »

APPSO : Tout a commencé par un besoin très simple : un enfant a montré quelque chose du doigt et a demandé : « Comment dit-on cela en anglais ? » C'est ce qui a inspiré le projet, n'est-ce pas ?
DTD : Oui, ma fille a environ trois ans, même pas trois ans. Je l'emmène souvent jouer dehors en été. Nous allons dans des parcs ou sur des places devant des immeubles de bureaux. Pendant la pièce, elle me posait des questions, comme « Comment s'appelle cette plante ? » « Comment lis-tu ce panneau routier ? » Je lui expliquais tout en jouant avec elle, et parfois j'utilisais des produits d'identification pour l'aider à vérifier. C'est peut-être parce qu'elle était au stade où sa curiosité était éveillée, et il y avait effectivement beaucoup de scènes de ce genre.
L'un des moments les plus mémorables fut celui où une plante appelée « racine de bourgeon de chien » poussait dans les fissures du carrelage d'un immeuble de bureaux. Elle l'a pointée du doigt et a dit : « Papa, il y a une racine de bourgeon de chien ! » Ces scènes m'ont profondément touché. Ajoutées au fait qu'elle m'avait posé des questions comme « Comment dit-on cela en anglais ? », je me suis dit : cette combinaison « scène + image + information » pourrait l'aider à mieux se souvenir. Je suis également designer, donc je suis plus sensible aux images et aux informations.

▲Photo de : [email protected]
Ainsi, dans nombre de ces interactions avec ma fille, j'ai ressenti que le langage lui-même devait exister dans la vie, et que nous devrions nous interroger sur les méthodes que nous pouvons utiliser pour y remédier. C'est probablement le processus.
APPSO : Saviez-vous à l’époque que des besoins similaires existaient non seulement chez les enfants, mais aussi chez un groupe d’utilisateurs plus large ?
DTD : Non, car je ne suis pas bon en anglais, ni très doué pour mémoriser, ni pour imposer des connaissances. Je n'ai pas suivi de formation en éducation, donc je comprends que l'apprentissage des langues se fait dans la vie. Un environnement, comme voir ou parler de quelque chose lors d'une conversation, un objet ou une image, suscite des souvenirs. Je résume moi-même certains principes : pourquoi une image m'attire, un bâtiment coloré ou un bâtiment emblématique de notre ville ? Ce qui attire mon attention peut être l'association des éléments graphiques dans mon esprit, ce qui est très important. Ceci est peut-être ma synthèse personnelle en tant que designer, et elle n'est peut-être pas totalement scientifique.

▲ Image de : [email protected]
APPSO : La plupart des logiciels de recherche de mots sur le marché sont lourds, mais Capwords simplifie grandement le processus et permet de le compléter en un seul clic. Mais vous êtes-vous déjà inquiété de l'impact sur les résultats d'apprentissage ?
DTD : Pourquoi ne nous parlez-vous pas de ce CLU ?
CLU : En fait, lorsque nous avons lancé ce projet, notre point de départ n’était pas l’apprentissage des langues. Pour revenir à ce que je viens de dire, nous voulions simplement répondre aux questions de ma filleule – c’est la base de tout. Petit à petit, nous réaliserons que les images créeront une sorte de « friction » avec nos vies . Autrement dit, en créant une friction avec des objets du monde réel, nous pouvons renforcer des points de mémoire. Lorsque ces points de mémoire sont combinés à la scène du moment et que de nouveaux mots ou de nouvelles choses pénètrent dans le cerveau, notre mémoire de ces informations sera plus profonde.

Nous observons au quotidien que les gens sont naturellement curieux depuis l'enfance et se souviennent naturellement de toute nouveauté . Par exemple, lorsque nous allons au Japon, même si nous ne parlons pas un mot de japonais, nous disons des mots simples comme « merci » et quelques mots. Ou pour décrire des choses mignonnes, nous utilisons des mots comme « kawaii », car ces choses sont nouvelles pour nous .
C'est pourquoi, dès le début du projet, nous ne l'avons pas présenté comme un simple produit d'apprentissage de l'anglais ou du vocabulaire. Forts de nos observations, des retours des utilisateurs et de notre mise en œuvre concrète, nous cherchons notamment à abaisser le seuil d'apprentissage d'une nouvelle langue afin de susciter l'intérêt des utilisateurs. À mesure que les utilisateurs s'intéressent à une langue, ils trouveront progressivement une méthode d'apprentissage plus systématique.
APPSO : Avez-vous reçu jusqu’à présent des retours d’utilisateurs particulièrement impressionnants ?
@61 : Je peux vous en parler. L'un de mes anciens mentors a une fille qui est à l'école primaire. Pendant la phase de test, je lui ai donné un code d'activation, et il a joué à Capwords avec sa fille sur iPad, scannant tout dans la maison, même le crâne chauve de son père (rires).
Le lendemain, son père est venu me voir et m'a dit que sa fille avait noté tous les mots scannés la veille dans son journal et avait commencé à les réviser toute seule. Les jours suivants, la première chose que sa fille a faite en rentrant de l'école n'a pas été de jouer à Egg Party, mais de regarder autour d'elle avec son iPad pour trouver « ce qu'elle n'avait pas encore scanné ».
DTD : J’ai été très impressionné par les retours de certains utilisateurs. Un utilisateur a déclaré que c’était le produit d’IA le moins proche de l’IA qu’il ait jamais utilisé, et un autre que c’était le produit d’IA le plus chaleureux qu’il ait utilisé cette année . C’est exactement ce que nous souhaitons accomplir.

APPSO : En effet, le modèle est pleinement intégré au processus d’utilisation, et la présence de l’IA est faible. Avez-vous rencontré des difficultés lors du développement ?
CLU : En fait, je pense que l’IA a encore des limites et des conditions, mais son jugement est similaire à celui d’un être humain. Par exemple, nous avons déjà testé qu’une IA reconnaît une tasse de liquide brun comme du café, mais si je prépare cette boisson moi-même, je sais qu’il s’agit en fait d’une tisane, donc le résultat de la reconnaissance est incompatible avec ma cognition.
Mais ce n'est pas un problème avec l'IA ; c'est juste que des erreurs d'identification peuvent survenir. Nous avons donc ajouté un élément d'ajustement lors de la conception, de sorte que si le résultat de la reconnaissance du système ne correspond pas à la cognition, l'utilisateur puisse saisir l'élément correct.
DTD : Concernant la vitesse de reconnaissance, même les grands modèles prennent du temps. L'envoi de l'image et le retour des données prennent environ cinq à six secondes. Lorsque nous avons sorti la première version l'année dernière, nous avons testé et tout semblait fonctionner. Tout le monde l'a trouvé formidable. Ma femme et ma fille en particulier. Mais lorsque je l'ai utilisé moi-même, j'ai quand même trouvé ces six secondes très pénibles.
Nous avons ensuite optimisé certains mots clés, ajusté la taille des images et utilisé divers designs interactifs pour réduire la perception du temps par l'utilisateur, en dissimulant ce temps derrière différentes formes d'interaction. Je pense donc que nous pouvons résoudre certains problèmes que le modèle actuel ne peut résoudre au niveau de l'expérience.
CLU : De plus, lorsqu'un objet est identifié, vous constaterez l'effet d'un autocollant arraché. À l'époque, nous souhaitions créer un effet de décollement d'objets réels à partir d'autocollants. Lors du décollement, le chargement complet est effectué, mais l'utilisateur n'en a pas conscience, ce qui permet une expérience très fluide. 
▲ Image de : [email protected]
Je crois qu'à terme, l'IA sera intégrée ou deviendra une infrastructure. Il n'est pas nécessaire de se concentrer sur des implémentations techniques spécifiques. Les utilisateurs doivent uniquement se concentrer sur les effets de l'IA, et ce résultat doit correspondre à leurs attentes, voire les dépasser.
Lire facilement : Lire ne consiste pas à s'échapper du texte original, mais à se rapprocher du texte original
Traduction et texte original sont comme le jus et la pulpe : le premier fond en bouche, tandis que le second conserve toute sa texture. Il est certes plus facile d'assimiler une information dans sa langue maternelle, mais il y a toujours des moments où l'on souhaite se rapprocher du texte original et ressentir le rythme et la texture de la langue elle-même.
Read Easy propose une « troisième voie » : une combinaison du chinois et de l'anglais. Elle facilite l'extraction d'informations tout en préservant le lien entre le texte original et nous. Vous pouvez changer de langue à tout moment ou ajouter des mots-clés au texte original. Il ne s'agit pas d'une simple traduction, mais d'un pont entre la traduction et le texte original, avec possibilité de revenir en arrière à tout moment.

APPSO : De nombreux outils se disputent désormais la capacité à « traduire plus vite et plus efficacement », mais RE conserve une grande partie de l'anglais. Pourquoi souhaitez-vous conserver l'idée de « conserver le texte original » ?
Zhijie : En raison de ce positionnement différent, notre objectif initial était de créer un produit pour l’apprentissage de l’anglais. Premièrement, nous pensions que les gens étaient plus disposés à payer pour des produits éducatifs, et deuxièmement, l’apprentissage des langues était un domaine majeur pour l’IA, même si nous ne savions pas exactement comment l’exploiter à l’époque. Comme chacun sait, le secteur de l’apprentissage de l’anglais est très concurrentiel, nous avons donc réfléchi à la manière de commencer. Puis, nous avons constaté qu’aucun produit n’était particulièrement performant pour la lecture en anglais. Nous avons donc réfléchi à de nouvelles solutions. Cela a conduit à la conception ultérieure, et nous avons naturellement choisi de conserver le texte original.
Au cours du processus, mon positionnement a légèrement évolué, car je souhaite toujours créer un produit que je puisse utiliser moi-même. Pour l'instant, je me situe plutôt entre « s'informer et apprendre l'anglais ». Je n'ai pas besoin de passer l'examen moi-même, et apprendre l'anglais n'est pas une obligation absolue, mais j'espère quand même pouvoir lire davantage de contenu en anglais. Je pense que la différence entre lire une traduction et lire le texte original est comparable à celle entre regarder une photo et se rendre sur place. Se rendre sur place n'est pas indispensable, mais cela procure une sensation différente.

APPSO : Les mots inconnus sont souvent la cause de blocages lors de la lecture. Lors de la conception de la fonctionnalité « Annotations dans le texte », comment décidez-vous quels mots doivent être marqués et lesquels doivent être ignorés ?
Zhijie : Idéalement, nous pourrions repérer les mots que les utilisateurs pourraient ne pas comprendre en fonction de leur niveau d'anglais, afin d'éviter de les chercher constamment, ce qui entraverait la fluidité de la lecture. Dans d'autres cas, même si les utilisateurs comprennent, le marquage des mots permettra d'évaluer rapidement le contenu général d'une phrase visuellement, par exemple en marquant les noms de personnes et de lieux de différentes couleurs.
Quant à l'implémentation fonctionnelle, elle est actuellement entièrement générée par l'IA ; il est donc difficile de contrôler totalement les mots annotés. Dans une large mesure, l'IA apprend les mots à annoter en fonction des données d'entraînement que je lui fournis.

APPSO : Les parties marquées sont de couleurs différentes, en gras ou non. Ces marquages ne sont pas tous accessibles aux utilisateurs, mais sont générés automatiquement. Quel est le but de cette démarche ?
Zhijie : En fait, dès le début de la conception, je souhaitais permettre aux utilisateurs de personnaliser le style visuel. Pour ce faire, j'ai conçu un langage de balisage similaire à Markdown. Markdown lui-même ne se soucie pas du style visuel. La présentation visuelle est assurée par le logiciel lui-même. Cependant, faute de ressources, la personnalisation du style n'a pas été ajoutée au produit.
Le style visuel par défaut actuel est le fruit de quelques essais. Il n'est pas satisfaisant, mais il permet d'utiliser les couleurs pour distinguer les différents niveaux visuels.
APPSO : La forme des annotations perturbe-t-elle le rythme de lecture ? Comment équilibrer l’expérience de lecture ?
Zhijie : Si l'utilisateur maîtrise très bien l'anglais, les annotations peuvent effectivement gêner la lecture. Tout comme pour le chinois, elles sont superflues. Mais pour les personnes comme moi qui maîtrisent un peu l'anglais mais ont encore des difficultés à lire des langues étrangères, les annotations sont utiles. Les personnes ayant une vision normale peuvent ressentir des vertiges avec des lunettes pour myopes, mais les lunettes peuvent améliorer la vision. 
APPSO : « Mixer chinois et anglais » est un design très audacieux. La première réaction de beaucoup est : « Est-ce encore acceptable ? » – Comment vous est venue cette idée ? Une scène ou une lecture particulière a-t-elle déclenché cette inspiration ?
Zhijie : Lorsque je crée un produit, j'aime énumérer différentes possibilités. C'est une réflexion délibérée. Par exemple, puis-je réécrire la phrase originale en anglais, transformer une phrase complexe en une phrase simple, ajouter des interactions, ou même générer une image ? Mélanger le chinois et l'anglais est une possibilité. Comme c'est simple à développer, je l'ai fait en premier.
APPSO : Quels sont les avantages de cette conception ? Est-elle plus simple ou permet-elle de mieux conserver le niveau sémantique ? Craignez-vous que les gens se fient à leur langue maternelle et soient réticents à comprendre la phrase originale ?
Zhijie : Je pense que l'avantage est que cela permet aux utilisateurs de comprendre rapidement un paragraphe dans leur langue maternelle et d'apprendre un peu d'anglais à partir de mots épars. Dans le cadre de la démarche « obtention d'informations – apprentissage de l'anglais » mentionnée précédemment, la fonction combinant chinois et anglais se rapprochera davantage de l'objectif final d'obtention d'informations.
Ce que l'utilisateur souhaite faire et sa volonté de comprendre la phrase originale ne sont pas déterminés par un produit. L'utilisateur a toujours le droit de choisir. Même si le produit ne propose pas de traduction, il peut utiliser d'autres produits s'il souhaite consulter la traduction. RE permet de faciliter la lecture en anglais pour ceux qui souhaitent lire le texte original. Il serait préférable que davantage de personnes puissent participer, mais sinon, rien ne peut les forcer. Même si une personne souhaite lire le texte original, elle ne souhaite pas le lire systématiquement. Si vous n'avez pas envie de boire un Americano, un latte est également une bonne idée.
APPSO : Comment cela est-il réalisé techniquement ?
Zhijie : Il n’y a aucune difficulté. La mise en œuvre se fait à l’aide d’une série d’instructions : « Vous êtes un expert en langues. Votre tâche consiste à convertir un paragraphe en un texte mixte chinois-anglais, sans modifier le texte original. L’objectif est de permettre aux utilisateurs de comprendre le sens du paragraphe et d’apprendre l’anglais simultanément. Soyez donc attentifs, c’est très important… »

APPSO : « Rendre l’IA plus sérieuse » fera-t-elle vraiment une différence ? (Rires)
Zhijie : Je ne l'ai pas testé rigoureusement, mais l'expérience montre que cela peut améliorer la stabilité. Sans ces astuces, un élément de traitement sur dix pourrait échouer. Avec elles, ce sera mieux. Auparavant, j'écrivais quelque chose pour laisser l'IA faire de son mieux.
Para Traduction : Apparaître juste quand on en a besoin
La traduction instantanée sur appareils mobiles a toujours été un défi : la tâche initiale ne peut être interrompue et, parallèlement, il faut obtenir la traduction la plus précise possible. De nombreux fabricants tentent de résoudre ce problème mondial, et la solution de Para Translation est étonnamment « intelligente ».
Grâce à l'image dans l'image, la traduction s'intègre à l'ensemble du processus de lecture. Une simple fenêtre flottante suffit pour accéder rapidement à la traduction sans quitter la page en cours. Aucune interruption, aucun changement nécessaire : la traduction apparaît toujours « au moment opportun ».

APPSO : Comment vous est venue l'idée de créer un tel outil ? Est-ce lié à vos habitudes ?
Daxin : C’est vrai. Je consulte souvent des réseaux sociaux et des forums étrangers, mais ils sont tous en anglais. À chaque fois, je fais une capture d’écran ou je copie le texte et je le traduis dans un outil de traduction, ce qui est très compliqué.
L'année dernière, un ami a créé un presse-papiers global qui exploite la fonction d'incrustation d'image pour lire le contenu du presse-papiers sans lire le contenu sélectionné par l'utilisateur. Je me suis dit que s'il pouvait lire le contenu du presse-papiers, il devrait également pouvoir afficher le texte qu'il contient. Après avoir étudié la faisabilité, j'ai collaboré avec mon équipe de développement pour créer un outil de traduction pratique. 
APPSO : Quel a été le principal impact du changement initial ? A-t-il affecté la compréhension du contenu ? Quel est le retour des utilisateurs actuels sur ce nouvel outil ?
Daxin : Cela affecte principalement mon expérience de lecture. Pour moi qui privilégie l'efficacité, il est extrêmement pénible de passer d'une page à l'autre à chaque fois. Lire un article prend plus de temps. J'espère pouvoir le terminer dès que je vois un article et passer au suivant.
Après avoir développé cet outil, j'ai constaté que la base d'utilisateurs couvre divers secteurs. Il existe deux groupes spécifiques : les étudiants internationaux et les professionnels du commerce international. Les étudiants internationaux discutent souvent avec leurs collègues, camarades de classe et amis lorsqu'ils sont à l'étranger. Les professionnels du commerce international et les utilisateurs étrangers ont besoin de discuter en ligne, mais ces outils de chat n'offrent généralement pas de fonctions de traduction et ne sont pas payants. Para Translation répond à cette demande, et son prix est relativement abordable.
APPSO : Comment le modèle de base est-il sélectionné ? Quelles sont les différences entre les différents modèles ?
Daxin : DeepSeek est actuellement le principal outil, mais les modèles les plus répandus, tant en Chine qu'à l'étranger, sont également connectés. Après avoir testé de nombreux modèles, le principal avantage de DeepSeek est sa précision supérieure. Son principal inconvénient est sa lenteur. J'ajouterai quelques éléments de ma propre compréhension après la traduction et peaufinerai l'ensemble du paragraphe, mais cela peut aussi être dû à un défaut de débogage.
Doubao est rapide, mais moins précis. Je l'ai testé sur certains forums anglais. Il y a des expressions familières et localisées, et il ne les traduit que littéralement. Même si j'utilise des invites pour ajuster, ce n'est pas idéal. Actuellement, DeepSeek est le principal, mais il permet également la commutation et la sélection manuelles par les utilisateurs.

APPSO : Le concept d'image dans l'image est très intéressant. Comment avez-vous trouvé ce point de départ ?
Daxin : Un de mes amis a développé un produit l’année dernière. Apple lui-même ne permet pas d’ouvrir une fenêtre flottante globale. Nous convertissons le résultat de la traduction en vidéo, l’affichons en incrustation d’image et l’adaptons à la sortie en streaming, ce qui améliore l’expérience globale.
APPSO : C’est un chemin très intelligent.

Daxin : Certains de mes amis technophiles m'ont demandé comment tu avais eu cette idée. En réalité, l'incrustation d'image présente encore de nombreuses limitations fonctionnelles, c'est pourquoi nous avons également procédé à de nombreuses optimisations. Par exemple, lorsque le texte traduit est trop long, vous pouvez le faire défiler en cliquant sur le bouton de lecture, en cliquant sur les boutons Précédent et Suivant pour faire défiler vers le haut ou vers le bas, et enregistrer les résultats de la traduction dans le presse-papiers, ce qui permet aux utilisateurs de réécrire le texte en un seul clic.
Je pense que l'interaction avec Apple est un atout pour tout designer. Mes amis habitués à Apple savent qu'il est possible de faire une recherche en tirant vers le bas sur le bureau. J'ai également intégré cette fonctionnalité à l'application. Il est également possible d'accéder directement à la recherche agrégée en tirant vers le bas sur la page d'accueil. Les utilisateurs seront ainsi plus rapides à démarrer.
Sur les deux pages d'ajout de grands modèles et de configuration de styles, par exemple, lors de la configuration, les utilisateurs doivent renseigner certaines variables dans la zone de saisie. J'ai fait référence aux instructions de raccourci et les ai placées au-dessus de la méthode de saisie, afin que les utilisateurs puissent les ajouter immédiatement en cliquant.

APPSO : Vous avez mentionné précédemment que votre anglais était limité, mais vous avez maintenant développé un outil en anglais. D'après votre expérience personnelle, êtes-vous devenu plus disposé à travailler avec du contenu en anglais grâce au développement de ce produit ?
Daxin : Effectivement, je consulte plus souvent les articles étrangers sur mon téléphone qu'avant. Avant, je lisais principalement sur mon ordinateur et j'avais installé un module de traduction. Cependant, les applications sur mon téléphone sont relativement fermées et je ne peux pas utiliser d'outils de traduction comme sur un ordinateur. Depuis que j'ai développé cet outil, je les ouvre souvent pour vérifier avant d'aller me coucher, ce qui me permet de passer plus de temps à consulter les articles sur mon téléphone.
APPSO : Vous préférez qu'il reste un outil plutôt que d'assumer une fonction d'apprentissage.
Daxin : Oui, c'est un outil efficace. J'espère que les utilisateurs pourront l'ouvrir et l'utiliser rapidement lorsqu'ils ont besoin de traduction. J'espère qu'ils pourront lancer Para sans s'en rendre compte, à tout moment, n'importe où.
#Bienvenue pour suivre le compte public officiel WeChat d'iFanr : iFanr (ID WeChat : ifanr), où du contenu plus passionnant vous sera présenté dès que possible.
