Après avoir utilisé l’artefact TikTok, j’ai immédiatement désinstallé PS

20 août 2022 Hibou Gourou

Les images deviennent du texte, ce qui n'est plus un problème aujourd'hui. Diverses fonctions OCR vous permettent d'extraire plus facilement du texte à partir d'images, et ce n'est pas un gros problème pour l'IA d'interpréter une image.

Mais dessiner une image est encore difficile pour l'IA d'aujourd'hui. Reconnaître des images et extraire des informations, c'est traiter des informations pour l'IA. Mais il y a une couche supplémentaire dans le dessin, non seulement pour traiter les informations, mais aussi pour terminer la création. La première est une question à choix multiples, tandis que la seconde est une composition propositionnelle.

Juste après avoir bien répondu aux questions à choix multiples, la prochaine étape consiste à répondre aux questions subjectives du jeu libre. Mais personne ne pensait que le premier à répondre à cette question sur sa propre application était TikTok.

Utilisez TikTok pour générer Facebook, Jack Ma

Comparé à des géants tels que Google et OpenAI, qui ont beaucoup investi dans l'industrie de l'IA et sont immergés dans l'industrie de l'IA depuis longtemps, TikTok n'est peut-être qu'un "étudiant transféré". Mais pourquoi n'est-il pas surprenant que l'étudiant transféré ait contourné le géant et posé le problème en premier ? Bien que les étudiants transférés aient également fait preuve d'ingéniosité, au moins ils sont toujours très impressionnants.

La fonction de conversion de texte en image créée par TikTok s'appelle "AI Greenscreen", qui remplace l'arrière-plan blanc monotone d'origine, et l'IA génère l'arrière-plan de la vidéo pour vous. Les arrière-plans de ces vidéos peuvent ne pas répondre aux besoins des créateurs, mais après tout, il s'agit d'un fond d'écran vert unique personnalisé pour vous. Si vous avez de la chance, il peut être plus adapté au thème du contenu vidéo.

▲ Cliquez sur l'effet spécial pour profiter de cette fonction lors de l'envoi d'une vidéo. L'image provient de Silicon Stars

Nous avons fait quelques tests avec cette nouvelle fonctionnalité pour voir à quoi ressemble l'image dessinée par TikTok. Parmi les mots du test aléatoire, certaines peintures étaient déroutantes, tandis que d'autres ont été jugées "très bonnes pour dépeindre l'étrangeté".

Le plus apprécié est le tableau présenté en entrant "Facebook". Vous pouvez vaguement reconnaître l'icône bleue de Facebook. L'œil unique et une oreille sur l'image créent un sentiment d'horreur unique. Combiné avec les dernières nouvelles de Facebook, je dois dire que cette peinture capture très bien le sentiment du mot Facebook.

Il y a aussi des mots tels que pomme et Chine qui sont représentés avec précision dans l'image. Le premier peut facilement voir qu'il s'agit d'une pomme, et le second peut également voir des bâtiments de style chinois, et en même temps, il évite également le drapeau national et d'autres motifs sensibles dans le domaine de l'entrepreneuriat. C'est juste qu'il est difficile de présenter une image d'Apple, même les mots-clés Apple + Apple CEO Cook présentent des modèles liés aux pommes et aux plats.

Cependant, il y en a aussi beaucoup sans rapport, par exemple, nous avons essayé Alibaba, Tencent et ByteDance, et on ne peut pas dire que ceux générés n'ont rien à voir avec ces marques. Mais en tout cas, il est difficile de se reconnaître d'un coup d'œil, un peu abstrait.

Il existe également de nombreuses images intéressantes dessinées en entrant les noms des personnages. Le nom du célèbre blogueur artisanal étranger Li Ziqi est une agréable peinture de paysage ; la peinture du célèbre ancien entraîneur de la Premier League Arsène Wenger est également reconnaissable d'un coup d'œil, ce qui appartient au style de re-déconstruction des photos classiques ; le style de Jack Ma est aussi un peu bizarre, et les yeux qui sont compatibles avec Facebook ont l'impression de lorgner.

Quant à Musk, nous avons généré quatre images avec TikTok et aucune d'entre elles n'était reconnaissable.

Bien sûr, en plus du succès des mots de caractère et des images abstraites, il y a aussi Switch et Guangzhou qui sont considérés comme s'exprimant juste et peuvent rappeler.

Une peinture Zelda-esque avec des personnages qui font reconnaître aux fans "cela pourrait être Mario". De même, les bâtiments emblématiques de Guangzhou et leurs couleurs brillantes peuvent être facilement identifiés.

Le temps de génération de chaque image d'arrière-plan est inférieur à 5 secondes. Si le thème est similaire, alors ces images conviennent très bien à l'image d'arrière-plan de la vidéo. Le temps de génération est court et tout le monde peut l'utiliser, c'est l'avantage de TikTok, ainsi l'apparition d'un tel produit texte-image sur une application aux centaines de millions d'activités quotidiennes peut être considérée comme un événement marquant.

C'est juste que TikTok prend toujours des raccourcis.

À l'heure actuelle, presque toutes les images produites appartiennent au style de la peinture, et beaucoup appartiennent même à l'abstractionnisme et à l'impressionnisme.Par rapport à la génération d'images réalistes, cette difficulté est beaucoup plus faible. Après tout, même si vous ne vous ressemblez pas, vous pouvez compter sur votre cerveau pour compenser. L'IA qui comprend les mots que vous saisissez est le même problème que vous rencontrez lorsque vous allez dans un musée d'art pour voir une exposition d'art – si la similitude ne suffit pas, alors comprenez et réconciliez.

C'est aussi une méthode économique : la difficulté est moindre, la puissance de calcul nécessaire est également moindre et le coût est moindre.

▲ Même les images avec un peu de texte sanglant ne feront pas trop peur

Text-to-image, même Google n'a pas de produit généré en temps réel

Du point de vue de l'effet, l'effet de rendu d'écran vert AI de TikTok ne peut pas être noté très haut. Mais en tant que technologie à seuil élevé, elle peut être considérée comme une amélioration si elle peut être utilisée par des utilisateurs sans aucun seuil en quelques secondes.

Bien que limitées par le fait que les images générées ne sont pas assez "quotidiennes" et pas assez réalistes pour susciter des inquiétudes concernant l'abus de technologie et la fraude à l'image, des images réalistes peuvent en fait être réalisées, mais elles ne sont pas encore disponibles pour tout le monde comme les écrans verts AI. C'est ça.

Google a également publié un outil Imagen AI qui peut transformer une simple phrase en une image réelle, aussi réelle qu'une séance photo. Mais malheureusement, même Google, qui a beaucoup investi dans l'IA, n'a pas été en mesure de fabriquer des produits générés à la volée. En d'autres termes, l'option de demander à une IA de vous dessiner une image n'est pas encore disponible dans Imagen AI.

▲ Imagen AI peut cliquer sur différentes options pour créer différentes images

À l'heure actuelle, il n'y a que quelques options prédéfinies sur le site officiel. Même si vous cliquez sur chacune d'elles, il n'y a que des dizaines de combinaisons, mais il existe des styles réalistes et des styles de peinture à l'huile parmi lesquels choisir. Les lecteurs intéressés peuvent toujours aller jouer un peu par eux-mêmes.

Google est le type qui est célèbre et attire l'attention pour chaque mouvement. Et le laboratoire de recherche sur l'intelligence artificielle OpenAI s'appuie sur les travaux, et ils ont lancé le générateur de texte en image d'intelligence artificielle le plus original et le plus populaire Dall-E.

▲ Dall-E

Dall-E peut rééditer de manière réaliste des images existantes à partir d'un contenu textuel, il peut ajouter et supprimer des éléments pour vous, en tenant compte du rendu des ombres, des reflets et des textures – la technologie PS peut vous tuer. Il est très simple d'analyser et d'imiter les peintures existantes et de les remplacer.Le style d'inspiration vient de l'œuvre originale, c'est-à-dire que le protagoniste est changé.

En tant que projet de recherche, Dall-E est toujours en version bêta fermée, et un "nombre limité d'utilisateurs de confiance" sur la liste ont publié photo après photo sur les réseaux sociaux. Chaque utilisateur qui participe au test peut obtenir 50 points gratuits initialement, puis 15 points par mois après cela, 1 point peut générer 4 images avec un contenu textuel, et peut également choisir trois styles de peinture.

À l'heure actuelle, Dall-E dispose encore de très peu de méthodes de monétisation pour les utilisateurs internes de la version bêta. Si vous souhaitez faire l'expérience du service après l'épuisement des 15 points par mois, vous pouvez acheter 115 points pour 15 $. La bonne nouvelle est que les images résultantes peuvent également être commercialisées, et une fois que vous les avez créées via Dall-E, vous pouvez les utiliser pour tout, des illustrations, des couvertures, des conceptions de t-shirts, etc.

▲ L'utilisateur peut ajouter des éléments à la position définie, et les éléments ajoutés à la photo seront également automatiquement complétés en termes d'ombres, etc.

La réalisatrice vidéo Karen X. Cheng a déclaré à Bloomberg :

J'ai expérimenté la génération d'images pendant des heures et je me suis perdu… j'ai plus l'impression de travailler avec une personne vivante et respirante qu'avec un outil comme Photoshop.

Bien sûr, Dall-E n'est pas parfait à l'heure actuelle. Il lui est encore un peu difficile de créer un visage humain complètement réaliste. Cela nécessite des connaissances médicales professionnelles pour pouvoir présenter avec précision les os humains. Ce n'est pas très bon. Le chercheur Aditya Ramesh a déclaré que DALL-E ne sait que lire du texte, puis générer des images, il essaie donc en fait de créer un contenu visuellement similaire.

▲Des images fantastiques générées par Dall-E

Cette technologie est bien sûr très prometteuse, vous pouvez imaginer qu'elle abaisse le seuil pour que les créateurs de contenu trouvent des images, et vous pouvez imaginer que les portraitistes peuvent améliorer leur efficacité avec son aide. Mais tout comme l'émergence de chaque technologie peut être abusée, la technologie de l'IA pour aider le texte à générer des images présente également un tel risque – les scénarios d'application négatifs qui sont apparus sur Deepfake seront répétés un par un.

Heureusement, cette fois, le fournisseur de technologie s'était déjà préparé à l'avance et a voulu mettre l'IA en cage.

L'imagerie abstraite de TikTok est elle-même une couche de protection car elle n'est pas réaliste. De plus, même si vous entrez du contenu suggestif (violence, nudité) dans TikTok, les peintures présentées ne sont toujours pas comme prévu, et le style abstrait n'est pas clair et évite le coût énorme de la révision.

▲ Restrictions sur le site officiel de Dall-E

Dall-E limite également la génération par l'IA de contenu violent, adulte et haineux, minimisant l'exposition de Dall-E à de tels concepts dans l'algorithme. Dans le même temps, la plate-forme dispose également d'une technologie de pointe pour empêcher l'utilisation de vrais visages humains pour générer des images (les célébrités sont soulagées), et des systèmes de surveillance automatisés et humains empêchent également l'abus de Dall-E.

C'est juste que l'émergence de toutes les nouvelles technologies ne peut pas seulement regarder le mauvais côté, et les perspectives de haute efficacité qu'elle apporte valent la peine d'être envisagées. Au moins, Ai Faner attend avec impatience la fin de l'article qui sera poussé un jour : « La carte du titre de l'article est générée par Dall-E ».

Long Sizhen

Pas trop intéressant, pas trop optimiste.

boîte aux lettres 4

#Bienvenue pour prêter attention au compte WeChat officiel d'Aifaner : Aifaner (WeChat : ifanr), un contenu plus excitant vous sera apporté dès que possible.

Love Faner | Lien d'origine · Voir les commentaires · Sina Weibo