J’ai terminé cet article avec AI, et le rédacteur en chef m’a dit bravo, je ne l’utiliserai pas demain
La plupart des travailleurs littéraires et artistiques, tels que ceux qui écrivent, dessinent et composent, courent un risque accru de chômage – toutes les illustrations de cet article sont créées par AI. Mais le texte est écrit par moi-même, comme un faux remplacement.
Une récente série de belles peintures créées par Dall-E 2 d'Open AI, ainsi que des textes écrits en collaboration avec Microsoft Florence et les modèles GPT-3 d'OpenAI, prouvent que l'IA peut parfois être plus belle que les humains. Il n'est pas exagéré d'appeler cette année la première année de création littéraire et artistique de l'IA. Avec un texte ou une image donnée, l'IA peut produire des œuvres qui dépassent l'imagination, audacieuses, intéressantes et raisonnables. -faire" de l'importance.
▲Carte de conduite spatiale des astronautes de Dall-E 2
Ces avancées sont construites sur un énorme "modèle de pierre angulaire" qui donne des capacités d'IA que ses créateurs n'auraient pas pu prévoir. Les modèles d'intelligence artificielle du passé avaient la "rugosité" d'un atelier manuel. Grâce à des ajustements à long terme, les capacités potentielles du « modèle de pierre angulaire » sont devenues une tendance de développement visible à l'œil nu.
L'intelligence artificielle est sur le point d'entrer dans l'ère de la production industrielle de masse.
Grand modèle, des ouvriers licenciés fabriquent des machines
En mai, la version bêta de l'outil de dessin AI Midjourney est sortie, et même le magazine "The Economist" n'a pas pu s'empêcher de "l'essayer tôt". L'illustration de Midjourney pour le rapport The Economist semble pleine d'inspiration et a un style moderniste fort – n'oubliez pas que l'image est basée sur un concept très abstrait, après tout, le contenu de l'article n'est pas "une femme tenant un chat A" est un récit spécifique.
▲ Illustration par Midjourney pour le rapport The Economist
L'un des développeurs de Midjourney est Somnai, le créateur de Disco Diffusion qui a développé YouTuber Quick-Eyed Sky.Ces applications sont toutes "vous dites que je dessine", ou entrez des mots-clés et générez des images. Disco Diffusion est très populaire, mais comparé à DALL-E et Midjourney, il a un petit "seuil". Il faut ajuster le code et les paramètres soi-même. Les applications les plus populaires sont de type "fou", il suffit d'écrire quelques mots.
▲ Une vidéo réalisée par Somnai avec Disco Diffusion
Jouer "You Say I Draw" est addictif. Musk, Trump, Scarlett Johansson et Marilyn Monroe sur Twitter seront tous "cassés", tous ont des looks "Nightmare Street". Le "Domo Master Painter" lancé le jour de la fête des enfants de la communauté domestique Dimo, quand j'ai délibérément "rendu les choses difficiles", l'image donnée est toujours très intéressante.
▲ J'ai demandé à Domo de tirer une citation de Paul Krugman, prix Nobel d'économie 2008, "Dans une économie de marché, vos dépenses sont mon revenu"
Le bon fonctionnement de la sortie dépend entièrement du modèle d'IA. Construire un modèle d'IA équivaut à une course aux armements de luxe.
Les « modèles de pierre angulaire » actuellement disponibles incluent le GPT-3 d'OpenAI, avec des paramètres proches de 200 milliards et un coût de plus de 10 millions de dollars américains ; Google Switch Transformer, avec des paramètres dépassant le GPT-3 ; Microsoft et Nvidia ont des modèles MT-NLG, avec des paramètres supérieurs à 500 milliards ; le modèle Pangu de Huawei se positionne comme un modèle de pré-formation en langue chinoise, et l'échelle des paramètres atteint également 100 milliards.
Lorsque GPT-3 est «né» pour la première fois en 2020, il a été nommé «Machine de fabrication de travailleurs licenciés». Il a facilement passé le test de base de l'intelligence artificielle – le "test de Turing", et toutes les questions ont été répondues en douceur. Le texte, la traduction, la conception, le calcul et d'autres applications développées sur la base du modèle GPT-3 peuvent remplacer les opérations humaines.
Il y a même une personne qui veut que GPT-3 écrive un petit article sur "L'importance de brosser Twitter". GPT-3 l'a écrit en douceur et naturellement pour lui, et a également utilisé l'opération avancée de l'écrivain "Spring and Autumn Brushwork", qui est l'étrangeté du Yin et du Yang. Il a déclaré que Twitter était "le logiciel social de tout le monde plein d'attaques personnelles".
▲ Obtenez cette image originale de "Déjeuner sur l'herbe" (Monet), Dall-E 2 créera un certain nombre d'images avec des styles similaires et des détails différents en conséquence.
▲ La recréation par IA de "Lunch on the Grass" peut théoriquement avoir des images illimitées
Les avantages du modèle de pierre angulaire sont évidents. Premièrement, les grands paramètres et la grande quantité de données de formation réduiront non seulement le bénéfice marginal, mais amélioreront considérablement les capacités et les percées informatiques de l'IA. La seconde est la méthode d'apprentissage utilisée sur un petit échantillon. L'IA n'a pas besoin d'"apprendre à partir de zéro" encore et encore, mais peut fragmenter et sélectionner les données dont elle a besoin pour s'exécuter automatiquement.
Le modèle de pierre angulaire équivaut à la "technologie universelle". Dans les années 1990, les historiens de l'économie ont identifié les «technologies d'usage général» telles que les machines à vapeur, les presses à imprimer, les moteurs électriques, etc., comme les facteurs clés du développement à long terme de la productivité. La « technologie générale » comprend des caractéristiques telles que l'itération rapide des technologies de base, une large applicabilité dans tous les secteurs et des effets d'entraînement, stimulant ainsi l'innovation continue dans les produits, les services et les modèles commerciaux.
Les modèles phares d'aujourd'hui ont déjà les mêmes caractéristiques.
Réseau de neurones + apprentissage auto-supervisé, compétences incroyables
Aujourd'hui, plus de 80 % de la recherche en IA se concentre sur les modèles fondamentaux. Comme Tesla construit également un modèle de pierre angulaire massif pour la conduite autonome.
Pour comprendre ce que Li Feifei, doyen de l'Institut d'intelligence artificielle de l'Université de Stanford, a appelé "les changements par étapes de l'intelligence artificielle", nous devons savoir en quoi le modèle de base est différent des anciens modèles d'intelligence artificielle.
Tous les modèles d'apprentissage automatique sont aujourd'hui basés sur des « réseaux de neurones » – une programmation qui imite la façon dont les cellules cérébrales interagissent. Leurs paramètres décrivent les poids des connexions entre les neurones virtuels, et le modèle est "formé" pour produire le contenu spécifique souhaité par le développeur, par essais et erreurs sur les poids.
▲La comparaison de netteté de Dall-E et Dall-E 2
Depuis quelques décennies, les réseaux de neurones sont au stade expérimental, et rien n'a été mis en œuvre. Ce n'est qu'à la fin des années 2000 et au début des années 2010 que la puissance de calcul des supercalculateurs a augmenté et qu'Internet a fourni suffisamment de données d'entraînement.Avec la bénédiction du matériel et des données, les réseaux de neurones ont commencé à compléter la traduction de texte, l'interprétation des commandes vocales et la reconnaissance du même image dans différentes images Visage et autres "tâches impossibles" avant.
Surtout dans les années 2010, les machines d'apprentissage automatique et d'exploitation minière utilisaient également des GPU. La caractéristique du GPU est qu'il possède des milliers de processeurs de flux, qui peuvent effectuer un grand nombre d'opérations générales répétées, et il n'est pas cher, ce qui est beaucoup moins cher que de démarrer un supercalculateur une fois.
La percée a eu lieu en 2017. À cette époque, le modèle BERT de Google utilisait une nouvelle architecture, qui ne traitait plus les données de manière "conventionnelle" et séquentielle, mais adoptait un mécanisme permettant de "visualiser" toutes les données en même temps.
Plus précisément, des modèles tels que BERT ne sont pas entraînés avec des bases de données pré-étiquetées, mais utilisent la technologie "d'apprentissage auto-supervisé". Au fur et à mesure que le modèle explore d'innombrables octets, il peut trouver des mots cachés par lui-même ou en deviner le sens en fonction du contexte, un peu comme les questions d'examen avec lesquelles nous avons grandi ! La toute nouvelle méthode est très proche du mécanisme d'apprentissage du cerveau humain, et vous pouvez trouver ce qui vous intéresse en un coup d'œil, sans avoir à traiter et digérer mot par mot.
▲Dall-E 2 ajoute un canard en caoutchouc rose sur la base de l'image de gauche (pas de traces PS)
Après des milliards de cycles de deviner-comparer-améliorer-deviner, les modèles sont généralement brillants et talentueux.
Sans se limiter au texte, les réseaux de neurones et les techniques d'apprentissage auto-supervisé peuvent être appliqués au-delà du langage et du texte, y compris des images, des vidéos et même des bases de données macromoléculaires. Comme le modèle graphique DALL-E, la supposition n'est pas la combinaison de lettres suivante, mais le groupe de pixels suivant.
Les applications développées à partir de grands modèles sont également variées. En plus de la série d'applications de création littéraire et artistique évoquées plus haut, DeepMind de Google a lancé Gato, qui permet de jouer à des jeux vidéo, de contrôler des bras robotiques et d'écrire. Le "modèle mondial" de Meta semble être bloqué, destiné à l'origine à fournir un contexte pour le Metaverse.
truc cool ou piège de turing
Le boom des modèles de base est certainement une bonne nouvelle pour les fabricants de puces. Nvidia, qui participe activement à la fabrication de modèles de base, est déjà l'un des concepteurs de semi-conducteurs les plus précieux au monde, avec une valeur marchande de 468 milliards de dollars.
Les startups devraient également en profiter. Birch AI enregistre automatiquement les appels liés aux soins de santé ; Viable l'utilise pour passer au crible les commentaires des clients ; Fable Studio utilise l'IA pour créer des histoires interactives ; et sur Elicit, les gens s'appuient sur les outils d'IA pour trouver leurs questions de recherche dans des articles universitaires.
▲ Midjourney utilise un style de collage
Les grandes entreprises ont leur propre façon de jouer. Le responsable d'IBM a déclaré que le modèle de base peut analyser d'énormes quantités de données d'entreprise et même trouver des indices sur les coûts de consommation à partir des lectures de capteurs dans l'atelier. Le responsable du projet d'intelligence artificielle d'Accenture prédit que des "modèles industriels fondamentaux" vont bientôt émerger, fournissant des services d'analyse plus précis pour les clients traditionnels tels que les banques et les constructeurs automobiles.
Bien que l'avenir soit radieux, et que la peinture IA ait également stimulé l'enthousiasme du public, de nombreux chercheurs recommandent encore "de prendre du recul". Certaines personnes pensent que les mégadonnées sur lesquelles s'appuie le grand modèle ne sont pas entièrement fonctionnelles, et qu'elles ne sont en partie qu'une "répétition aléatoire" ; en même temps, certains problèmes biaisés provoqueront "l'illusion" du modèle. Au début de l'année dernière, lorsque GPT-3 a répondu à la question "Deux XXX (religieux) sont entrés…", il y avait une probabilité supérieure à 60 % de remplir "Musulman".
Dans la "Dimo Community", lorsque le "Domo Master Painter" est mis à jour, la page d'accueil voit parfois des utilisateurs envoyer des instructions indécentes à AI. Le PDG Lin Zehao a déclaré à Aifaner que généralement le filtrage des mots-clés en arrière-plan et le filtrage manuel seront effectués en même temps. ., pour assurer le bon fonctionnement de la communauté. Les outils de peinture AI tels que Dall-E 2 sont également confrontés à la même situation difficile – le même sort que le précédent "bouche parfumée" de Microsoft Xiaobing.
▲Femme et chat, quel style de peintre célèbre ce Midjourney a-t-il utilisé ? S'il vous plaît laissez un message dans la zone de commentaire, et vous serez récompensé pour les bonnes réponses
Erik Brynjolfsson, économiste à l'Université de Stanford, craint qu'une obsession collective pour les grands modèles dotés de capacités humaines puisse facilement conduire la société dans son ensemble dans un «piège de Turing». Les ordinateurs ont fait beaucoup de choses que les humains ne pouvaient pas faire, et font maintenant ce que les humains peuvent faire – mieux que les humains, plus de gens perdent leur emploi, la richesse et le pouvoir seront plus concentrés et les inégalités augmenteront.
Ses inquiétudes étaient justifiées. Les modèles à grande échelle coûtent très cher et les gens ordinaires n'ont pas les moyens d'y investir. Les partisans derrière eux sont soit des géants de la technologie, soit des pays. Le modèle de pierre angulaire deviendra la plate-forme de base pour une série de services, et la plate-forme a également un "effet Matthew": le gagnant prend tout, même si ce n'est pas tout, il ne reste plus rien pour les autres.
▲ Les internautes utilisent les images créées par Midjourney, pleines de style science-fiction
Les artistes aiment vraiment ces "choses cool". Le compositeur britannique Reeps One (Harry Yeff) alimente le modèle d'un rythme de métronome pendant des heures, et le modèle apprend à répondre rythmiquement à sa voix. Il prédit que "de nombreux artistes utiliseront cet outil pour mieux faire leur travail".
En tant que journaliste, j'aime aussi beaucoup l'application de transcription vocale d'iFLYTEK. Dans le passé, il suffisait de compiler un enregistrement de deux heures d'entretiens avec des personnes pour qu'un adulte en bonne santé mentale s'effondre sur-le-champ. Il ne vous reste plus qu'à attendre que le logiciel produise un document texte, vous ne pouvez pas l'utiliser directement comme "conversation", mais il suffit de le regarder comme un matériau.
Récemment, j'ai également cherché à utiliser GPT-3 pour former mon propre modèle d'écriture. Peut-être que la rubrique "Near Future" de jeudi prochain sera rédigée par mon IA.
#Bienvenue pour prêter attention au compte WeChat officiel d'Aifaner : Aifaner (WeChat : ifanr), un contenu plus excitant vous sera apporté dès que possible.
Love Faner | Lien d'origine · Voir les commentaires · Sina Weibo