57 % d’Internet est peut-être déjà constitué de boues d’IA

10 septembre 2024 Hibou Gourou

une bulle de mot cgi — Google Deepmind / Pexels

Ce n'est pas seulement vous : les résultats de recherche se détériorent réellement. Les chercheurs d'Amazon Web Services (AWS) ont mené une étude qui suggère que 57 % du contenu sur Internet aujourd'hui est soit généré par l'IA, soit traduit à l'aide d'un algorithme d'IA.

L'étude, intitulée « Une quantité choquante de Web est traduite par machine : aperçus du parallélisme multidirectionnel », affirme que la traduction automatique (TA) à faible coût, qui prend un élément de contenu donné et le régurgite dans plusieurs langues, est la meilleure solution. coupable principal. « Les traductions parallèles multidirectionnelles générées automatiquement ne dominent pas seulement la quantité totale de contenu traduit sur le Web dans les langues à ressources moindres où la TA est disponible ; cela constitue également une grande partie du contenu Web total dans ces langues », ont écrit les chercheurs dans l’étude.

Ils ont également constaté un biais de sélection dans le contenu traduit automatiquement dans plusieurs langues par rapport au contenu publié dans une seule langue. "Ce contenu est plus court, plus prévisible et présente une répartition thématique différente de celle du contenu traduit dans une seule langue", ont écrit les chercheurs.

De plus, la quantité croissante de contenu généré par l'IA sur Internet, combinée au recours croissant aux outils d'IA pour éditer et manipuler ce contenu, pourrait conduire à un phénomène connu sous le nom d'effondrement du modèle, et réduit déjà la qualité des résultats de recherche sur le Web. Étant donné que les modèles d'IA de pointe comme ChatGPT , Gemini et Claude s'appuient sur d'énormes quantités de données de formation qui ne peuvent être acquises qu'en grattant le Web public (que cela viole ou non le droit d'auteur), en remplissant le Web public de données générées par l'IA, et souvent inexacts, le contenu pourrait fortement dégrader leurs performances.

"Il est surprenant de voir à quelle vitesse l'effondrement du modèle se produit et à quel point il peut être insaisissable", a déclaré le Dr Ilia Shumailov de l'Université d'Oxford à Windows Central . « Dans un premier temps, cela affecte les données minoritaires, des données mal représentées. Cela affecte alors la diversité des sorties et la variance diminue. Parfois, vous observez une légère amélioration pour les données majoritaires, qui masque la dégradation des performances sur les données minoritaires. L’effondrement du modèle peut avoir de graves conséquences.

Les chercheurs ont démontré ces conséquences en demandant à des linguistes professionnels de classer 10 000 phrases anglaises sélectionnées au hasard dans l’une des 20 catégories. Les chercheurs ont observé « un changement radical dans la répartition des sujets lorsqu'on compare des données parallèles bidirectionnelles à plus de 8 voies (c'est-à-dire le nombre de traductions linguistiques), avec des sujets de « conversation et d'opinion » augmentant de 22,5 % à 40,1 % » de ceux publiés. .

Cela indique un biais de sélection dans le type de données traduites dans plusieurs langues, qui sont « considérablement plus susceptibles » de provenir du sujet « conversation et opinion ».

De plus, les chercheurs ont découvert que « les traductions parallèles hautement multidirectionnelles sont de qualité nettement inférieure (6,2 points d’estimation de la qualité des comètes, pire) que les traductions parallèles bidirectionnelles ». Lorsque les chercheurs ont audité 100 phrases parallèles hautement multidirectionnelles (celles traduites dans plus de huit langues), ils ont constaté qu'« une grande majorité » provenait de fermes de contenu avec des articles « que nous avons qualifiés de faible qualité, nécessitant peu ou pas d'expertise ». , ou faire avancer les efforts pour créer.

Cela aide certainement à expliquer pourquoi le PDG d'OpenAI, Sam Altman, continue de insister sur le fait qu'il est « impossible » de créer des outils comme ChatGPT sans accès gratuit aux œuvres protégées par le droit d'auteur.