Tout Internet appartient désormais à l’IA de Google

6 juillet 2023 Hibou Gourou

La dernière mise à jour de Google de sa politique de confidentialité fera en sorte que l'entreprise dispose d'une plage libre pour gratter le Web à la recherche de tout contenu pouvant bénéficier de la construction et de l'amélioration de ses outils d'IA.

"Google utilise les informations pour améliorer nos services et développer de nouveaux produits, fonctionnalités et technologies qui profitent à nos utilisateurs et au public", indique la nouvelle politique de Google. "Par exemple, nous utilisons des informations accessibles au public pour aider à former les modèles d'IA de Google et à créer des produits et des fonctionnalités telles que Google Translate, Bard et les capacités Cloud AI."

Gizmodo note que la politique a été mise à jour pour dire "modèles d'IA" alors qu'elle disait auparavant "pour les modèles de langage". De plus, la politique a ajouté Bard et Cloud AI, alors qu'elle ne mentionnait auparavant que Google Translate, pour lequel elle collectait des données.

La politique de confidentialité, qui a été mise à jour au cours du week-end, semble particulièrement inquiétante car elle indique que toute information que vous produisez en ligne est à saisir pour que Google l'utilise pour former ses modèles d'IA.

Le libellé susmentionné semble décrire non seulement ceux de l'écosystème Google d'une manière ou d'une autre, mais est détaillé de telle manière que la marque puisse avoir accès aux informations de n'importe quelle partie du Web.

Les principaux problèmes entourant le développement massif de l'intelligence artificielle sont des questions sur la confidentialité, le plagiat et la capacité de l'IA à dissiper les informations correctes. Les premières versions de chatbots tels que ChatGPT sont basées sur de grands modèles de langage (LLM) qui utilisaient déjà des sources publiques, telles que l'archive Web Common Crawl, WebText2, Books1, Books2 et Wikipedia comme données de formation.

Le début de ChatGPT était tristement célèbre pour être resté bloqué sur des informations au-delà de 2021 et avoir ensuite rempli des réponses avec de fausses données. Cela pourrait probablement être l'une des raisons pour lesquelles Google voudrait un accès sans entrave aux données Web pour bénéficier à des outils tels que Bard, afin d'avoir une formation réelle et potentiellement en temps réel pour ses modèles d'IA.

Gizmodo a également noté que Google pourrait utiliser cette nouvelle politique pour collecter des contenus anciens, mais toujours générés par l'homme, tels que des critiques ou des articles de blog oubliés depuis longtemps, afin de toujours avoir une idée de la façon dont le texte et la parole humains sont développés et distribués. Reste à savoir exactement comment Google utilisera les données qu'il collecte.

Plusieurs plateformes de médias sociaux, dont Twitter et Reddit, qui sont des sources majeures d'informations à jour, ont déjà limité leur accès public dans le sillage de la popularité des chatbots IA , au grand dam de l'ensemble de leurs communautés.

Les deux plates-formes ont fermé l'accès gratuit à leurs API, ce qui empêche les utilisateurs de télécharger des quantités massives de messages pour les partager ailleurs, sous prétexte de protéger leur propriété intellectuelle. Au lieu de cela, cela a cassé de nombreux outils tiers qui permettent à la fois à Twitter et à Reddit de fonctionner correctement.

Twitter et Reddit ont tous deux dû faire face à d'autres revers et controverses alors que les inquiétudes de leurs propriétaires augmentaient quant à la prise en charge de l'IA.