Meta veut suralimenter Wikipedia avec une mise à niveau de l’IA

22 août 2022 Hibou Gourou

Wikipédia a un problème. Et Meta, le Facebook rebaptisé il n'y a pas si longtemps, pourrait bien avoir la réponse.

Revenons en arrière. Wikipédia est l'un desprojets collaboratifs les plus importants de l'histoire de l'humanité, avec plus de 100 000 éditeurs humains bénévoles contribuant à la construction et à la maintenance d'une encyclopédie multilingue époustouflante composée de millions d'articles. Plus de 17 000 nouveaux articles sont ajoutés à Wikipédia chaque mois, tandis que des ajustements et des modifications sont continuellement apportés à son corpus d'articles existant. Les articles Wiki les plus populaires ont été modifiés des milliers de fois, reflétant les toutes dernières recherches, idées et informations de dernière minute.

Le défi, bien sûr, est la précision. L'existence même de Wikipédia est la preuve positive qu'un grand nombre d'humains peuvent se rassembler pour créer quelque chose de positif. Mais pour être véritablement utiles et non un mur de graffitis tentaculaire d'allégations non fondées, les articles de Wikipédia doivent être étayés par des faits. C'est là qu'interviennent les citations. L'idée – et pour la plupart, cela fonctionne très bien – est que les utilisateurs et les éditeurs de Wikipédia peuvent confirmer les faits en ajoutant ou en cliquant sur des hyperliens qui permettent de remonter aux déclarations jusqu'à leur source.

Citation requise

Supposons, par exemple, que je veuille confirmer l'entrée sur l'article Wikipédia du président Barack Obama indiquant qu'Obama s'est rendu en Europe puis au Kenya en 1988, où il a rencontré plusieurs de ses parents paternels pour la première fois. Tout ce que j'ai à faire est de regarder les citations de la phrase et, bien sûr, il y a trois références de livres distinctes qui semblent confirmer que le fait est vérifié.

En revanche, l'expression « citation nécessaire » est probablement la plus accablante de tout Wikipédia, précisément parce qu'elle suggère qu'il n'y a aucune preuve que l'auteur n'a pas fait sortir les mots de l'éther numérique. Les mots « citation nécessaire » apposés sur une revendication de Wikipédia équivaut à dire à quelqu'un un fait tout en faisant des citations en l'air.

Cependant, les citations ne nous disent pas tout. Si je vous disais que, l'année dernière, j'étais le 23e journaliste technologique le mieux rémunéré au monde et que j'ai un jour abandonné une carrière de mannequin lucrative pour écrire des articles pour Digital Trends, cela semble superficiellement plausible car il existe des hyperliens pour soutenir mes délires.

Le fait que les hyperliens ne soutiennent pas du tout mes faits alternatifs, mais mènent plutôt à des pages sans rapport sur Digital Trends n'est révélé que lorsque vous cliquez dessus. Pour les 99,9 % de lecteurs qui ne m'ont jamais rencontré, ils pourraient quitter cet article avec une multitude de fausses impressions, dont la moindre n'est pas la barrière étonnamment basse à l'entrée dans le monde du mannequinat. Dans un monde hyperlié de surcharge d'informations, dans lequel nous barbotons de plus en plus dans ce que Nicholas Carr appelle « The Shallows », l'existence de citations elles-mêmes semble être des approbations factuelles.

Meta patauge dans

Mais que se passe-t-il si des citations sont ajoutées par les éditeurs de Wikipédia, même si elles ne renvoient pas à des pages qui soutiennent réellement les affirmations ? À titre d'illustration, un article récent de Wikipedia sur le membre de la tribu Blackfeet Joe Hipp a décrit comment Hipp a été le premier boxeur amérindien à se battre pour le titre WBA World Heavyweight et lié à ce qui semblait être une page Web appropriée. Cependant, la page Web en question ne mentionnait ni la boxe ni Joe Hipp.

Dans le cas de l'affirmation de Joe Hipp, le factoïde de Wikipédia était exact, même si la citation était inappropriée. Néanmoins, il est facile de voir comment cela pourrait être utilisé, délibérément ou non, pour diffuser des informations erronées.

Mark Zuckurburg présente le nouveau nom de Facebook, Meta.

C'est ici que Meta pense avoir trouvé un moyen d'aider. En collaboration avec la Wikimedia Foundation, Meta AI (c'est le laboratoire de recherche et développement sur l'IA pour le géant des médias sociaux) a développé ce qu'il prétend être le premier modèle d'apprentissage automatique capable de scanner automatiquement des centaines de milliers de citations à la fois pour vérifier si elles prennent en charge les revendications correspondantes. Bien que ce soit loin d'être le premier bot que Wikipédia utilise , il pourrait être parmi les plus impressionnants.

"Je pense que nous étions motivés par la curiosité à la fin de la journée", a déclaré Fabio Petroni , directeur principal des technologies de recherche pour l'équipe FAIR (Fundamental AI Research) de Meta AI, à Digital Trends. « Nous voulions voir quelle était la limite de cette technologie. Nous n'étions absolument pas sûrs que [cette IA] puisse faire quoi que ce soit de significatif dans ce contexte. Personne n'avait jamais essayé de faire quelque chose de similaire [before]. "

Comprendre le sens

Formé à l'aide d'un ensemble de données composé de 4 millions de citations Wikipédia, le nouvel outil de Meta est capable d'analyser efficacement les informations liées à une citation, puis de les croiser avec les preuves à l'appui. Et il ne s'agit pas non plus d'une simple comparaison de chaînes de texte.

"Il y a un composant comme ça, [en regardant] la similitude lexicale entre la revendication et la source, mais c'est le cas facile", a déclaré Petroni. "Avec ces modèles, ce que nous avons fait, c'est de construire un index de toutes ces pages Web en les décomposant en passages et en fournissant une représentation précise pour chaque passage… Il ne s'agit pas de représenter mot par mot le passage, mais le sens du passage . Cela signifie que deux morceaux de texte avec des significations similaires seront représentés dans une position très proche dans l'espace à n dimensions résultant où tous ces passages sont stockés.

une bande dessinée à volet unique de xkcd sur les citations de Wikipedia — xkcd

Cependant, tout aussi impressionnant que la capacité de repérer les citations frauduleuses, est le potentiel de l'outil pour suggérer de meilleures références. Déployé comme un modèle de production, cet outil pourrait utilement suggérer des références qui illustreraient le mieux un certain point. Bien que Petroni rechigne à ce qu'il soit assimilé à une vérification orthographique factuelle, signalant les erreurs et suggérant des améliorations, c'est un moyen facile de réfléchir à ce qu'il pourrait faire.

Mais comme l'explique Petroni, il reste encore beaucoup de travail à faire avant d'en arriver là. "Ce que nous avons construit est une preuve de concept", a-t-il déclaré. « Ce n'est pas vraiment utilisable pour le moment. Pour que cela soit utilisable, vous devez disposer d'un nouvel index qui indexe beaucoup plus de données que ce que nous avons actuellement. Il doit être constamment mis à jour, avec de nouvelles informations chaque jour.

Cela pourrait, du moins en théorie, inclure non seulement du texte, mais aussi du multimédia. Il existe peut-être un excellent documentaire faisant autorité disponible sur YouTube vers lequel le système pourrait diriger les utilisateurs. Peut-être que la réponse à une affirmation particulière est cachée dans une image quelque part en ligne.

Une question de qualité

Il y a aussi d'autres défis. Notable en son absence, du moins pour le moment, est toute tentative d'évaluer de manière indépendante la qualité des sources citées. C'est un domaine épineux en soi. À titre d'illustration simple, une référence brève et jetable à un sujet dans, disons, le New York Times s'avérerait-elle une citation plus appropriée et de haute qualité qu'une source plus complète, mais moins connue ? Une publication grand public devrait-elle être mieux classée qu'une publication non grand public ?

L'algorithme PageRank d'un billion de dollars de Google – certainement l'algorithme le plus célèbre jamais construit autour des citations – l'avait intégré à son modèle en assimilant, par essence, une source de haute qualité à une source qui avait un nombre élevé de liens entrants. À l'heure actuelle, l'IA de Meta n'a rien de tel.

Si cette IA devait fonctionner comme un outil efficace, elle aurait besoin de quelque chose comme ça. Comme exemple très évident de pourquoi, imaginons que l'on devait entreprendre de «prouver» l'opinion la plus flagrante et la plus répréhensible pour l'inclure sur une page Wikipédia. Si la seule preuve nécessaire pour confirmer que quelque chose est vrai est de savoir si des sentiments similaires peuvent être trouvés publiés ailleurs en ligne, alors pratiquement n'importe quelle affirmation pourrait techniquement s'avérer correcte – aussi fausse soit-elle.

"[Un domaine qui nous intéresse] essaie de modéliser explicitement la fiabilité d'une source, la fiabilité d'un domaine", a déclaré Petroni. « Je pense que Wikipédia a déjà une liste de domaines considérés comme dignes de confiance et de domaines considérés comme non. Mais au lieu d'avoir une liste fixe, ce serait bien si nous pouvions trouver un moyen de les promouvoir de manière algorithmique.