Le Web Scraping est-il illégal?
Le scraping Web implique la collecte d'informations sous forme de données provenant de sites Web ou de pages. Bien que le vôtre ne soit pas un acte conscient, vous avez également gratté le Web d'une manière ou d'une autre tout en collectant des informations. Mais c'est généralement subtil.
Le scraping Web ou le scraping d'écran est généralement un acte ciblé, et les professionnels automatisent la conception pour obtenir d'énormes données. Que ce soit en copiant manuellement des textes sur un site Web, en utilisant des outils dédiés ou en écrivant des scripts de scraping Web, les web scrapers frappent parfois fort sur un site Web en effectuant plusieurs demandes à la fois.
Mais si de nombreuses entreprises exploitent désormais le scraping Web pour générer un avantage concurrentiel, est-ce vraiment légal?
Quels sites Web devriez-vous et ne devriez-vous pas gratter?
Internet est un pool d'informations qui permet aux gens d'accéder à des données anciennes et en temps réel. Le scraping Web ou le scraping d'écran existe depuis un certain temps déjà. Mais dans quelle mesure devriez-vous l'utiliser et quels sites Web pouvez-vous gratter?
Certains sites Web sont rigoureux avec les robots d'exploration ou les grattoirs d'écran et les bloquent complètement. Il est donc évident que vous ne devriez pas gratter de tels sites Web. Mais les gens le font toujours.
Malheureusement, ces sites ne peuvent pratiquement rien faire d'autre pour l'arrêter que de corriger leurs failles.
Avant de gratter un site Web, idéalement, vous devriez vérifier s'il autorise ou non l'exploration. Habituellement, vous pouvez le découvrir en consultant le fichier robots.txt du site. Vous pouvez le faire en tapant "[URL du site Web] /robots.txt".
Un fichier robots.txt définit généralement des règles pour divers robots d'exploration ou agents utilisateurs. Cependant, ces règles varient en fonction du site Web concerné. Alors que certains sites autorisent l'exploration sur toutes les pages, certains spécifient les pages qu'un robot peut explorer et certains bloquent carrément les robots d'exploration.
Un site Web qui empêche tous les agents utilisateurs d'explorer toutes les pages définit généralement les règles suivantes:
user-agent: *
Disallow: /
Un fichier robots.txt qui empêche tous les robots d'explorer certains répertoires ou pages ressemble généralement à ceci:
user-agent: *
Disallow: /URL to page 1
Disallow : /URL to page 2
Si le fichier robots.txt n'interdit pas la page que vous souhaitez explorer, vous pouvez probablement la gratter. Sinon, vous devez reculer ou demander le consentement de l'administrateur. Ils peuvent vous accorder l'accès.
De plus, certains sites Web indiquent explicitement s'ils autorisent ou non l'exploration dans leurs conditions d'utilisation. Certains le déclarent même en haut de leur fichier robots.txt. Vérifiez toujours cela également pour vous assurer que vous faites la bonne chose.
Comment le Web scraping est utilisé abusivement
Donc, si vous avez reçu des spams ou des SMS de sites Web ou de personnes que vous n'avez jamais fournis avec vos informations personnelles, vous avez probablement été détourné quelque part, d'une manière ou d'une autre. Et surtout, c'est via l'une de vos poignées de médias sociaux.
Cela dit, le web scraping est parfois plus que la simple collecte de données qui sont rendues au front-end. S'il est utilisé de manière malveillante, il peut entraîner la fuite d'informations personnelles et classifiées.
Alors que la plupart des plateformes de médias sociaux froncent les sourcils, les robots d'exploration accèdent toujours aux profils des gens, et leurs informations de contact sont divulguées et grattées.
Il a été signalé que Facebook, par exemple, présentait des vulnérabilités qui ont divulgué les informations de contact des utilisateurs dans le passé, même si les utilisateurs les gardent privées.
De même, LinkedIn a récemment subi une faille de sécurité qui a entraîné la fuite de données personnelles appartenant à plus de 500 millions de comptes . Par conséquent, cette vulnérabilité a entraîné le partage de nombreuses adresses e-mail et numéros de téléphone sans le consentement des propriétaires du profil.
Est-il illégal de gratter un site Web?
Il n'y a jamais eu de conclusion sur la légalité du web scraping. Au lieu de cela, l'accent est mis sur la façon dont un robot fonctionne au cas par cas et sur ce qu'il utilise les données collectées pour réaliser.
Ainsi, plutôt que de conclure sur sa légalité, le grattage, lorsqu'il est fait de manière malveillante, est illégal. Mais si cela est fait judicieusement, ce n'est pas illégal.
Mais comme prévu, il semble y avoir une politique plus stricte sur le grattage et l'utilisation des données des médias sociaux, car la confidentialité des utilisateurs est si importante. Cependant, tout se résume encore à la façon dont les gens récupèrent les données.
Le blog Internet & Social Media Law a analysé le cas de hiQ Labs, une société de collecte de données qui a remporté un procès contre LinkedIn en 2019 après avoir tenté d'empêcher hiQ Labs de récupérer les données des utilisateurs de LinkedIn accessibles au public.
Avec hiQ Labs affirmant que le Computer Fraud and Abuse Act (CFAA) n'interdit que l'accès non autorisé, le jugement a confirmé que les données de LinkedIn étaient accessibles au public, donc quiconque les grattait le faisait parce qu'elles étaient accessibles.
De plus, hiQ Labs n'a utilisé les données récupérées que pour fournir des solutions d'analyse aux entreprises, afin qu'elles puissent prendre de meilleures décisions de recrutement.
Au contraire, Facebook a récemment poursuivi les développeurs d'extensions Chrome qui ont gratté les profils des utilisateurs de Facebook sans leur consentement.
De même, un site copieur a été poursuivi par Facebook pour avoir récupéré les informations de profil de plusieurs utilisateurs d'Instagram, puis les avoir utilisées pour créer des clones. Selon ce rapport, Facebook est alors allé plus loin pour obtenir une injonction judiciaire permanente contre le contrevenant.
Ce sont quelques cas où des personnes peuvent avoir utilisé le web scraping illégalement. Lesdites sociétés ont collecté les données des utilisateurs de Facebook de manière trompeuse, sans le consentement de leurs utilisateurs. Donc, cela a violé les politiques de confidentialité.
Ainsi, alors que le scraping Web peut frustrer le site dont il obtient des données, aucune règle générale n'empêche actuellement les gens d'obtenir ce qu'ils veulent, tant qu'ils ne violent pas carrément les lois sur Internet.
Le Web Scraping est-il synonyme de piratage?
Il existe quelques mythes entourant le raclage Web. L'une d'elles est la croyance que le raclage d'un site Web signifie que vous l'avez piraté. Bien que le piratage puisse éventuellement conduire à la récupération de données, l'affirmation selon laquelle le terme lui-même signifie le piratage d'un site Web n'est pas vraie.
Le scraping Web peut impliquer l'utilisation d' outils d'exploration ou de scraping dédiés , d'interfaces de programmation d'application (API) ou de scripts de scraping Web pour obtenir des données rendues à partir d'un site Web. Contrairement au piratage, il ne compromet ni le site Web qu'il gratte ni ne perturbe l'expérience de ses utilisateurs.
Ainsi, alors que le piratage implique un accès non autorisé, généralement dans la base de données d'un site Web, le scraping Web ne cible que les données déjà visibles sur le front-end. Bien que les gens puissent utiliser le web scraping de manière malveillante, ce n'est toujours pas synonyme de piratage.
De plus, contrairement au grattage Web, le piratage délibéré et contraire à l'éthique est illégal.
Quels sont les avantages du raclage Web?
Le scraping Web présente de nombreux avantages, et même certaines entreprises technologiques offrent désormais leurs données gratuitement via des API. Ces informations ne sont généralement pas suffisantes pour évaluer les tendances commerciales et prendre des décisions.
Ainsi, les entreprises obtiennent désormais plus de données en grattant le Web pour améliorer leurs pratiques et générer des ventes. De plus, les scientifiques des données alimentent les algorithmes d'apprentissage automatique avec des données collectées via le grattage d'écran.
Ces données peuvent être des images utilisées dans la reconnaissance d'image, des textes simples pour l'analyse des sentiments ou des données de produit directes pour l'intelligence du marché et l'analyse du comportement des consommateurs.
Le scraping Web est donc encore plus utile car si vous avez accès aux informations que votre concurrent n'a pas, vous pouvez les battre.
Alors que certains sites froncent les sourcils face aux racleurs Web, certains, même les services de commerce électronique, ne se soucient pas de savoir si vous grattez leurs données ou non. Les géants du Web comme eBay et Salesforce ont lancé leur API en 2000, offrant aux programmeurs un accès aux données publiques pour la première fois.
Devriez-vous réellement gratter le Web?
Nous avons établi que le web scraping n'est pas illégal lorsqu'il est fait de la bonne manière. Mais ce que vous faites avec les données que vous récupérez est également un problème. Donc, plutôt que d'en abuser, utilisez-le pour tirer davantage d'informations qui vous aideront, vous et les autres, à prendre des décisions éclairées.
Cependant, le scraping Web en tant que compétence vous donne accès à de grandes parties de données Internet, ce qui peut vous aider, vous ou votre entreprise, à rester au-dessus du créneau commercial. En tant que data scientist, cela élargit même votre champ d'action et améliore vos compétences techniques et de codage.
Par exemple, Python est l'un des langages de programmation qui vous aide à gratter facilement un site Web avec sa bibliothèque Beautiful Soup ou son framework Scrapy.