Gratter des sites Web avec Python et BeautifulSoup - Semalt Advice

Il existe plus qu'assez d'informations sur Internet sur la façon de supprimer correctement les sites Web et les blogs. Ce dont nous avons besoin, ce n'est pas seulement l'accès à ces données, mais des moyens évolutifs pour les collecter, les analyser et les organiser. Python et BeautifulSoup sont deux merveilleux outils pour gratter des sites Web et extraire des données. Dans le scraping Web, les données peuvent être facilement extraites et présentées dans un format dont vous avez besoin. Si vous êtes un investisseur passionné qui apprécie son temps et son argent, vous devez absolument accélérer le processus de grattage Web et le rendre aussi optimisé que possible.

Commencer

Nous allons utiliser à la fois Python et BeautifulSoup comme langage de scraping principal.

  • 1. Pour les utilisateurs Mac, Python est préinstallé dans OS X. Il suffit d'ouvrir Terminal et de taper python –version . De cette façon, ils pourront voir la version Python 2.7.
  • 2. Pour les utilisateurs de Windows, nous recommandons d'installer Python via son site officiel.
  • 3. Ensuite, vous devez accéder à la bibliothèque BeautifulSoup à l'aide de pip. Cet outil de gestion de packages a été spécialement conçu pour Python.

Dans le terminal, vous devez insérer le code suivant:

easy_install pip

pip installer BeautifulSoup4

Règles de raclage:

Les principales règles de raclage dont vous devez vous préoccuper sont les suivantes:

  • 1. Vous devez vérifier les règles et règlements du site avant de commencer son raclage. Soyez donc très prudent!
  • 2. Vous ne devez pas demander les données des sites de manière trop agressive. Assurez-vous que l'outil que vous utilisez se comporte raisonnablement. Sinon, vous pouvez casser le site.
  • 3. Une demande par seconde est la bonne pratique.
  • 4. La disposition du blog ou du site peut être modifiée à tout moment, et vous devrez peut-être revoir ce site et réécrire votre propre code chaque fois que nécessaire.

Inspectez la page

Passez votre curseur sur la page Prix pour comprendre ce qui doit être fait. Lisez le texte lié à la fois à HTML et Python, et à partir des résultats, vous verrez les prix à l'intérieur des balises HTML.

Exporter vers Excel CSV

Une fois que vous avez extrait les données, l'étape suivante consiste à les enregistrer hors ligne. Le format séparé par des virgules Excel est le meilleur choix à cet égard, et vous pouvez facilement l'ouvrir dans votre feuille Excel. Mais d'abord, vous devrez importer les modules Python CSV et les modules date-heure pour enregistrer correctement vos données. Le code suivant peut être inséré dans la section d'importation:

importer csv

de l'importation datetime à datetime

Techniques avancées de grattage

BeautifulSoup est l'un des outils les plus simples et les plus complets pour le web scraping. Cependant, si vous devez collecter de gros volumes de données, envisagez d'autres alternatives:

  • 1. Scrapy est un framework de grattage python puissant et étonnant.
  • 2. Vous pouvez également intégrer le code à une API publique. L'efficacité de vos données sera importante. Par exemple, vous pouvez essayer l'API Facebook Graph, qui permet de masquer les données et de ne pas les afficher sur les pages Facebook.
  • 3. En outre, vous pouvez utiliser les programmes backend tels que MySQL et stocker les données en grande quantité avec une grande précision.
  • 4. DRY signifie «Don't Repeat Yourself» et vous pouvez essayer d'automatiser les tâches régulières en utilisant cette technique.

mass gmail