So extrahieren Sie ALLE Informationen von Webseiten

Wenn Sie eine Liste von Websites haben und Kontaktdaten oder andere Informationen von dieser Website erhalten möchten, kann Ihnen der Web Extractor von Botsol helfen.

Es verfügt über eine integrierte Funktion zum Extrahieren von E-Mail- und Social-Media-Links. Benutzer können alle anderen Informationen extrahieren, indem sie ein paar einfache Aktionen ausführen.

In diesem Beispiel werden wir den Titel und die Meta-Beschreibung aus einer Liste von Websites extrahieren. Standardmäßig werden bereits die E-Mail- und Social-Media-Links extrahiert.

So konfigurieren Sie die App, um diese Informationen zu extrahieren.

Laden Sie die Botsol Web Extractor-App von hier herunter und installieren Sie sie https://www.botsol.com/bots/web-extractor

Führen Sie die Anwendung Botsol Web Extractor aus.

Klicken Sie auf Optionen und wählen Sie „Datenfelder hinzufügen/anpassen“. Es öffnet sich ein neues Fenster.

Klicken Sie auf die Schaltfläche „Neues Element hinzufügen“, geben Sie den Namen Ihres neuen Felds ein, wählen Sie den Typ (Xpath oder Regex) hier verwenden wir Xpath für unsere erforderlichen Felder.

Überschrift hat Xpath //h1

Title-Tag hat den Xpath //title

Der Xpath von Meta Description wird //meta[@name=’description’]/@content sein

*Screenshot der Web Extractor-App mit benutzerdefinierten Datenfeldern, die vom Benutzer hinzugefügt wurden.*

Wie Sie im obigen Screenshot sehen können, hatten wir zwei Datenfelder hinzugefügt. Schließen Sie nun dieses Fenster.

Übergeben Sie alle Ihre URLs im Textbereich, der in der Botsol-Web-Extraktor-App angezeigt wird, und klicken Sie auf die Schaltfläche „Start Bot“.

Es wird jede Seite besuchen und Kontaktinformationen zusammen mit dem Titel und der Meta-Beschreibung extrahieren. Standardmäßig besucht die App die URLs im Hintergrund, kann aber auch URLs im Chrome-Browser öffnen, wenn Sie möchten. Klicken Sie auf Optionen> Einstellungen und wählen Sie die Option zum Öffnen von URLs im Chrome-Browser aus. Dies ist hilfreich für Websites, die schwere Java-Skripte zum Anzeigen von Inhalten verwenden .

Bildschirm der Web Extractor-App mit den extrahierten Kontaktinformationen und anderen Datenfeldern.

Das ist es, es ist wirklich einfach und schnell, beliebige Informationen aus einer URL zu extrahieren. Der Benutzer kann die Daten nach Abschluss in CSV/Excel exportieren.

Lesen Sie mehr über Xpath (https://www.w3schools.com/xml/xpath_syntax.asp) und Regex (http://www.rexegg.com/regex-quickstart.html).

Dieser Beitrag wurde ursprünglich auf Englisch unter https://blog.botsol.com/post/how-to-extract-any-information-from-websites veröffentlicht

Topics

Robotic process automation Botsol Application Google Maps

You might also like:

Google Maps Reviews And Online Reputation Management for Business

Google Maps Reviews are user-generated ratings and feedback that provide insights into various businesses, services, and locations listed on Google Maps. They serve as a valuable resource for potential customers seeking information about their experiences with specific establishments, such as restaurants, hotels, retail stores, and other local attractions.

What is the difference between web scraping and web crawling?

The Internet is an ever-evolving and rapidly advancing landscape with abundant information accessible anywhere in the world at any time. Whether a professional or a layperson, anyone can access their required information anytime using different techniques.

How to use older version of chrome browser with Botsol Crawler Application

Botsol also has the feature to use the older versions of chrome browser, The old version of chrome will only be used by the botsol app, your normal chrome installation will not be affected.