Tools om het web vast te leggen en te converteren

Schraap e-mailadressen van een website

De volgende twee voorbeelden maken deel uit van hetzelfde sjabloon.

GrabzIt is Web Scraper biedt verschillende speciale hulpprogramma's om het eenvoudig te maken e-mailadressen van een website te extraheren. In het onderstaande voorbeeld wordt alle HTML-inhoud van een webpagina opgehaald en vervolgens door de Utility.Text.extractAddresses methode om alle geldige e-mailadressen te vinden voordat u de adressen opslaat intoa dataset, die vervolgens naar de gebruiker wordt verzonden.

Als alternatief kan alleen het eerste overeenkomende e-mailadres worden geëxtraheerd met behulp van de Utility.Text.extractAddress methode.

Data.save(Utility.Text.extractAddresses(Page.getHtml()));

Schraap e-mailadressen uit PDF-documenten

PDF-documenten kunnen ook worden geschraapt voor e-mailadressen op een vergelijkbare manier als webpagina's hierboven worden geschraapt. Zoals u in het onderstaande voorbeeld kunt zien, is het proces precies hetzelfde behalve dat de PDF.getText() methode wordt gebruikt in plaats van Page.getHtml() methode.

Data.save(Utility.Text.extractAddresses(PDF.getText()));

Schraap e-mailadressen van afbeeldingen

GrabzIt heeft de mogelijkheid om extraheer tekst uit afbeeldingen dit betekent dat deze mogelijkheid ook kan worden gebruikt om e-mailadressen uit afbeeldingen te extraheren. In het onderstaande voorbeeld worden alle e-mailadressen uit alle afbeeldingen op een webpagina gehaald.

Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}))));

Terwijl de onderstaande schraapinstructies eventuele e-mailadressen extraheren uit afbeeldingen in PDF-documenten.

Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(PDF.getValue({"type":"image"}))));