GrabzIt is Web Scraper biedt verschillende speciale hulpprogramma's om het eenvoudig te maken e-mailadressen van een website te extraheren. In het onderstaande voorbeeld wordt alle HTML-inhoud van een webpagina opgehaald en vervolgens door de Utility.Text.extractAddresses
methode om alle geldige e-mailadressen te vinden voordat u de adressen opslaat intoa dataset, die vervolgens naar de gebruiker wordt verzonden.
Als alternatief kan alleen het eerste overeenkomende e-mailadres worden geëxtraheerd met behulp van de Utility.Text.extractAddress
methode.
Data.save(Utility.Text.extractAddresses(Page.getHtml()));
PDF-documenten kunnen ook worden geschraapt voor e-mailadressen op een vergelijkbare manier als webpagina's hierboven worden geschraapt. Zoals u in het onderstaande voorbeeld kunt zien, is het proces precies hetzelfde behalve dat de PDF.getText()
methode wordt gebruikt in plaats van Page.getHtml()
methode.
Data.save(Utility.Text.extractAddresses(PDF.getText()));
GrabzIt heeft de mogelijkheid om extraheer tekst uit afbeeldingen dit betekent dat deze mogelijkheid ook kan worden gebruikt om e-mailadressen uit afbeeldingen te extraheren. In het onderstaande voorbeeld worden alle e-mailadressen uit alle afbeeldingen op een webpagina gehaald.
Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}))));
Terwijl de onderstaande schraapinstructies eventuele e-mailadressen extraheren uit afbeeldingen in PDF-documenten.
Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(PDF.getValue({"type":"image"}))));