Tools om het web vast te leggen en te converteren

Extraheer tekst uit afbeeldingen

Vaak kan belangrijke tekstuele informatie worden opgeslagen in afbeeldingen. Echter GrabzIt is Web Scraper biedt de mogelijkheid om deze informatie automatisch te extraheren met behulp van optische tekenherkenning. Hoewel dit een vorm van kunstmatig is intintelligentie de resultaten zijn niet altijd perfect.

Om tekst uit afbeeldingen te extraheren, moet u de Utility.Image.extractText methode zoals hieronder getoond.

var textArray = Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}));

In deze voorbeelden worden alle afbeeldings-URL's van de webpagina opgehaald en worden de URL's vervolgens doorgegeven aan de extractText-methode die probeert tekstuele gegevens uit elke afbeelding te extraheren en eventuele overeenkomsten teruggeeft als een reeks strings.

Als de tekst in de afbeelding in een andere taal is, moet u de juiste taalcode opgeven met de twee letters (ISO 639-1) -indeling, zoals hieronder weergegeven.

var textArray = Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}), 'fr');