Tools om het web vast te leggen en te converteren

Hoe automatisch gestructureerde informatie uit ongestructureerde tekst te extraheren?

Normale geschreven tekst kan veel informatie bevatten die niet gemakkelijk te extraheren is. Een zin bijvoorbeeld een recensie over een bedrijf, maar hoe weet je of het een goede of een slechte recensie is?

Een normale webschraper zou deze informatie niet kunnen extraheren. GrabzIt kan dit echter wel door gebruik te maken van de natuurlijke taalverwerkingsmogelijkheden. Zoals in het onderstaande voorbeeld wordt getoond, wordt de paginatekst geanalyseerd en wordt een van de volgende waarden geretourneerd. Zeer negatief, negatief, neutraal, positief en zeer positief.

Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');

Hoewel GrabzIt is Web Scraper kan veel meer uit tekst halen, waaronder taaldetectie, namen van locaties, namen van personen en namen van organisaties. Voorbeelden hiervan worden hieronder weergegeven.

//Language Detection
Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language');
//Identify Geographic Locations
Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations');
//Identify People's Names
Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names');
//Identify Organizations Names
Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');

U hoeft deze schraapinstructies niet zelf te schrijven, omdat ze automatisch verschijnen wanneer u een toepasselijk HTML-element selecteert in onze schraperwizard.