Tools om het web vast te leggen en te converteren

Gegevens extraheren en transformeren intoa dataset

Een van de meest voorkomende vereisten is om gegevens van een website te extraheren en om te zetten inteen tabelstructuur die kan worden geëxporteerd voor verdere verwerking. Maar wat is een dataset en hoe wordt deze gebruikt? GrabzIt is Web Scraper?

Voorbeeld dataset: prijslijst

Hieronder vindt u de tabelgegevens in de gegevensset prijslijst, de tabel bestaat uit drie kolommen itemlabel, product beschrijving als stuksprijs.

itemlabel product beschrijving stuksprijs
camera Neemt digitale foto's $ 99.00

Om deze dataset te maken, moet u de volgende scrape-instructies gebruiken.

Data.save('Camera', 'price list', 'item label');
Data.save('Takes digital photos', 'price list', 'item description');
Data.save('$99.00', 'price list', 'item price');

Dit maakt gebruik van de Data.save methode om een ​​toe te voegen gegevenswaarde naar een bepaalde dataset als kolom. Elke keer als de Data.save methode wordt aangeroepen met dezelfde gegevensset en kolomnaamparameters, wordt een nieuwe rij aan die kolom toegevoegd. De bovenstaande schraapinstructies zijn echter niet erg nuttig omdat we de gegevensset maken met behulp van statische waarden. De onderstaande code toont de HTML van een webpagina, we zullen dan schraapinstructies schrijven om de gegevens dynamisch uit de pagina te extraheren en save it intoa dataset.

<html>
    <body>
        <span id="spnLabel">Nikon 1055</span>
        <span id="spnDescription">Great little camera, creates clear sharp images.</span>
        <span id="spnPrice">$99.99</span>
    </body>
</html>

We zullen nu de gebruiken Page.getTagValue methode om de waarden uit de span-tags te extraheren.

Data.save(Page.getTagValue({"id":{"equals":"spnLabel"}}), 'price list', 'item label');
Data.save(Page.getTagValue({"id":{"equals":"spnDescription"}}), 'price list', 'item description');
Data.save(Page.getTagValue({"id":{"equals":"spnPrice"}}), 'price list', 'item price');

Zoals je kunt zien Page.getTagValue methoden gebruiken een filter, dat op unieke wijze het HTML-element identificeert waaruit de tekst moet worden geëxtraheerd. In dit geval geven de filters aan dat het id HTML-kenmerk gelijk moet zijn spnLabel, spnDescription or spnPrice respectievelijk. U kunt eenvoudig een filter genereren door op te klikken Filter knop pictogram, dat een wizard weergeeft om de constructie van het filter te vereenvoudigen.

Nadat u uw gegevensset hebt samengesteld zoals we hier hebben getoond, kunt u beslissen hoe u deze wilt exporteren naar de Exportopties Tab.