Een van de meest voorkomende vereisten is om gegevens van een website te extraheren en om te zetten inteen tabelstructuur die kan worden geëxporteerd voor verdere verwerking. Maar wat is een dataset en hoe wordt deze gebruikt? GrabzIt is Web Scraper?
Hieronder vindt u de tabelgegevens in de gegevensset prijslijst, de tabel bestaat uit drie kolommen itemlabel, product beschrijving en stuksprijs.
itemlabel | product beschrijving | stuksprijs |
---|---|---|
camera | Neemt digitale foto's | $99.00 |
Om deze dataset te maken, moet u de volgende scrape-instructies gebruiken.
Data.save('Camera', 'price list', 'item label'); Data.save('Takes digital photos', 'price list', 'item description'); Data.save('$99.00', 'price list', 'item price');
Dit maakt gebruik van de Data.save
methode om een toe te voegen gegevenswaarde naar een bepaalde dataset en kolom. Elke keer als de Data.save
methode wordt aangeroepen met dezelfde gegevensset en kolomnaamparameters, wordt een nieuwe rij aan die kolom toegevoegd. De bovenstaande schraapinstructies zijn echter niet erg nuttig omdat we de gegevensset maken met behulp van statische waarden. De onderstaande code toont de HTML van een webpagina, we zullen dan schraapinstructies schrijven om de gegevens dynamisch uit de pagina te extraheren en save it intoa dataset.
<html> <body> <span id="spnLabel">Nikon 1055</span> <span id="spnDescription">Great little camera, creates clear sharp images.</span> <span id="spnPrice">$99.99</span> </body> </html>
We zullen nu de gebruiken Page.getTagValue
methode om de waarden uit de span-tags te extraheren.
Data.save(Page.getTagValue({"id":{"equals":"spnLabel"}}), 'price list', 'item label'); Data.save(Page.getTagValue({"id":{"equals":"spnDescription"}}), 'price list', 'item description'); Data.save(Page.getTagValue({"id":{"equals":"spnPrice"}}), 'price list', 'item price');
Zoals je kunt zien Page.getTagValue
methoden gebruiken een filter, dat op unieke wijze het HTML-element identificeert waaruit de tekst moet worden geëxtraheerd. In dit geval geven de filters aan dat het id HTML-kenmerk gelijk moet zijn spnLabel, spnDescription or spnPrice respectievelijk. U kunt eenvoudig een filter genereren door op te klikken pictogram, dat een wizard weergeeft om de constructie van het filter te vereenvoudigen.
Nadat u uw gegevensset hebt samengesteld zoals we hier hebben getoond, kunt u beslissen hoe u deze wilt exporteren naar de Exportopties Tab.