Tools om het web vast te leggen en te converteren

Productlijst en detailpagina's schrapen

Op websites is er vaak een zoekpagina die een lijst met items bevat, waarbij elk item een ​​beknopte beschrijving krijgt met een link naar een detailpagina met diepgaande informatie over het item.

Omdat deze structuur zo vaak wordt gebruikt, is het vaak nodig om wat informatie over elk item van de zoekpagina en de rest van de detailpagina te schrapen. Dit artikel geeft richtlijnen voor het schrapen van dergelijke informatie.

Voer eerst de URL in van de productlijstpagina die u wilt schrapen. Selecteer vervolgens de informatie die u wilt selecteren op de productlijstpagina. Zorg ervoor dat alle voorbeelden van de gegevens zijn geselecteerd.

Klik vervolgens op de pagina met instructies voor schrapen Schraapinstructie toevoegen.

Het eerste dat u moet weten, is dat onze schraper op precies dezelfde manier werkt als een browser, dus als er een cookiebeveiligingsmelding of een andere inline pop-up is waardoor u niet op de pagina klikt, moet u de schraper opdracht geven de pop-up te sluiten voordat de rest van het schrapen kan worden gedaan. Op de meeste van deze pop-ups hoeft maar één keer te worden geklikt en u kunt GrabzIt vertellen hetzelfde te doen. Gebruik hiervoor de Klik op Element actie en klik op het HTML-element dat nodig is om de pop-up te sluiten. Klik vervolgens op de optie Eenmalig Save en verder.

Kies vervolgens de extract gegevens actie en selecteer vervolgens de gegevens die u wilt extraheren. Dus als u de titel van een item wilt selecteren, uit de lijst met zoekresultaten. Zorg ervoor dat elke titel in die lijst is geselecteerd.

Onze wizard probeert automatisch gegevenssets te identificeren en kan automatisch meer informatie selecteren dan u wilt. Als dit gebeurt, klikt u nogmaals op de items die u niet wilt selecteren en ze worden niet langer opgenomen. Dit leert onze webschraper wat te extraheren.

Kies nu het kenmerk van het gegevensitem dat u wilt extraheren. Zoals 'Tekst' en klik vervolgens op Volgende. Geef het op het volgende scherm een ​​titel. Merk op dat u hier wilt dat alle gegevens de standaardsjabloon gebruiken. Dit komt omdat u wilt dat de gegevens worden geëxtraheerd wanneer deze zich niet op een speciale sjabloon bevinden.

Nadat u alle itemgegevens hebt geselecteerd die u wilt extraheren van de productzoekpagina. Selecteer alle links voor meer informatie op de productdetailpagina. Dit kan bijvoorbeeld de afbeelding zijn. Klik vervolgens op de Klik op Element actie. Stel de sjabloon in op "detail" en wacht vijf seconden en klik op Volgende. Kies Ja als u wordt gevraagd of u gegevens van de nieuwe pagina wilt extraheren. Selecteer nu de gegevens die u eerder wilt extraheren. Maar geef dit keer op dat het moet worden uitgevoerd onder de sjabloon "detail".

Voeg nog een schraapinstructie toe en ga terug naar de hoofdpagina. Selecteer deze keer de volgende knop uit de paginatielinks. Wanneer de Klik op actie keuzevak verschijnt, selecteer de knop volgende pagina optie. Op deze manier weet de schraper dat deze knop eigenlijk een paginatieknop is en door alle resultaten zal pagineren. Zorg ervoor dat u deze schraapinstructie als laatste hebt. Als dit niet de laatste schraapinstructie is, kan deze naar het einde worden gesleept.

Ga vervolgens naar het schematabblad en klik op Maken om het schrapen te starten. U kunt de voortgang van het schrapen in realtime bekijken op de pagina Scrapes beheren door te klikken op het rijpictogram en vervolgens op het viewerpictogram van het schrapen.