Tools om het web vast te leggen en te converteren

Extract links van een website

Dit voorbeeld is ook beschikbaar als een sjabloon.

Een veel voorkomende taak is het extraheren van links van een website, met name HTML-links. Gelukkig is dit gemakkelijk bij gebruik GrabzIt is Web Scraper. Maak eerst een nieuwe scrape met de normale details zoals de startpagina van de scrape en eventuele andere opties.

Ga dan naar de Schraapinstructies Tab en klik op de knop Knop webpagina knop. Dit komt in de Page trefwoord into de schraapinstructies en zal een drop-down openen. kiezen getTagAttributes van de lijst. Volgende toevoegen 'href' als de eerste parameter vertelt dit de Web Scraper om het href-kenmerk te extraheren en vervolgens een komma te typen.

Klik vervolgens op de Filter knop Hiermee kunt u de Web Scraper vertellen uit welke elementen het href-kenmerk moet worden geëxtraheerd. Zorg ervoor dat in het filtervenster het type is ingesteld op 'Webpagina' en dat de beperking 'tagnaam' en 'gelijk aan' is. Voer vervolgens in a in het tekstvak en klik vervolgens op de knop Toevoegen en vervolgens op Filter invoegen. Voltooi de instructie door een puntkomma aan het einde van de regel toe te voegen.

Je zou moeten blijven zitten met zoiets als wat hieronder wordt getoond.

Page.getTagAttributes('href', {"tag":{"equals":"a"}});

De bovenstaande code haalt alle link-URL's uit de webpagina, maar dat moeten we nu doen save die link-URL's. Om dit te doen zullen we dit commando minus de puntkomma in een wikkelen Data.save commando. Ga hiervoor naar het begin van de regel en selecteer de Gegevensknop knop. Selecteer vervolgens in de vervolgkeuzelijst save, ga dan naar het einde van de regel en voeg een komma toe. Voeg vervolgens toe wat u de gegevensset wilt noemen, zoals 'Mijn website', voeg vervolgens een andere komma toe en voeg vervolgens een andere parameter toe om de kolom te beschrijven zoals 'Links' en sluit de opdracht met een ) voor de puntkomma.

U zou nu de volgende schraapinstructies moeten hebben.

Data.save(Page.getTagAttributes('href', {"tag":{"equals":"a"}}), 'My Websites', 'Links');

Als je nu de scrape uitvoert, extraheer je alle links van de website. Hiermee wordt een tabel gemaakt met de naam van Mijn websites, met een kolomnaam van Links die vervolgens kunnen worden geëxporteerd into veel verschillende formaten zoals XML, CSV of een spreadsheet. Deze zelfstudie had ook kunnen worden gerealiseerd met behulp van de wizardknop op de werkbalk Instructies schrapen.