Tools om het web vast te leggen en te converteren

Web Scraper-documentatie

Om een ​​webscrape te maken, moet u vijf soorten informatie opgeven, verspreid over de volgende tabbladen.

  1. Schraapopties
  2. Doelwebsite
  3. Schraapinstructies
  4. Exportopties
  5. Schema plannen

Schraapopties

Alle volgende functies zijn beschikbaar om een ​​webscrape aan te passen op het tabblad Scrape-opties.

Naam schrapen de naam van het schraapsel.

Volg links biedt de volgende opties over hoe de krabber links moet volgen:

Negeer bestandsdownloads stel eenmaal koppelingen in, die ervoor zorgen dat een bestand downloaden wanneer bezocht niet worden gedownload.

Negeer Robots.txt-bestand indien ingesteld, kan de krabber de webpagina's bezoeken die normaal gesproken niet worden gecrawld door de eigenaar van de website.

Negeer foutpagina's Indien ingesteld, slaat de webschraper alle webpagina's over die een fout melden. Dus elke HTTP-statuscode 400 of hoger.

Negeer URL-fragmenten indien ingesteld negeert de webschraper het deel van de URL na de # deze functie wordt vaak gebruikt om een ​​bladwijzer op dezelfde pagina aan te duiden en zou er normaal gesproken toe leiden dat onnodige pagina's worden geschrapt. Sommige websites gebruiken deze functie echter om andere inhoud weer te geven, in welk geval deze instelling moet worden uitgeschakeld. Deze optie is alleen van toepassing als de volglinks niet zoals vereist zijn.

Negeer duplicaten indien ingesteld, worden pagina's genegeerd die gelijk zijn aan of groter zijn dan de overeenkomst die u hebt ingesteld. U kunt bijvoorbeeld pagina's negeren die 95% hetzelfde zijn.

Beperk schrapen kunt u opgeven hoeveel pagina's de webschraper moet schrapen voordat deze stopt.

Gebruik mijn tijdzone indien ingesteld, geeft dit aan dat de Web Scraper moet proberen om data te converteren into uw lokale tijdzone. Uw tijdzone kan worden ingesteld op de accountpagina.

Locatie de geografische locatie van waaruit de Web Scraper de scrape uitvoert. Dit kan handig zijn als de doelsite beperkingen heeft op basis van locatie.

Standaard datumformaat bij het converteren van datums waarbij het datumformaat niet kan worden bepaald, zal de Web Scraper in plaats daarvan standaard dit gekozen formaat gebruiken.

Vertraging pagina laden dit is de tijd in milliseconden die de Web Scraper moet wachten voordat hij een pagina parseert. Dit is erg handig als een pagina veel AJAX bevat of langzaam wordt geladen.

Doelwebsite

Doelwebsite

Op het tabblad Doelwebsite geeft u websites op waarvan u gegevens wilt extraheren. Om de scrape-tool te vertellen gegevens van een website te extraheren, moet u eerst de hoofd-URL opgeven die u bent intgeëesteerd in bijv http://www.example.com/shop/ Dit is waar de schraper begint te schrapen, dit kan een normale webpagina, PDF-document, XML-document, JSON-document, RSS-feed of sitemap zijn. Als het geen webpagina of PDF-document is, vindt de krabber alle koppelingen in het bestand en bezoekt u alle koppelingen.

Als u alleen de links in de doel-URL wilt volgen en geen volgende pagina's die u kunt instellen Volg links schraap optie naar op de eerste pagina. Hiermee wordt de doel-URL alleen gebruikt om de rest van het schraapsel te plaatsen.

URL-patroon

Standaard volgt de webschraper elke link die hij ontdekt op elke webpagina die hij bezoekt. Als u wilt beperken welke links de Webschraper Hieronder volgt een eenvoudige manier om dit te doen door een URL-patroon op te geven. Deze krachtige techniek werkt voornamelijk door een URL met een sterretje op te geven als jokerteken om aan te geven dat er tekens in dit deel van het patroon aanwezig kunnen zijn. Bijvoorbeeld http://www.example.com/*/articles/* zou elke URL met artikelen als tweede map uit de root van de website schrapen.

Een meer beperkende manier om een ​​URL-patroon te definiëren, is door alternatieven te definiëren. Dit voorbeeld komt bijvoorbeeld alleen overeen met winkel of nieuws: http://www.example.com/ /*

Daarom zou dit hier bij passen http://www.example.com/store/products/1 maar niet http://www.example.com/about/.

Of het is mogelijk om alles behalve iets te matchen. Dit voorbeeld komt bijvoorbeeld niet overeen met winkel of nieuws: http://www.example.com/ /*

Daarom zou dit hier bij passen http://www.example.com/about/ maar niet http://www.example.com/store/products/1!

Een URL-patroon kan ook trefwoorden bevatten. Een trefwoord is alles wat tussen dubbele vierkante haken staat. Dus [[URL_START]]www.example.com* komt overeen met elke geldige start van een URL, dus http://www.example.com/, https://www.example.com/ of ftp://www.example.com/ bijvoorbeeld.

Seed URL's

Met seed-URL's kan een gebruiker een lijst met URL's opgeven die moeten worden gecrawld door de Web Scraper. Als u alleen wilt dat de seed-URL's worden geschrapt, stelt u de in Volg links schraap opties naar geen pagina's op het tabblad Opties schrapen.

Om Seed-URL's in te stellen op het tabblad Doelwebsite, klikt u op de knop Doel toevoegen en vinkt u vervolgens het selectievakje Seed-URL's instellen aan en geeft u elke URL op die u op een afzonderlijke regel wilt schrappen.

Maak start-URL's van een sjabloon-URL

Als alternatief kunt u automatisch seed-URL's genereren met behulp van een sjabloon-URL, dit is een enkele URL met een URL-variabele. Een URL-variabele geeft een bereik van nummers aan dat moet worden herhaald.

Het startnummer is het nummer waarmee de URL-variabele moet beginnen te tellen, het eindnummer is het nummer waarop de URL-variabele stopt met tellen, het iteratie-nummer is het nummer dat het aantal zal verhogen voor elke iteratie van de URL-variabele.

Bijvoorbeeld voor de volgende sjabloon-URL http://www.example.com/search?pageNo=

Hiermee worden vervolgens de volgende seed-URL's gemaakt:

Post uitvoeren

De URL kan ook een URL met parameters voor POST specificeren, bijvoorbeeld een inlogformulier. Hiertoe geeft u de formulier-URL op in het tekstvak Doel-URL en voegt u de vereiste te gebruiken postparameters toe. Waarden van variabele waarden kunnen ook speciale GrabzIt-variabelen bevatten, zoals:

Schraapinstructies

Schraapinstructies vertellen de Web Scraper welke acties moeten worden uitgevoerd bij het schrapen van de doelwebsite. Op het tabblad Schraapinstructies wordt standaard de schraapassistent weergegeven, waardoor u eenvoudig de schraapinstructies kunt toevoegen die u nodig hebt. Een goed voorbeeld van het gebruik van deze wizard wordt getoond in het productlijst en gedetailleerde scraping tutorial.

Als u klaar bent om te beginnen met schrapen, drukt u op de Nieuwe scrape-instructie toevoegen link.

Hiermee wordt de wizard geopend en wordt de doel-URL automatisch geladen, zodat u onmiddellijk kunt selecteren wat u wilt schrapen. Als een webpagina of PDF-document is geladen, kunt u op een willekeurige link klikken en deze zal normaal werken, bijvoorbeeld navigatie naar een andere webpagina. Totdat je een van de acties onderaan dit scherm kiest, bij deze point klikken op de inhoud selecteren het HTML-element dat u wilt extraheren of manipuleren.

Het eerste dat u moet weten over schraapinstructies, is dat ze standaard op elke webpagina worden uitgevoerd. De manier om dit te stoppen is door het gebruik van sjablonen. Een sjabloon kan worden toegewezen bij het uitvoeren van een actie, zoals klikken op een koppeling, en zodat de scraper telkens wanneer die koppeling wordt bezocht of op die knop klikt, herkent dat deze bij de toegewezen sjabloon hoort. Hiermee kunnen verschillende paginatypen worden gedefinieerd. U hebt bijvoorbeeld een productcategoriepagina die wat overzichtsinformatie bevat en vervolgens een detailpagina die de productinformatie bevat. Beide pagina's zouden waarschijnlijk een andere set schraapinstructies nodig hebben.

Schrapersjabloon

Kies om te beginnen Klik nadat u de items hebt geselecteerd waarop u de actie wilt uitvoeren en vervolgens op hebt geklikt Volgende knop voert u de naam van de sjabloon in de Maak een sjabloon tekstvak nu wanneer de krabber deze acties uitvoert, is de geretourneerde sjabloon de naam die u hebt opgegeven.

Om vervolgens een bepaalde sjabloon toe te wijzen aan een schraapinstructie, moet u de gewenste sjabloon selecteren uit de Uitvoeren in vervolgkeuzelijst, die verschijnt in het optievenster dat verschijnt net voordat de schraapinstructie wordt toegevoegd. De drie hoofdopties bij het kiezen van een sjabloon zijn de volgende:

Nadat u een van deze opties hebt geselecteerd, wordt de schraapinstructie alleen uitgevoerd op de opgegeven sjabloon.

Gegevens extraheren

U zult merken dat wanneer u de selecteert extract gegevens actie. De linkerbenedenhoek van het scherm nodigt u uit om een ​​HTML-element in het bovenstaande venster te selecteren of om een ​​globale pagina-eigenschap te kiezen.

Om een ​​globale pagina-eigenschap te gebruiken, klikt u op de globale pagina-eigenschap koppeling. Bevestig vervolgens dat u wilt doorgaan. U heeft nu een lijst met eigenschappen die rechtstreeks van de pagina kunnen worden geëxtraheerd. Bijvoorbeeld: paginatitel.

Om er een te kiezen, selecteert u deze in de lijst met opties en klikt u op Volgende om de gegevens aan de toe te voegen dataset.

Als u gegevens in specifieke HTML-elementen wilt extraheren in plaats van tot de hele pagina te behoren, moet u op de relevante HTML-elementen klikken, u kunt enkele of meerdere items selecteren. Als u echter meerdere items selecteert, probeer dan meerdere items te selecteren die dan hetzelfde zijn, zoals meerdere rijen in een kolom, want als de scraper geen regel kan maken die de geselecteerde gegevensverzameling uniek kan identificeren, zal een scrape-instructie niet kunnen worden gecreëerd. Als de meerdere items waarop u klikt, zijn geïdentificeerd als herhalende gegevens door onze webschraperwizard, worden alle herhalende gegevens in dezelfde groep automatisch geselecteerd. Nadat u al uw enkele of meerdere items hebt geselecteerd, kiest u een attribuut uit de linkerbenedenhoek van het scherm en klikt u vervolgens op Volgende.

Een gegevensset maken

In het gegevenssetscherm kunt u de manier wijzigen waarop de gegevens worden verwerkt. U kunt bijvoorbeeld de gegevensset en de kolommen erin wijzigen, klik gewoon op de naam om deze te hernoemen. Wanneer u een kolom aan een gegevensset toevoegt, moet u ook de sjabloon kiezen waarin deze moet worden uitgevoerd. U kunt dit wijzigen door op de vervolgkeuzelijst onder de kolomnaam te klikken.

Bij het extraheren van gegevens is het gebruikelijk dat sommige herhalende items inconsistent worden herhaald, om ervoor te zorgen dat de juiste rijen nog steeds aan elkaar zijn gekoppeld, gebruikt u de Kolommen koppelen criteria, om de inconsistente kolommen te koppelen aan de meest consistente kolom in de gegevensset.

Klik op om meer gegevens aan de gegevensset toe te voegen of klik op om gegevens uit de gegevensset te verwijderen, of om de hele dataset te verwijderen. Met de gegevensset kunnen ook verschillende criteria op de gegevens worden toegepast. Selecteer hiervoor de gewenste actie bovenaan en klik vervolgens op de relevante kolom om de criteria toe te passen. Als u een fout maakt door criteria toe te voegen, klikt u op knop.

Hier is de lijst met verschillende soorten criteria en hoe ze te gebruiken:

Wanneer u een van de bovenstaande bewerkingen hebt geselecteerd en het meerdere kolommen kan beïnvloeden, wordt u gevraagd of u alleen wilt toestaan ​​dat het invloed heeft op een subset van de kolommen of alle kolommen. In de meeste gevallen wilt u dat het alle kolommen beïnvloedt, maar in sommige omstandigheden is het handig om de betreffende kolommen te beperken. Als u bijvoorbeeld een reeks selecteert labels en waarden, die de positie op webpagina's wijzigen, kunt u alle labels en waarden selecteren. Gebruik vervolgens in de gegevensset de bewerking is gelijk aan om het te beperken tot het gewenste label en geef aan dat alleen het label en de waardekolommen moeten worden beïnvloed. Dit zorgt ervoor dat de andere kolommen niet worden beïnvloed door rijen die worden verwijderd, voor de volledigheid zou het handig zijn om de labelkolom te verbergen.

Nadat u alles wat u wilt hebt gewijzigd, klikt u op Volgende en uw schraapinstructies zullen aan het schrapen worden toegevoegd. U heeft dan de mogelijkheid om desgewenst verdere schraapinstructies toe te voegen.

Een webpagina manipuleren

Een webpagina kan worden gemanipuleerd voordat deze wordt geschraapt, door te klikken, te typen en waarden te selecteren in vervolgkeuzelijsten. Het is belangrijk om te onthouden dat hoewel dit ertoe kan leiden dat een nieuwe webpagina de scrape-instructies laadt, niet opnieuw wordt gestart voordat alle toepasselijke scrape-instructies zijn uitgevoerd.

Kies een om een ​​webpagina te bewerken Klik op Element, Beweeg element, Rol, Typ Text or Selecteer de vervolgkeuzelijstwaarde acties. Als u een klikactie uitvoert, kunt u op een willekeurig aantal elementen op een webpagina klikken. Anders moet u een geschikt HTML-element selecteren, bijvoorbeeld moet tekst in een tekstvak worden getypt. Dan klikken Volgende. Dit opent een optievak waarmee u de actie kunt voltooien. Bij het typen van tekst en het selecteren uit een vervolgkeuzelijst moeten de gegevens die moeten worden getypt of geselecteerd, respectievelijk worden gekozen. Anders dan dat, zijn de opties voor alle drie acties hetzelfde.

Als u wilt, kunt u de sjabloon selecteren waarin deze actie moet worden uitgevoerd en voor de klikactie welke sjabloon van toepassing is, zodra de klikactie is voltooid. Het is echter geen goed idee om een ​​nieuwe sjabloon toe te wijzen aan een klikactie die meerdere klikken op dezelfde pagina uitvoert, zoals het openen van inline pop-ups of dingen op het scherm laten verschijnen. Dit omdat als de klikactie alleen op bepaalde sjablonen wordt uitgevoerd, de nieuwe sjabloon die door de eerste klik is toegewezen, niet opnieuw wordt ingesteld en daarom, afhankelijk van de manier waarop het schrapen is geschreven, kan voorkomen dat toekomstige klikken op dezelfde pagina worden uitgevoerd. Je kunt ook bepalen of je deze actie maar één keer wilt uitvoeren, wat handig is als je zoiets als inloggen doet intoa website.

Met de acties Tekst typen of Selecteer vervolgkeuzelijst Waarde kunt u meerdere tekstitems typen of meerdere selectievakjes selecteren. Deze kunnen worden bewerkt door op de instructies voor schrapen te klikken Wijzig of bekijk variabelen knop, zoals weergegeven in de schermafbeelding links.

Dit kan belangrijk zijn als u bijvoorbeeld een lijst met namen in een zoekvak wilt typen. Om ervoor te zorgen dat een formulier alleen wordt verzonden als er een waarde in het zoekvak staat, kan een sjabloon worden ingesteld telkens wanneer de tekst met succes wordt getypt into het tekstvak en de klikactie op een knop worden niet uitgevoerd tenzij deze sjabloon is ingesteld. Nadat de klikactie is uitgevoerd, moet de sjabloon worden gewijzigd in iets anders om de procedure te resetten.

Nadat acties die websites manipuleren zijn uitgevoerd, is het handig om even te wachten als de acties de AJAX-functionaliteit initiëren, om de AJAX-inhoud te laden voordat u verdergaat met het schrapen. U kunt dit doen door een vertraging toe te voegen in de Na uitvoering Wacht tekstvak.

Misschien wilt u direct naar een andere URL gaan zodra aan een voorwaarde is voldaan. Gebruik hiervoor de Ga naar URL actie, die alleen zal verschijnen wanneer ten minste één sjabloon is gedefinieerd in de scrape en wanneer deze is gemaakt, moet worden toegewezen aan een sjabloon om oneindige lussen te voorkomen.

Eindelijk kunt u alle capture-API's van GrabzIt gebruiken in uw web-scrapes, kies gewoon de Capture Webpage-actie en kies de gewenste capture. U kunt dit beperken om bepaalde webpagina's binnen het scrape vast te leggen door een sjabloon op te geven om uit te voeren zodra u de selecteert Volgende knop.

Nadat elke schraapinstructie is toegevoegd, is deze zichtbaar in het schraapinstructiepaneel. Met het kruisje naast elke schraapinstructie kan de schraapinstructie worden verwijderd. Als een schraapinstructie wordt verwijderd die vereist is door andere schraapinstructies, worden die instructies ook verwijderd. U kunt de volgorde van de schraapinstructies wijzigen door eventuele schraapinstructies met het grijppictogram te slepen.

Handmatig schraapinstructies schrijven

Als u de schraapinstructies op een meer specifieke manier wilt aanpassen, moet u de schraapinstructies handmatig wijzigen.

De schraapinstructies zijn gebaseerd op JavaScript en de code-editor wordt compleet geleverd met een syntaxiscontrole, automatisch aanvullen en knopinfo om het zo gemakkelijk mogelijk te maken.

Webschraper Instructies De kernfunctionaliteit van de code-editor is toegankelijk via de menu-opties, zoals weergegeven in de screenshot, het doel van elk wordt hieronder afzonderlijk uitgelegd. Terwijl syntaxisfouten in uw schraapinstructies worden aangegeven in de linker goot van de code-editor.

tovenaar met de wizard kunt u delen van de pagina selecteren die u wilt extraheren en andere veelvoorkomende taken uitvoeren, zoals het maken van webafbeeldingen.

Instructies voor schrapen weergeven geeft de schraapinstructiecode weer aan de gebruiker.

Verwijder alle instructies verwijdert alle schraapinstructies.

Webpagina Functies voert het trefwoord Page in into de schraapinstructies en open de auto-complete, die alle mogelijke bevat Pagina functies. Met de pagina-functies kunt u gegevens van de webpagina extraheren.

Gegevensfuncties voert u het trefwoord Data in into de schraapinstructies. Gegevens functies staat u toe save informatie.

Navigatiefuncties voert het trefwoord Navigatie in into de code-editor. De Navigatiefuncties kunt u bepalen hoe de Web Scraper door de doelwebsite navigeert.

Wereldwijde functies voert het trefwoord Global in into de schraapinstructies. Dit geeft u toegang tot functies die gegevens kunnen opslaan tussen het parseren van verschillende webpagina's. Wanneer u schraapinstructies schrijft, is het belangrijk om te onthouden dat de status van JavaScript-variabelen in de schraapinstructies niet wordt bewaard wanneer de schraper tussen webpagina's wordt verplaatst, tenzij u de Global-functies gebruikt om save variabelen, zoals hieronder weergegeven.

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

Ga als volgt te werk om een ​​persistente globale variabele door te geven aan de parameter persist in de methode Global.set.

Global.set("myvariable", "hello", true);

Utility functies voert het sleutelwoord Utility in into de schraapinstructies. Hiermee kunt u gebruiken gemeenschappelijke functies die schrijven gemakkelijker maken, zoals het toevoegen of verwijderen van zoekopdrachtenstring parameters van URL's.

Criteria Functies voert het criterium Sleutelwoord in into de schraapinstructies. Deze functies kunt u de gegevens verfijnen die tijdens uw scrape worden geëxtraheerd, zoals het verwijderen van duplicaten.

FILTER kunt u eenvoudig een filter maken, dit is vereist voor sommige functies om een ​​bepaald HTML-element te selecteren vanuit een webpagina. Selecteer eenvoudig de attributen die uw doelelement moet hebben en / of de ouder (s) van het element moet dat element selecteren. Zorg ervoor dat voordat u op deze optie klikt, uw cursor op de juiste plaats in de functie staat om ook het filter te passeren.

Schermfuncties kunt u screenshotopties instellen. Plaats de cursor gewoon in het juiste deel van de functie, zoals aangegeven door de knopinfo en druk op de screenshotopties. Kies vervolgens alle gewenste opties en voer de opdracht in.

Strings

Strings worden gebruikt in schraapinstructies, bij het uitvoeren van een webschraap, om tekst te definiëren. EEN string wordt gescheiden door dubbele (") of enkele aanhalingstekens ('). Als een string is begonnen met een dubbele aanhalingsteken, het moet eindigen met een dubbele aanhalingsteken, als string begint met een enkele quote, het moet eindigen met een enkele quote. Bijvoorbeeld:

"my-class" en 'my-class'

Een veel voorkomende fout die kan optreden, is de niet-afgesloten string fout, dit is wanneer een string heeft geen slotcitaat zoals hierboven weergegeven of er staat een regeleinde in de string. Het volgende is illegaal strings:

"my
class"

"my class

Om deze fout op te lossen, moet u ervoor zorgen dat ze geen regeleinden bevatten en overeenkomende aanhalingstekens hebben, zoals hier:

"my class" en "my class"

Soms wilt u een enkel of dubbel citaat in een string. De eenvoudigste manier om dit te doen is om een ​​enkel citaat in een string gescheiden door dubbele aanhalingstekens en een dubbele aanhalingstekens in een string gescheiden door enkele aanhalingstekens, zoals:

"Bob's shop" en '"The best store on the web"'

Als alternatief kunt u een backslash gebruiken om aan een dergelijke quote te ontsnappen:

'test\'s'

Algemene handmatige schraaptaken

Link Checker Maak een aangepaste koppelingscontrole - ontdek hoe u een aangepaste koppelingscontrole kunt maken door deze eenvoudige instructies te volgen.
Afbeelding downloaden Download alle afbeeldingen van een website - ontdek hoe u alle afbeeldingen van een hele website kunt downloaden.
Maak dataset Gegevens extraheren en transformeren intoa dataset - ontdek hoe u een gegevensset kunt maken van de website die u scrapt.
Links extraheren Extract links van een website - ontdek hoe u alle HTML-links van een hele website kunt extraheren en save ze in het formaat dat u wenst.
Selecteer tekst Waarden uit tekst extraheren met behulp van patronen - ontdek hoe u patronen kunt gebruiken om waarden uit tekstblokken te extraheren.
OCR Extraheer tekst uit afbeeldingen - ontdek hoe u tekst uit afbeeldingen kunt extraheren.
dataset Een gegevensset opvullen - formatteer uw geëxtraheerde gegevens beter met behulp van padding.
reeks Arrays manipuleren - ontdek hoe u de speciale array-hulpprogramma's kunt gebruiken om eenvoudig arrays in kladjes te verwerken.
Actie Voer een actie slechts eenmaal uit tijdens een schraapbeurt - ontdek hoe u een actie slechts eenmaal tijdens een volledige schraap kunt uitvoeren.
Verfijnen Geschraapte gegevens verfijnen - ontdek hoe u niet-vereiste gegevens uit uw kladjes kunt verwijderen.
Email adres Schraap e-mailadressen van een website - ontdek hoe u alle e-mailadressen van een website kunt schrapen.
screenshot Schermafbeelding hele website into PDF's of afbeeldingen - ontdek hoe u GrabzIt's Web Scraper kunt gebruiken om elke pagina van een volledige website vast te leggen.
screenshot Extraheer gestructureerde informatie uit ongestructureerde tekst - gebruik GrabzIt om sentiment, namen, locaties en organisaties te extraheren.

Andere inhoud dan HTML schrapen

Wanneer de Web Scraper PDF's, XML, JSON en RSS tegenkomt, wordt deze omgezet in een HTML-benadering, waardoor onze Web Scraper het correct kan parseren en u kunt selecteren welke inhoud u wilt extraheren. Als u bijvoorbeeld JSON-gegevens wilt parseren, worden de gegevens geconverteerd intoa hiërarchische HTML-weergave zoals hiernaast weergegeven. Hiermee kunt u zoals gewoonlijk instructies voor het schrapen samenstellen.

Op dezelfde manier wordt de PDF geconverteerd wanneer de krabber een PDF-document laadt into HTML om afbeeldingen, hyperlinks, tekst en tabellen te selecteren en te schrapen. Aangezien een PDF echter geen echte structuur heeft, worden tabellen geïdentificeerd met behulp van heuristieken en zijn ze dus niet altijd nauwkeurig.

Exportopties

Op dit tabblad kunt u kiezen hoe u uw resultaten wilt exporteren, uw opties inclusief Excel-spreadsheets, XML, JSON, CSV, SQL-opdrachten of HTML-documenten. Bovendien kunt u met dit tabblad de naam van de geschraapte schraapresultaten instellen. Als u alleen bestanden downloadt of web-opnames maakt, hoeft u geen exportoptie te kiezen, omdat u alleen een ZIP-bestand met de resultaten ontvangt. Op dit tabblad kunt u ook opgeven hoe u de resultaten wilt verzenden. U kunt de resultaten verzenden via Amazon S3, dropbox, E-mail notificatie, FTP en WebDav.

De laatste optie is een terugbel-URL, waarmee de schraapresultaten kunnen worden verwerkt in uw toepassing met behulp van onze schraap-API.

De bestandsnaam van de gecomprimeerde resultaten of elk gegevensbestand als u vraagt ​​om ze afzonderlijk te verzenden, kan worden ingesteld door de optie Standaardbestandsnaam gebruiken uit te schakelen en de gewenste bestandsnaam in te stellen. Bovendien kan een tijdstempel aan uw bestandsnaam worden toegevoegd door {GrabzIt_Timestamp_UTC+1} in de bestandsnaam. De +1 geeft het verschil in uren ten opzichte van UTC aan.

U kunt de resultaten van een scrape ook bekijken door op de Bekijk resultaten knop, naast je schrapen, dit toont alle realtime schraapresultaten, evenals eerdere resultaten die in de afgelopen 48 uur zijn uitgevoerd.

Schema plannen

Wanneer u een webscrape maakt, kunt u op het tabblad Schedule Scrape instellen wanneer u wilt dat de scrape begint en, als u wilt dat deze wordt herhaald, hoe vaak dit moet gebeuren. De scrape kan ook worden geconfigureerd om te worden uitgevoerd wanneer een wijziging op een webpagina wordt gedetecteerd. Om dit te doen Start Wanneer een webpagina verandert selectievakje in en voer vervolgens de URL in van de webpagina die u wilt controleren, samen met de CSS-selector van het deel van de pagina dat u bent intErested in. Het is belangrijk dat een klein deel van de pagina wordt geselecteerd om valse positieven als gevolg van onbelangrijke wijzigingen te voorkomen.

Scrapes controleren en debuggen

Zodra het webschrapen begint, verandert het statuspictogram in en de verwerkte pagina's beginnen na verloop van tijd toe te nemen. Er wordt regelmatig een realtime momentopname gemaakt van de voortgang van de kladjes, waarbij een logbestand wordt gegenereerd, samen met een normale schermafbeelding van de laatste webpagina die de schraper is tegengekomen. Hiermee kunt u zien wat er gebeurt tijdens het schrapen. Om deze informatie te vinden, klikt u op het pictogram Uitvouwen naast uw krabber en klikt u op Kijker voor het schrapen dat je bent interin. Dit moet gedetailleerd zijn als er fouten zijn opgetreden, zoals problemen met uw schraapinstructies.

Nadat het schrapen is voltooid, schakelt het statuspictogram naar , als er geen resultaat is door de Viewer te openen, kunnen het logboek en de laatste screenshot u vertellen wat er mis is gegaan.

Een van de meest voorkomende problemen die in de logboeken worden gemeld, is dat er niet voldoende vertraging is bij het rennen van de pagina, vaak een kleine toename van de Vertraging pagina laden gevonden in de Schraapopties tabblad is voldoende voor de meeste websites.