Tools om het web vast te leggen en te converteren

Web Scraper-documentatie

Om een ​​webscrape te maken, moet u vijf soorten informatie opgeven, verspreid over de volgende tabbladen.

  1. Schraapopties
  2. Target websites
  3. Schraapinstructies
  4. Exportopties
  5. Schema plannen

Schraapopties

Alle volgende functies zijn beschikbaar om een ​​webscrape aan te passen op het tabblad Scrape-opties.

Naam schrapen de naam van het schraapsel.

Volg links biedt de volgende opties over hoe de krabber links moet volgen:

  • indien nodig - de standaardinstelling en de veiligste optie, hierdoor zal de schraper alleen de links volgen waartoe hij is opgedragen
  • alle pagina's - de krabber volgt elke link die hij vindt
  • eerste pagina - volg alleen de links op de eerste pagina, gespecificeerd als het doel
  • tot n pagina's vanaf de eerste pagina - volg alleen links op pagina's met het opgegeven aantal klikken vanaf de eerste pagina
  • in frames - volg links in frames en iframes

Negeer Robots.txt-bestand indien ingesteld, kan de krabber de webpagina's bezoeken die normaal gesproken niet worden gecrawld door de eigenaar van de website.

Negeer bestandsdownloads stel eenmaal koppelingen in, die ervoor zorgen dat een bestand downloaden wanneer bezocht niet worden gedownload.

Negeer duplicaten indien ingesteld, worden pagina's genegeerd die gelijk zijn aan of groter zijn dan de overeenkomst die u hebt ingesteld. U kunt bijvoorbeeld pagina's negeren die 95% hetzelfde zijn.

Beperk schrapen kunt u opgeven hoeveel pagina's de webschraper moet schrapen voordat deze stopt.

Gebruik mijn tijdzone indien ingesteld, geeft dit aan dat de Web Scraper moet proberen om data te converteren into uw lokale tijdzone. Uw tijdzone kan worden ingesteld op de accountpagina.

Locatie de geografische locatie van waaruit de Web Scraper de scrape uitvoert. Dit kan handig zijn als de doelsite beperkingen heeft op basis van locatie.

Standaard datumformaat bij het converteren van datums waarbij het datumformaat niet kan worden bepaald, zal de Web Scraper in plaats daarvan standaard dit gekozen formaat gebruiken.

Vertraging pagina laden dit is de tijd in milliseconden die de Web Scraper moet wachten voordat hij een pagina parseert. Dit is erg handig als een pagina veel AJAX bevat of langzaam wordt geladen.

Target websites

Target websites

Op het tabblad Target websites geeft u websites op waarvan u gegevens wilt extraheren. Om de scrape-tool te vertellen dat hij gegevens van een website moet extraheren, moet u eerst de hoofd-URL opgeven die u bent intgeëesteerd in bijv http://www.example.com/shop/ Dit is waar de schraper begint te schrapen, dit kan een normale webpagina, PDF-document, XML-document, JSON-document, RSS-feed of sitemap zijn. Als het geen webpagina of PDF-document is, vindt de krabber alle koppelingen in het bestand en bezoekt u alle koppelingen.

Als u alleen de links in de doel-URL wilt volgen en geen volgende pagina's die u kunt instellen Volg links schraap optie naar op de eerste pagina. Hiermee wordt de doel-URL alleen gebruikt om de rest van het schraapsel te plaatsen.

Standaard volgt de webschraper elke link die hij ontdekt op elke webpagina die hij bezoekt. Als u wilt beperken welke links de Webschraper volgt, een eenvoudige manier om dit te doen is om een ​​URL-patroon op te geven. Dit werkt door een URL met de asterisk op te geven als jokerteken om aan te geven dat er tekens in dit deel van het patroon kunnen voorkomen. Bijvoorbeeld http://www.example.com/*/articles/* zou elke URL met artikelen als tweede map uit de root van de website schrapen.

De URL kan ook een URL met parameters voor POST specificeren, bijvoorbeeld een inlogformulier. Hiertoe geeft u de formulier-URL op in het tekstvak Doel-URL en voegt u de vereiste te gebruiken postparameters toe. Waarden van variabele waarden kunnen ook speciale GrabzIt-variabelen bevatten, zoals:

  • {{day}} - dag als een tweecijferige waarde
  • {{month}} - maand als een tweecijferige waarde
  • {{year}} - jaar als een waarde van vier cijfers
  • {{hour}} - uur als een tweecijferige waarde
  • {{minute}} - minuut als een tweecijferige waarde
  • {{second}} - seconde als een tweecijferige waarde

Eindelijk kunt u opgeven Seed URL's om ervoor te zorgen dat die URL's worden geschraapt.

Seed URL's

Met seed-URL's kan een gebruiker een lijst met URL's opgeven die moeten worden gecrawld door de Web Scraper. Als u alleen wilt dat de seed-URL's worden geschrapt, stelt u de in Volg links schraap opties naar geen pagina's op het tabblad Opties schrapen.

Om seed-URL's in te stellen op het tabblad Target-websites, klikt u op de knop Target toevoegen en vinkt u het selectievakje Seed-URL's instellen aan en geeft u elke URL op die u op een afzonderlijke regel wilt schrapen.

Maak start-URL's van een sjabloon-URL

Als alternatief kunt u automatisch seed-URL's genereren met behulp van een sjabloon-URL, dit is een enkele URL met een URL-variabele. Een URL-variabele geeft een bereik van nummers aan dat moet worden herhaald.

{{start number|finish number|iterate number}}

  • startnummer het nummer waarmee de URL-variabele begint
  • eind nummer het nummer waarop de URL-variabele eindigt
  • itereer nummer het nummer waarmee de URL-variabele wordt herhaald

Het startnummer is het nummer waarmee de URL-variabele moet beginnen te tellen, het eindnummer is het nummer waarop de URL-variabele stopt met tellen, het iteratie-nummer is het nummer dat het aantal zal verhogen voor elke iteratie van de URL-variabele.

Bijvoorbeeld voor de volgende sjabloon-URL http://www.example.com/search?pageNo={{1|3|1}}

Hiermee worden vervolgens de volgende seed-URL's gemaakt:

  • http://www.example.com/search?pageNo=1
  • http://www.example.com/search?pageNo=2
  • http://www.example.com/search?pageNo=3

Schraapinstructies

Instructies voor het schrapen vertellen de Web Scraper welke acties moeten worden uitgevoerd bij het schrapen van de doelsite (s). Het tabblad Schraapinstructies toont standaard de schraapwizard, waardoor u eenvoudig de schraapinstructies kunt toevoegen die u nodig hebt. Om te beginnen drukt u op Nieuwe scrape-instructie toevoegen link.

Hiermee wordt de wizard geopend en wordt de doel-URL automatisch geladen, zodat u onmiddellijk kunt selecteren wat u wilt schrapen. Als een webpagina of PDF-document is geladen, kunt u op een willekeurige link klikken en deze zal normaal werken, bijvoorbeeld navigatie naar een andere webpagina. Totdat je een van de acties onderaan dit scherm kiest, bij deze point klikken op de inhoud selecteren het HTML-element dat u wilt extraheren of manipuleren.

Het eerste dat u moet weten over schraapinstructies, is dat ze standaard op elke webpagina worden uitgevoerd. De manier om dit te stoppen is door het gebruik van sjablonen. Een sjabloon kan worden toegewezen bij het uitvoeren van een actie, zoals klikken op een koppeling, en zodat de scraper telkens wanneer die koppeling wordt bezocht of op die knop klikt, herkent dat deze bij de toegewezen sjabloon hoort. Hiermee kunnen verschillende paginatypen worden gedefinieerd. U hebt bijvoorbeeld een productcategoriepagina die wat overzichtsinformatie bevat en vervolgens een detailpagina die de productinformatie bevat. Beide pagina's zouden waarschijnlijk een andere set schraapinstructies nodig hebben.

Schrapersjabloon

Kies om te beginnen Klik nadat u de items hebt geselecteerd waarop u de actie wilt uitvoeren en vervolgens op hebt geklikt volgende knop voert u de naam van de sjabloon in de Maak een sjabloon tekstvak nu wanneer de krabber deze acties uitvoert, is de geretourneerde sjabloon de naam die u hebt opgegeven.

Om vervolgens een bepaalde sjabloon toe te wijzen aan een schraapinstructie, moet u de gewenste sjabloon selecteren uit de Uitvoeren in vervolgkeuzelijst, die verschijnt in het optievenster dat verschijnt net voordat de schraapinstructie wordt toegevoegd. De drie hoofdopties bij het kiezen van een sjabloon zijn de volgende:

  • Alle pagina's - gebruik geen sjabloon, voor deze schraapinstructie. De schraapinstructie wordt op alle webpagina's uitgevoerd.
  • Standaardsjabloon - gebruik geen van de door de gebruiker gedefinieerde sjabloon. De schraapinstructie wordt uitgevoerd op elke webpagina waarvoor geen sjabloon is opgegeven.
  • Door gebruiker gedefinieerde sjabloon - een van de sjablonen die door u zijn gedefinieerd om een ​​bepaalde webpagina of actie te identificeren.

Nadat u een van deze opties hebt geselecteerd, wordt de schraapinstructie alleen uitgevoerd op de opgegeven sjabloon.

Gegevens extraheren

U zult merken dat wanneer u de selecteert extract gegevens actie een reeks uit te pakken gegevensitems wordt onmiddellijk beschikbaar om te downloaden in de linkeronderhoek van het scherm. Dit zijn eigenschappen van de hele pagina die u kunt downloaden. Om er een te kiezen, selecteert u deze gewoon in de lijst met opties en klikt u op volgende om de gegevens aan de toe te voegen dataset.

Als u gegevens in specifieke HTML-elementen wilt extraheren in plaats van tot de hele pagina te behoren, moet u op de relevante HTML-elementen klikken, u kunt enkele of meerdere items selecteren. Als u echter meerdere items selecteert, probeer dan meerdere items te selecteren die dan hetzelfde zijn, zoals meerdere rijen in een kolom, want als de scraper geen regel kan maken die de geselecteerde gegevensverzameling uniek kan identificeren, zal een scrape-instructie niet kunnen worden gecreëerd. Als de meerdere items waarop u klikt, zijn geïdentificeerd als herhalende gegevens door onze webschraperwizard, worden alle herhalende gegevens in dezelfde groep automatisch geselecteerd. Nadat u al uw enkele of meerdere items hebt geselecteerd, kiest u een attribuut uit de linkerbenedenhoek van het scherm en klikt u vervolgens op volgende.

Een gegevensset maken

In het gegevenssetscherm kunt u de manier wijzigen waarop de gegevens worden verwerkt. U kunt bijvoorbeeld de gegevensset en de kolommen erin wijzigen, klik gewoon op de naam om deze te hernoemen. Wanneer u een kolom aan een gegevensset toevoegt, moet u ook de sjabloon kiezen waarin deze moet worden uitgevoerd. U kunt dit wijzigen door op de vervolgkeuzelijst onder de kolomnaam te klikken.

Bij het extraheren van gegevens is het gebruikelijk dat sommige herhalende items inconsistent worden herhaald, om ervoor te zorgen dat de juiste rijen nog steeds aan elkaar zijn gekoppeld, gebruikt u de Kolommen koppelen criteria, om de inconsistente kolommen te koppelen aan de meest consistente kolom in de gegevensset.

Klik op om meer gegevens aan de gegevensset toe te voegen of klik op om gegevens uit de gegevensset te verwijderen, of om de hele dataset te verwijderen. Met de gegevensset kunnen ook verschillende criteria op de gegevens worden toegepast. Selecteer hiervoor de gewenste actie bovenaan en klik vervolgens op de relevante kolom om de criteria toe te passen. Als u een fout maakt door criteria toe te voegen, klikt u op knop.

Hier is de lijst met verschillende soorten criteria en hoe ze te gebruiken:

  • Beperk rijen - hierdoor wordt het aantal rijen dat van de webpagina wordt geëxtraheerd beperkt tot het aantal dat u definieert. Om te gebruiken klik en klik vervolgens op de rij daarbuiten die u wilt afsnijden.
  • herhaling - herhaalt kolomitems totdat de kolom overeenkomt met de lengte van de langste kolom. Klik gewoon om te gebruiken en klik vervolgens op de kolom waarvoor u de items wilt herhalen.
  • Maak uniek - verwijdert alle dubbele waarden voor alle ingevoerde waarden inteen kolom. Klik gewoon om te gebruiken en klik vervolgens op de kolom die u uniek wilt maken.
  • Waarden extraheren - geef een patroon op om alleen de overeenkomende gegevens uit een tekstblok te extraheren. Klik gewoon om te gebruiken , selecteer de relevante kolom en volg de instructies om een ​​patroon te maken dat de relevante gegevens uit de retourneert string.
  • Waarden bijsnijden - geef een patroon op om overbodige tekst bij te snijden. Klik gewoon om te gebruiken , selecteer de relevante kolom en volg de instructies om een ​​patroon te maken waarmee de tekst wordt bijgesneden.
  • Kolommen koppelen - kolommen kunnen aan elkaar worden gekoppeld. Zodat records bij het extraheren van gegevens in dezelfde rij verschijnen als de relatieve rij in de gekoppelde kolom, zelfs als het aantal resultaten niet overeenkomt. Klik gewoon om te gebruiken , selecteer de kolom om te koppelen en vervolgens de kolom om te koppelen.
  • Kolom verbergen - soms wilt u een kolom opnemen om op te filteren maar wilt u de waarden niet in het eindresultaat opnemen. Klik hiervoor op , selecteer de kolom die u wilt uitsluiten.
  • Oplopend sorteren - sorteert per kolom, oplopend. Om te gebruiken klik en kies vervolgens de kolom om op te sorteren.
  • Aflopend sorteren - sorteert per kolom, aflopend. Om te gebruiken klik en kies vervolgens de kolom om op te sorteren.
  • Bevat - neem alleen waarden op die de gedefinieerde waarde bevatten. Om te gebruiken klik selecteer de gewenste kolom en voer vervolgens de waarde in die de kolomwaarden moeten bevatten.
  • Gelijk aan - neem alleen waarden op die gelijk zijn aan de gedefinieerde waarde. Om te gebruiken klik selecteer de gewenste kolom en voer vervolgens de waarde in waaraan de kolomwaarden gelijk moeten zijn.
  • Niet gelijk aan - neem alleen waarden op die niet gelijk zijn aan de gedefinieerde waarde. Om te gebruiken klik selecteer de gewenste kolom en voer vervolgens de waarde in waaraan de kolom niet gelijk moet zijn.
  • Minder dan - neem alleen waarden op die kleiner zijn dan de gedefinieerde waarde. Om te gebruiken klik om de gewenste kolom te selecteren en vervolgens de waarde in te voeren die de kolom kleiner dan moet zijn.
  • Groter dan - neem alleen waarden op die groter zijn dan de gedefinieerde waarde. Om te gebruiken klik om de gewenste kolom te selecteren en voer vervolgens de waarde in waarvan de kolom groter moet zijn dan.

Wanneer u een van de bovenstaande bewerkingen hebt geselecteerd en het meerdere kolommen kan beïnvloeden, wordt u gevraagd of u alleen wilt toestaan ​​dat het invloed heeft op een subset van de kolommen of alle kolommen. In de meeste gevallen wilt u dat het alle kolommen beïnvloedt, maar in sommige omstandigheden is het handig om de betreffende kolommen te beperken. Als u bijvoorbeeld een reeks selecteert labels en waarden, die de positie op webpagina's wijzigen, kunt u alle labels en waarden selecteren. Gebruik vervolgens in de gegevensset de bewerking is gelijk aan om het te beperken tot het gewenste label en geef aan dat alleen het label en de waardekolommen moeten worden beïnvloed. Dit zorgt ervoor dat de andere kolommen niet worden beïnvloed door rijen die worden verwijderd, voor de volledigheid zou het handig zijn om de labelkolom te verbergen.

Nadat u alles wat u wilt hebt gewijzigd, klikt u op volgende en uw schraapinstructies worden toegevoegd aan het schraapsel.

Een webpagina manipuleren

Een webpagina kan worden gemanipuleerd voordat deze wordt geschraapt, door te klikken, te typen en waarden te selecteren in vervolgkeuzelijsten. Het is belangrijk om te onthouden dat hoewel dit ertoe kan leiden dat een nieuwe webpagina de scrape-instructies laadt, niet opnieuw wordt gestart voordat alle toepasselijke scrape-instructies zijn uitgevoerd.

Kies een om een ​​webpagina te bewerken Klik op Element, Beweeg element, Rol, Typ Text or Selecteer de vervolgkeuzelijstwaarde acties. Als u een klikactie uitvoert, kunt u op een willekeurig aantal elementen op een webpagina klikken. Anders moet u een geschikt HTML-element selecteren, bijvoorbeeld moet tekst in een tekstvak worden getypt. Dan klikken volgende. Dit opent een optievak waarmee u de actie kunt voltooien. Bij het typen van tekst en het selecteren uit een vervolgkeuzelijst moeten de gegevens die moeten worden getypt of geselecteerd, respectievelijk worden gekozen. Anders dan dat, zijn de opties voor alle drie acties hetzelfde.

Als u wilt, kunt u de sjabloon selecteren waarin deze actie moet worden uitgevoerd en voor de klikactie welke sjabloon van toepassing is, zodra de klikactie is voltooid. Het is echter geen goed idee om een ​​nieuwe sjabloon toe te wijzen aan een klikactie die meerdere klikken op dezelfde pagina uitvoert, zoals het openen van inline pop-ups of dingen op het scherm laten verschijnen. Dit omdat als de klikactie alleen op bepaalde sjablonen wordt uitgevoerd, de nieuwe sjabloon die door de eerste klik is toegewezen, niet opnieuw wordt ingesteld en daarom, afhankelijk van de manier waarop het schrapen is geschreven, kan voorkomen dat toekomstige klikken op dezelfde pagina worden uitgevoerd. Je kunt ook bepalen of je deze actie maar één keer wilt uitvoeren, wat handig is als je zoiets als inloggen doet intoa website.

Met de acties Tekst typen of Selecteer vervolgkeuzelijst Waarde kunt u meerdere tekstitems typen of meerdere selectievakjes selecteren. Deze kunnen worden bewerkt door op de instructies voor schrapen te klikken Wijzig of bekijk variabelen knop, zoals weergegeven in de schermafbeelding links.

Dit kan belangrijk zijn als u bijvoorbeeld een lijst met namen in een zoekvak wilt typen. Om ervoor te zorgen dat een formulier alleen wordt verzonden als er een waarde in het zoekvak staat, kan een sjabloon worden ingesteld telkens wanneer de tekst met succes wordt getypt into het tekstvak en de klikactie op een knop worden niet uitgevoerd tenzij deze sjabloon is ingesteld. Nadat de klikactie is uitgevoerd, moet de sjabloon worden gewijzigd in iets anders om de procedure te resetten.

Nadat acties die websites manipuleren zijn uitgevoerd, is het handig om even te wachten als de acties de AJAX-functionaliteit initiëren, om de AJAX-inhoud te laden voordat u verdergaat met het schrapen. U kunt dit doen door een vertraging toe te voegen in de Na uitvoering Wacht tekstvak.

Misschien wilt u direct naar een andere URL gaan zodra aan een voorwaarde is voldaan. Gebruik hiervoor de Ga naar URL actie, die alleen zal verschijnen wanneer ten minste één sjabloon is gedefinieerd in de scrape en wanneer deze is gemaakt, moet worden toegewezen aan een sjabloon om oneindige lussen te voorkomen.

Eindelijk kunt u alle capture-API's van GrabzIt gebruiken in uw web-scrapes, kies gewoon de Capture Webpage-actie en kies de gewenste capture. U kunt dit beperken om bepaalde webpagina's binnen het scrape vast te leggen door een sjabloon op te geven om uit te voeren zodra u de selecteert volgende knop.

Nadat elke schraapinstructie is toegevoegd, is deze zichtbaar in het schraapinstructiepaneel. Met het kruisje naast elke schraapinstructie kan de schraapinstructie worden verwijderd. Als een schraapinstructie wordt verwijderd die vereist is door andere schraapinstructies, worden die instructies ook verwijderd. U kunt de volgorde van de schraapinstructies wijzigen door eventuele schraapinstructies met het grijppictogram te slepen.

Handmatig schraapinstructies schrijven

Als u de schraapinstructies op een meer specifieke manier wilt aanpassen of als u code wilt uitvoeren voor of na krassen u moet de instructies voor het schrapen handmatig wijzigen.

De schraapinstructies zijn gebaseerd op JavaScript en de code-editor wordt compleet geleverd met een syntaxiscontrole, automatisch aanvullen en knopinfo om het zo gemakkelijk mogelijk te maken.

Webschraper Instructies De kernfunctionaliteit van de code-editor is toegankelijk via de menu-opties, zoals weergegeven in de screenshot, het doel van elk wordt hieronder afzonderlijk uitgelegd. Terwijl syntaxisfouten in uw schraapinstructies worden aangegeven in de linker goot van de code-editor.

tovenaar met de wizard kunt u delen van de pagina selecteren die u wilt extraheren en andere veelvoorkomende taken uitvoeren, zoals het maken van webafbeeldingen.

Instructies voor schrapen weergeven geeft de schraapinstructiecode weer aan de gebruiker.

Verwijder alle instructies verwijdert alle schraapinstructies.

Webpagina Functies voert het trefwoord Page in into de schraapinstructies en open de auto-complete, die alle mogelijke bevat Pagina functies. Met de pagina-functies kunt u gegevens van de webpagina extraheren.

Gegevensfuncties voert u het trefwoord Data in into de schraapinstructies. Gegevens functies staat u toe save informatie.

Navigatiefuncties voert het trefwoord Navigatie in into de code-editor. De Navigatiefuncties hiermee kunt u bepalen hoe de Web Scraper door de doelsite (s) navigeert.

Wereldwijde functies voert het trefwoord Global in into de schraapinstructies. Dit geeft u toegang tot functies die gegevens kunnen opslaan tussen het parseren van verschillende webpagina's. Wanneer u schraapinstructies schrijft, is het belangrijk om te onthouden dat de status van JavaScript-variabelen in de schraapinstructies niet wordt bewaard wanneer de schraper tussen webpagina's wordt verplaatst, tenzij u de Global-functies gebruikt om save variabelen, zoals hieronder weergegeven.

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

Ga als volgt te werk om een ​​persistente globale variabele door te geven aan de parameter persist in de methode Global.set.

Global.set("myvariable", "hello", true);

Utility functies voert het sleutelwoord Utility in into de schraapinstructies. Hiermee kunt u gebruiken gemeenschappelijke functies die schrijven gemakkelijker maken, zoals het toevoegen of verwijderen van zoekopdrachtenstring parameters van URL's.

Criteria Functies voert het criterium Sleutelwoord in into de schraapinstructies. Deze functies kunt u de gegevens verfijnen die tijdens uw scrape worden geëxtraheerd, zoals het verwijderen van duplicaten.

filters kunt u eenvoudig een filter maken, dit is vereist voor sommige functies om een ​​bepaald HTML-element te selecteren vanuit een webpagina. Selecteer eenvoudig de attributen die uw doelelement moet hebben en / of de ouder (s) van het element moet dat element selecteren. Zorg ervoor dat voordat u op deze optie klikt, uw cursor op de juiste plaats in de functie staat om ook het filter te passeren.

Schermfuncties kunt u screenshotopties instellen. Plaats de cursor gewoon in het juiste deel van de functie, zoals aangegeven door de knopinfo en druk op de screenshotopties. Kies vervolgens alle gewenste opties en voer de opdracht in.

Acties uitvoeren vóór of na een schraapbeurt

U kunt opdrachten voor of na een scrape uitvoeren met behulp van de vervolgkeuzelijst met opties boven aan het tabblad Instructies voor schrapen. Alle opdrachten ingevoerd wanneer Uitvoeren na schrapen is geselecteerd, wordt uitgevoerd nadat het schrapen is voltooid. Terwijl alle opdrachten ingevoerd wanneer Uitvoeren vóór schrapen is geselecteerd, wordt uitgevoerd voordat het schrapen is gestart.

In een van deze twee speciale modi is er echter slechts een subset van de schraapinstructies beschikbaar. De beschikbare opdrachten zijn de instructies voor Data, Global en Navigation scrape.

Strings

Strings worden gebruikt in schraapinstructies, bij het uitvoeren van een webschraap, om tekst te definiëren. EEN string wordt gescheiden door dubbele (") of enkele aanhalingstekens ('). Als een string is begonnen met een dubbele aanhalingsteken, het moet eindigen met een dubbele aanhalingsteken, als string begint met een enkele quote, het moet eindigen met een enkele quote. Bijvoorbeeld:

"my-class" en 'my-class'

Een veel voorkomende fout die kan optreden, is de niet-afgesloten string fout, dit is wanneer een string heeft geen slotcitaat zoals hierboven weergegeven of er staat een regeleinde in de string. Het volgende is illegaal strings:

"my
class"

"my class

Om deze fout op te lossen, moet u ervoor zorgen dat ze geen regeleinden bevatten en overeenkomende aanhalingstekens hebben, zoals hier:

"my class" en "my class"

Soms wilt u een enkel of dubbel citaat in een string. De eenvoudigste manier om dit te doen is om een ​​enkel citaat in een string gescheiden door dubbele aanhalingstekens en een dubbele aanhalingstekens in een string gescheiden door enkele aanhalingstekens, zoals:

"Bob's shop" en '"The best store on the web"'

Als alternatief kunt u een backslash gebruiken om aan een dergelijke quote te ontsnappen:

'test\'s'

Algemene handmatige schraaptaken

Link Checker Maak een aangepaste koppelingscontrole - ontdek hoe u een aangepaste koppelingscontrole kunt maken door deze eenvoudige instructies te volgen.
Afbeelding downloaden Download alle afbeeldingen van een website - ontdek hoe u alle afbeeldingen van een hele website kunt downloaden.
Maak dataset Gegevens extraheren en transformeren intoa dataset - ontdek hoe u een gegevensset kunt maken van de website die u scrapt.
Links extraheren Extract links van een website - ontdek hoe u alle HTML-links van een hele website kunt extraheren en save ze in het formaat dat u wenst.
Selecteer tekst Waarden uit tekst extraheren met behulp van patronen - ontdek hoe u patronen kunt gebruiken om waarden uit tekstblokken te extraheren.
OCR Extraheer tekst uit afbeeldingen - ontdek hoe u tekst uit afbeeldingen kunt extraheren.
dataset Een gegevensset opvullen - formatteer uw geëxtraheerde gegevens beter met behulp van padding.
reeks Arrays manipuleren - ontdek hoe u de speciale array-hulpprogramma's kunt gebruiken om eenvoudig arrays in kladjes te verwerken.
Actie Voer een actie slechts eenmaal uit tijdens een schraapbeurt - ontdek hoe u een actie slechts eenmaal tijdens een volledige schraap kunt uitvoeren.
Verfijnen Geschraapte gegevens verfijnen - ontdek hoe u niet-vereiste gegevens uit uw kladjes kunt verwijderen.
Email adres Schraap e-mailadressen van een website - ontdek hoe u alle e-mailadressen van een website kunt schrapen.
screenshot Schermafbeelding hele website into PDF's of afbeeldingen - ontdek hoe u GrabzIt's Web Scraper kunt gebruiken om elke pagina van een volledige website vast te leggen.
screenshot Extraheer gestructureerde informatie uit ongestructureerde tekst - gebruik GrabzIt om sentiment, namen, locaties en organisaties te extraheren.

Andere inhoud dan HTML schrapen

Wanneer de Web Scraper PDF's, XML, JSON en RSS tegenkomt, wordt deze omgezet in een HTML-benadering, waardoor onze Web Scraper het correct kan parseren en u kunt selecteren welke inhoud u wilt extraheren. Als u bijvoorbeeld JSON-gegevens wilt parseren, worden de gegevens geconverteerd intoa hiërarchische HTML-weergave zoals hiernaast weergegeven. Hiermee kunt u zoals gewoonlijk instructies voor het schrapen samenstellen.

Op dezelfde manier wordt de PDF geconverteerd wanneer de krabber een PDF-document laadt into HTML om afbeeldingen, hyperlinks, tekst en tabellen te selecteren en te schrapen. Aangezien een PDF echter geen echte structuur heeft, worden tabellen geïdentificeerd met behulp van heuristieken en zijn ze dus niet altijd nauwkeurig.

Exportopties

Op dit tabblad kunt u kiezen hoe u uw resultaten wilt exporteren, uw opties inclusief Excel-spreadsheets, XML, JSON, CSV, SQL-opdrachten of HTML-documenten. Bovendien kunt u met dit tabblad de naam van de geschraapte schraapresultaten instellen. Als u alleen bestanden downloadt of web-opnames maakt, hoeft u geen exportoptie te kiezen, omdat u alleen een ZIP-bestand met de resultaten ontvangt. Op dit tabblad kunt u ook opgeven hoe u de resultaten wilt verzenden. U kunt de resultaten verzenden via Amazon S3, dropbox, E-mail notificatie, FTP en WebDav.

De laatste optie is een terugbel-URL, waarmee de schraapresultaten kunnen worden verwerkt in uw toepassing met behulp van onze schraap-API.

De bestandsnaam van de gecomprimeerde resultaten of elk gegevensbestand als u ze afzonderlijk wilt verzenden, kunt u instellen door de optie Standaard bestandsnaam gebruiken uit te schakelen en de gewenste bestandsnaam in te stellen.

Schema plannen

Wanneer u een webscrape maakt, kunt u op het tabblad Schrapen plannen instellen wanneer u wilt dat de scrape start en of u wilt herhalen hoe vaak dit moet gebeuren.

Scrapes controleren en debuggen

Zodra het webschrapen begint, verandert het statuspictogram in en de verwerkte pagina's beginnen na verloop van tijd toe te nemen. Er wordt regelmatig een realtime momentopname gemaakt van de voortgang van de kladjes, waarbij een logbestand wordt gegenereerd, samen met een normale schermafbeelding van de laatste webpagina die de schraper is tegengekomen. Hiermee kunt u zien wat er gebeurt tijdens het schrapen. Om deze informatie te vinden, klikt u op het pictogram Uitvouwen naast uw krabber en klikt u op Kijker voor het schrapen dat je bent interin. Dit moet gedetailleerd zijn als er fouten zijn opgetreden, zoals problemen met uw schraapinstructies.

Nadat het schrapen is voltooid, schakelt het statuspictogram naar , als er geen resultaat is door de Viewer te openen, kunnen het logboek en de laatste screenshot u vertellen wat er mis is gegaan.

Een van de meest voorkomende problemen die in de logboeken worden gemeld, is dat er niet voldoende vertraging is bij het rennen van de pagina, vaak een kleine toename van de Vertraging pagina laden gevonden in de Schraapopties tabblad is voldoende voor de meeste websites.