Tools om het web vast te leggen en te converteren

Web Scraper-documentatie

Dit is een overzicht van onze speciale schraapinstructiemethoden die we beschikbaar stellen via onze webschraper.

Criteria.apply (array)

Hiermee verwijdert u items op dezelfde locatie als die items die door eerdere bewerkingen in deze criteria zijn verwijderd uit de meegeleverde array.

  • array - vereist, de array waarop de wijzigingen moeten worden toegepast.

Criteria.ascending (waarden)

Retourneert de waarden in oplopende volgorde.

  • waarden - vereist, geef een array door die u in oplopende volgorde wilt sorteren.

Criteria.contains (naalden, waarde)

Retourneert alleen items in de array met naalden die de opgegeven waarde bevatten.

  • naalden - vereist, de array om te filteren.
  • waarde - vereist, de waarde-items moeten bevatten.

Criteria.create (array)

Maakt een nieuw criterium klaar om bewerkingen uit te voeren op een nieuwe array.

  • array - vereist, de array van kolommen waarop de wijzigingen moeten worden toegepast.

  • Criteria.descending (waarden)

    Retourneert de waarden in aflopende volgorde.

    • waarden - vereist, geef een array door die u in aflopende volgorde wilt sorteren.

    Criteria.equals (naalden, waarde)

    Retourneert alleen items in de array met naalden die gelijk zijn aan de opgegeven waarde.

    • naalden - vereist, de array om te filteren.
    • waarde - vereist, de waarde-items moeten gelijk zijn aan.

    Criteria.extract (array, patroon)

    Retourneert alle items in de array die met overeenkomsten zijn getrimd volgens het opgegeven patroon.

    • array - vereist, de array om overeenkomsten bij te snijden.
    • patroon - vereist, het patroon definieert hoe het gewenste deel van de geretourneerde tekst moet worden bijgesneden. De bij te snijden waarde wordt aangegeven door de {{VALUE}} in het patroon.
      Bijvoorbeeld om de leeftijd bij te snijden van 'Mijn leeftijd is 33'. het patroon 'Mijn leeftijd is {{VALUE}}.' zou worden gebruikt.

    Criteria.greaterThan (naalden, waarde)

    Retourneert de enige items in de array met naalden die groter zijn dan de opgegeven waarde.

    • naalden - vereist, de array om te filteren.
    • waarde - vereist, de waarde-items moeten groter zijn dan.

    Criteria.keep (naalden, hooiberg)

    Retourneert de array met naalden na het bijhouden van overeenkomsten in de hooibergmatrix.

    • naalden - vereist, de array om te filteren.
    • hooiberg - vereist, de reeks die moet worden gebruikt om de naalden te bewaren.

    Criteria.lessThan (naalden, waarde)

    Retourneert de enige items in de array met naalden die kleiner zijn dan de opgegeven waarde.

    • naalden - vereist, de array om te filteren.
    • waarde - vereist, de waarde-items moeten kleiner zijn dan.

    Criteria.limit (waarden, limiet)

    Retourneert de eerste n-waarden, waarbij n de limietvariabele is.

    • waarden - vereist, geef een matrix door die u wilt beperken.
    • limit - vereist, het aantal waarden dat u uit de array wilt retourneren.

    Criteria.notEquals (naalden, waarde)

    Retourneert de enige items in de array met naalden die NIET gelijk zijn aan de opgegeven waarde.

    • naalden - vereist, de array om te filteren.
    • waarde - vereist, de waarde-items moeten NIET gelijk zijn aan.

    Criteria.remove (naalden, hooiberg)

    Retourneert de naaldenmatrix na het verwijderen van overeenkomsten in de hooibergmatrix.

    • naalden - vereist, de array om te filteren.
    • hooiberg - vereist, de reeks die moet worden gebruikt om de naalden te verwijderen.

    Criteria.repeat (array)

    Herhaal de items in de array totdat deze overeenkomt met de lengte van de langste kolom.

    • array - vereist, de array die moet worden herhaald.

    Criteria.unique (naalden)

    Retourneert alleen de unieke waarden uit de array met naalden.

    • naalden - vereist, geef een array door waarvan u alle dubbele waarden wilt verwijderen.

    Data.countFilesDownloaded ()

    Tel het totale aantal gedownloade bestanden.


    Data.log (bericht)

    Schrijft een bericht naar het schraaplogboek.

    • bericht - vereist, het bericht om naar het logboek te schrijven.

    Data.pad (padValue, dataSet)

    Vult alle kolommen in gegevenssets op door lege cellen aan het einde van kolommen toe te voegen totdat alle kolommen in een bepaalde gegevensset hetzelfde aantal cellen hebben.

    • padValue - facultatief, de waarde om de cellen mee op te vullen. Als er geen is opgegeven, wordt een lege waarde gebruikt.
    • dataSet - facultatief, de dataset naar pad.

    Data.readColumn (dataSet, kolom)

    Leest een kolom de opgegeven kolom uit de opgegeven gegevensset.

    • dataSet - facultatief, de gegevensset om de waarde van te lezen.
    • kolom - facultatief, de kolom in de gegevensset om de waarde van te lezen.

    Gegevens.save(waardes, dataSet, kolom)

    Saves elke waarde of waarden voor de opgegeven gegevensset en kolom.

    • waarde - vereist, geef elke gewenste waarde of reeks waarden door save.
    • dataSet - facultatief, de dataset naar save de waarde into.
    • kolom - facultatief, de kolom in de gegevensset naar save de waarde into.

    Gegevens.saveDOCXScreenshot (htmlOrUrls, opties, dataSet, kolom)

    Maak een DOCX-screenshot van HTML, URL of URL's en plaatst optioneel een link naar het bestand in de opgegeven gegevensset en kolom.

    • url - vereist, geef elke url of array van urls door waarvan u een DOCX-schermafbeelding wilt maken.
    • opties - facultatief, screenshot-opties.
    • dataSet - facultatief, de dataset naar save de DOCX screenshotlink into.
    • kolom - facultatief, de kolom in de gegevensset naar save de DOCX screenshotlink into.

    Gegevens.saveImageScreenshot (htmlOrUrls, opties, dataSet, kolom)

    Maak een screenshot van HTML, URL of URL's en plaats desgewenst een link naar het bestand in de opgegeven gegevensset en kolom.

    • url - vereist, geef elke url of reeks urls door waarvan u een screenshot van de afbeelding wilt maken.
    • opties - facultatief, screenshot-opties.
    • dataSet - facultatief, de dataset naar save de afbeelding screenshot link into.
    • kolom - facultatief, de kolom in de gegevensset naar save de afbeelding screenshot link into.

    Gegevens.savePDFScreenshot (htmlOrUrls, opties, dataSet, kolom)

    Maak een PDF-screenshot van HTML, URL of URL's en plaats optioneel een link naar het bestand in de opgegeven gegevensset en kolom.

    • url - vereist, geef elke url of reeks urls door waarvan u een PDF-screenshot wilt maken.
    • opties - facultatief, screenshot-opties.
    • dataSet - facultatief, de dataset naar save de PDF screenshotlink into.
    • kolom - facultatief, de kolom in de gegevensset naar save de PDF screenshotlink into.

    Gegevens.saveTableScreenshot (htmlOrUrls, opties, dataSet, kolom)

    Maak een screenshot van de tabel van HTML, URL of URL's en plaats desgewenst een link naar het bestand in de opgegeven gegevensset en kolom.

    • url - vereist, geef elke url of reeks urls door waarvan u een screenshot van de tabel wilt maken.
    • opties - facultatief, screenshot-opties.
    • dataSet - facultatief, de dataset naar save de screenshot link link into.
    • kolom - facultatief, de kolom in de gegevensset naar save de screenshot link link into.

    Gegevens.saveFile (urls, bestandsnaam, dataSet, kolom)

    Saves elke URL of URL's als een bestand en plaatst optioneel een link naar het bestand in de opgegeven gegevensset en kolom.

    • url - vereist, geef elke URL of reeks URL's door die u wilt omdraaien intoa bestand (en).
    • bestandsnaam - facultatief, geef elke bestandsnaam door die u wilt gebruiken in plaats van de gegenereerde.
    • dataSet - optioneel, de dataset naar save de bestandskoppeling into.
    • kolom - facultatief, de kolom in de gegevensset naar save de bestandskoppeling into.

    Gegevens.saveToBestand (data, bestandsnaam, dataSet, kolom)

    Saves alle gegevens of gegevensitems als een bestand en plaatst optioneel een koppeling naar het bestand in de opgegeven gegevensset en kolom.

    • gegevens - vereist, geef alle gegevens of een reeks gegevens door die u wenst save in een bestand (en).
    • bestandsnaam - facultatief, geef elke bestandsnaam door die u wilt gebruiken in plaats van de gegenereerde.
    • dataSet - optioneel, de dataset naar save de bestandskoppeling into.
    • kolom - facultatief, de kolom in de gegevensset naar save de bestandskoppeling into.

    Gegevens.saveUnique (waardes, dataSet, kolom)

    Saves een unieke waarde of waarden voor de opgegeven gegevensset en kolom. Dubbele waarden in dezelfde gegevensset en kolom worden genegeerd.

    • waarde - vereist, geef elke gewenste waarde of reeks waarden door save.
    • dataSet - facultatief, de dataset naar save de waarde into.
    • kolom - facultatief, de kolom in de gegevensset naar save de waarde into.

    Gegevens.saveUniqueFile (urls, bestandsnaam, dataSet, kolom)

    Saves elke URL of URL's als een bestand en plaatst optioneel een link naar het bestand in de opgegeven gegevensset en kolom. Deze methode zal alleen save unieke waarden voor de opgegeven gegevensset en kolom, of als er geen gegevensset en kolom unieke URL's zijn voor het volledige schraapsel.

    • url - vereist, geef elke URL of reeks URL's door die u wilt omdraaien intoa bestand (en).
    • bestandsnaam - facultatief, geef elke bestandsnaam door die u wilt gebruiken in plaats van de gegenereerde.
    • dataSet - facultatief, de dataset naar save de bestandskoppeling into.
    • kolom - facultatief, de kolom in de gegevensset naar save de bestandskoppeling into.

    Gegevens.saveVideoAnimation (videoURLs, opties, dataSet, kolom)

    Converteer een online video of video's into geanimeerde GIF ('s) en plaatst optioneel een link naar het bestand in de opgegeven gegevensset en kolom.

    • videoUrl - vereist, geef elke video-URL of reeks URL's door die u wilt converteren into geanimeerde GIF ('s).
    • opties - facultatief, animatie-opties.
    • dataSet - facultatief, de dataset naar save de animatielink into.
    • kolom - facultatief, de kolom in de gegevensset naar save de animatielink into.

    Global.get (naam)

    Krijgt een saved variabele waarde.

    • naam - vereist, de naam van de variabele die moet worden geretourneerd.

    Global.set (naam, waardes, volharden)

    Saves elke waarde of waarden tussen geschraapte pagina's.

    • naam - verplicht, de naam van de variabele naar save.
    • waarde - vereist, de variabele waarde tot save.
    • blijven bestaan ​​- optioneel, indien waar wordt de variabele tussen krassen bewaard.

    Navigation.addTemplate (urls, sjabloon)

    Definieer de URL of URL's als behorend tot de opgegeven sjabloon. Hierdoor kunnen instructies voor het schrapen worden beperkt tot alleen het uitvoeren van bepaalde URL's.

    • url - vereist, geef elke url of array van URL's door waarvoor u een sjabloon wilt definiëren.
    • sjabloon - vereist.

    Navigation.clearCookies ()

    Verwijder alle cookies voor het huidige schraapsel.


    Navigatie. Navigeren (filter, sjabloon)

    Klik op een of meer HTML-elementen.

    • filter - vereist, het filter dat wordt gebruikt om te identificeren op welk HTML-element (en) moet worden geklikt.
    • sjabloon - de sjabloon die moet worden toegewezen bij het navigeren naar het geselecteerde HTML-element.

    Navigation.goTo (url)

    Ga onmiddellijk naar de opgegeven URL.

    • url - verplicht, de URL om naar te navigeren.

    Navigation.hover (filter)

    Beweeg over een of meer HTML-elementen.

    • filter - vereist, het filter dat wordt gebruikt om te identificeren op welk HTML-element (en) de muisaanwijzer moet worden geplaatst.

    Navigation.isTemplate (template)

    Retourneert true als de huidige pagina tot de opgegeven sjabloon behoort.

    • sjabloon - vereist, de sjabloon om te controleren of de pagina toebehoort.

    Navigation.paginate (filter, seconden)

    Pagineert door de opgegeven elementen.

    • filter - vereist, het filter dat wordt gebruikt om te identificeren via welk HTML-element (en) moet worden gepagineerd.
    • seconden - vereist, het aantal seconden tussen het gaan naar gepagineerde resultaten.

    Navigation.remove (filter)

    Verwijder een of meer HTML-elementen.

    • filter - vereist, het filter dat wordt gebruikt om te identificeren welk HTML-element (en) moet worden verwijderd.

    Navigation.scroll (filter)

    Blader door een geselecteerd element of de hele webpagina.

    • filter - optioneel, het filter dat wordt gebruikt om te bepalen welk element moet worden gescrolld. Als het niet wordt opgegeven, wordt de hele webpagina gescrolld.

    Navigation.select (values, filter)

    Selecteer een of meer geldige waarden in een select-element.

    • waarde - vereist, de een of meer waarden om te selecteren.
    • filter - vereist, het filter dat wordt gebruikt om te identificeren welk selectie-element moet worden geselecteerd.

    Navigation.stopScraping (abort)

    Stop onmiddellijk met schrapen.

    • afbreken - optioneel, indien waar stop de verwerking meer en exporteer of verzend geen resultaten.

    Navigation.type (teksts, filter)

    Typ Text inteen element.

    • tekst - vereist, de een of meer tekstitems die moeten worden getypt.
    • filter - vereist, het filter dat wordt gebruikt om te identificeren welk element moet worden typen into.

    Navigation.wait (seconden)

    Wacht een aantal seconden voordat u doorgaat. Dit is vooral handig wanneer u deze klik-, selecteer- en typopdrachten gebruikt.

    • seconden - vereist, het aantal seconden om te wachten.

    Page.contains (zoeken, kenmerk, filter)

    Retourneert true als de pagina de te zoeken tekst bevat.

    • zoeken - vereist, de tekst om te vinden.
    • attribuut - optioneel, het attribuut om in te zoeken.
    • filter - optioneel, het filter dat wordt gebruikt om te identificeren in welk element moet worden gezocht.

    Page.exists (filter)

    Retourneert true als de pagina een element bevat dat overeenkomt met het zoekfilter.

    • filter - vereist, het filter dat wordt gebruikt om te identificeren naar welk element moet worden gezocht.

    Page.getAuthor ()

    Hiermee wordt de auteur van de pagina opgehaald als er een is opgegeven.


    Page.getDescription ()

    Hiermee wordt de paginabeschrijving opgehaald als er een is opgegeven.


    Page.getFavIconUrl ()

    Hiermee wordt de FavIcon-URL van de pagina opgehaald.


    Page.getHtml ()

    Hiermee wordt de onbewerkte HTML-pagina opgehaald.


    Page.getKeywords ()

    Hiermee worden de trefwoorden opgehaald van de pagina die wordt geschraapt.


    Page.getLastModified ()

    Hiermee wordt de tijd opgehaald waarop de webpagina voor het laatst is gewijzigd, hetzij uit de metagegevens van de pagina of de antwoordkoppen.


    Page.getPageNumber ()

    Hiermee wordt het paginanummer opgehaald van de huidige URL die wordt geschraapt.


    Page.getPreviousUrl (index)

    Hiermee wordt de vorige URL opgehaald, een -1 geeft de laatste URL aan, terwijl een lager nummer een eerdere URL aangeeft.

    • index - optioneel, de index van de vorige pagina om terug te keren. Standaard staat -1.

    Page.getTagAttribute (kenmerk, filter)

    Retourneert de overeenkomende kenmerkwaarde.

    • attribuut - vereist, het attribuut om naar te zoeken.
    • filter - optioneel, het filter dat wordt gebruikt om te identificeren naar welk element moet worden gezocht.

    Page.getTagAttributes (kenmerk, filter, linkedTo)

    Retourneert de overeenkomende CSS-waarden.

    • attribuut - vereist, het CSS-attribuut om naar te zoeken.
    • filter - optioneel, het filter dat wordt gebruikt om te identificeren naar welk element moet worden gezocht.
    • linkedTo - optioneel, door de kolom waaraan dit moet worden gekoppeld, zodat relatieve waarden bij elkaar worden gehouden.

    Page.getTagCSSAttribute (kenmerk, filter)

    Retourneert de overeenkomende CSS-waarde.

    • attribuut - vereist, het CSS-attribuut om naar te zoeken.
    • filter - optioneel, het filter dat wordt gebruikt om te identificeren naar welk element moet worden gezocht.

    Page.getTagCSSAttributes (kenmerk, filter, linkedTo)

    Retourneert de overeenkomende kenmerkwaarden.

    • attribuut - vereist, het attribuut om naar te zoeken.
    • filter - optioneel, het filter dat wordt gebruikt om te identificeren naar welk element moet worden gezocht.
    • linkedTo - optioneel, door de kolom waaraan dit moet worden gekoppeld, zodat relatieve waarden bij elkaar worden gehouden.

    Page.getTagValue (filter)

    Retourneert de overeenkomende elementwaarde.

    • filter - optioneel, het filter dat wordt gebruikt om te identificeren naar welk element (en) moet worden gezocht.

    Page.getTagValues ​​(filter, linkedTo)

    Retourneert de overeenkomende elementwaarden.

    • filter - optioneel, het filter dat wordt gebruikt om te identificeren naar welk element (en) moet worden gezocht.
    • linkedTo - optioneel, door de kolom waaraan dit moet worden gekoppeld, zodat relatieve waarden bij elkaar worden gehouden.

    Page.getText ()

    Hiermee wordt de zichtbare tekst van de pagina opgehaald.


    Page.getTitle ()

    Hiermee wordt de titel van de pagina opgehaald.


    Page.getUrl ()

    Hiermee wordt de URL van de pagina opgehaald.


    Page.getValueXPath (xpath)

    Retourneert de waarde die overeenkomt met de opgegeven XPATH.

    • xpath - vereist, de XPATH die overeenkomt met de elementwaarde of het kenmerk.

    Page.getValuesXPath (xpath)

    Retourneert de waarden die overeenkomen met de opgegeven XPATH.

    • xpath - vereist, de XPATH die overeenkomt met de elementwaarden of attributen.

    Page.valid ()

    Retourneert true als de URL die momenteel wordt geschraapt een geldige webpagina is.


    Utility.Array.clean (values)

    Retourneert alle niet-lege en lege waarden uit de waardenmatrix.

    • waarden - vereist, geef elke reeks waarden door om schoon te maken.

    Utility.Array.contains (values)

    Retourneert true als de naald zich in de hooibergmatrix bevindt.

    • naald - vereist, geef elke waarde of reeks waarden door om te vinden.
    • hooiberg - vereist, de reeks om te zoeken naar de naald of naalden.

    Utility.Array.merge (array1, array2)

    Voegt twee arrays samen into één die een lege of nulwaarde vervangt door een waarde uit de tweede array. Beide arrays moeten even groot zijn.

    • array1 - vereist, geef waardenreeks door om samen te voegen.
    • array2 - vereist, geef waardenreeks door om samen te voegen.

    Utility.Array.unique (values)

    Retourneert de unieke waarden uit de waardenmatrix.

    • waarden - vereist, geef een reeks waarden door om uniek te maken.

    Utility.Text.extractAddress (tekst)

    Extraheert het eerste e-mailadres binnen de opgegeven tekstparameter.

    • tekst - vereist, de tekst om een ​​e-mailadres uit te halen.

    Utility.Text.extractAddresses (tekst)

    Extraheert alle e-mailadressen vanuit de opgegeven tekstparameter.

    • tekst - vereist, de tekst om alle e-mailadressen uit te halen.

    Utility.Text.extractLocation (tekst, taal)

    Hiermee wordt automatisch de eerste locatie opgehaald uit de opgegeven tekstparameter.

    • tekst - vereist, de tekst om de locatie uit te halen.
    • taal - optioneel, de taal van de te extraheren tekst in het ISO 639-1-formaat met twee letters. Standaard ingesteld op 'en'. Gebruik 'auto' om te proberen de teksttaal automatisch te detecteren.

    Utility.Text.extractLocations (tekst, taal)

    Extraheert automatisch locaties vanuit de opgegeven tekstparameter.

    • tekst - vereist, de tekst om locaties uit te halen.
    • taal - optioneel, de taal van de te extraheren tekst in het ISO 639-1-formaat met twee letters. Standaard ingesteld op 'en'. Gebruik 'auto' om te proberen de teksttaal automatisch te detecteren.

    Utility.Text.extractLanguageName (tekst)

    Hiermee wordt automatisch de opgegeven taal opgehaald uit de tekstparameter.

    • tekst - vereist, de tekst om de taal uit te halen.

    Utility.Text.extractLanguageCode (tekst)

    Hiermee wordt automatisch de opgegeven taal opgehaald uit de tekstparameter.

    • tekst - vereist, de tekst om de taal uit te halen.

    Utility.Text.extractName (tekst, taal)

    Hiermee wordt automatisch de voornaam opgehaald uit de opgegeven tekstparameter.

    • tekst - vereist, de tekst om de naam uit te halen.
    • taal - optioneel, de taal van de te extraheren tekst in het ISO 639-1-formaat met twee letters. Standaard ingesteld op 'en'. Gebruik 'auto' om te proberen de teksttaal automatisch te detecteren.

    Utility.Text.extractNames (tekst, taal)

    Hiermee worden automatisch namen opgehaald uit de opgegeven tekstparameter.

    • tekst - vereist, de tekst om de naam uit te halen.
    • taal - optioneel, de taal van de te extraheren tekst in het ISO 639-1-formaat met twee letters. Standaard ingesteld op 'en'. Gebruik 'auto' om te proberen de teksttaal automatisch te detecteren.

    Utility.Text.extractOrganisatie (tekst, taal)

    Extraheert automatisch de eerste organisatie vanuit de opgegeven tekstparameter.

    • tekst - vereist, de tekst om de organisatie uit te halen.
    • taal - optioneel, de taal van de te extraheren tekst in het ISO 639-1-formaat met twee letters. Standaard ingesteld op 'en'. Gebruik 'auto' om te proberen de teksttaal automatisch te detecteren.

    Utility.Text.extractOrganisaties (tekst, taal)

    Pakt organisaties automatisch uit vanuit de opgegeven tekstparameter.

    • tekst - vereist, de tekst waaruit organisaties worden geëxtraheerd.
    • taal - optioneel, de taal van de te extraheren tekst in het ISO 639-1-formaat met twee letters. Standaard ingesteld op 'en'. Gebruik 'auto' om te proberen de teksttaal automatisch te detecteren.

    Utility.Text.extractSentiment (tekst)

    Hiermee wordt het sentiment automatisch opgehaald uit de opgegeven tekstparameter.

    • tekst - vereist, de tekst om het sentiment uit te halen.

    Utility.Image.extractText (urls, taal)

    Pogingen om optische tekenherkenning te gebruiken om tekst uit geselecteerde afbeeldingen te extraheren.

    • url - vereist, geef elke URL of reeks URL's van afbeeldingen door waarvan u tekst wilt extraheren.
    • taal - optioneel, de taal van de te extraheren tekst in het ISO 639-1-formaat met twee letters. Standaard ingesteld op 'en'.

    Utility.URL.addQueryStringParameter (urls, sleutel waarde)

    Voeg een zoekopdracht toestring parameter voor elke URL of URL's.

    • url - vereist, geef elke URL of reeks URL's door die u wilt toevoegen string parameter naar.
    • sleutel - vereist, de sleutel van de parameter die moet worden toegevoegd.
    • waarde - vereist, de waarde van de parameter die moet worden toegevoegd.

    Utility.URL.getQueryStringParameter (urls, sleutel)

    Hiermee wordt de waarde van een query opgehaaldstring parameter van elke URL of URL's.

    • url - vereist, geef elke URL of reeks URL's door die u wilt doorlezenstring parameter van.
    • sleutel - vereist, de sleutel van de te lezen parameter.

    Utility.URL.removeQueryStringParameter (urls, sleutel)

    Vraag verwijderenstring parameter van elke URL of URL's.

    • url - vereist, geef elke URL of reeks URL's door die u wilt verwijderenstring parameter van.
    • sleutel - vereist, de sleutel van de te verwijderen parameter.

    Utility.URL.exists (urls)

    Controleer of de URL of URL's echt bestaan ​​door elke URL aan te roepen.

    • url - vereist, geef elke URL of reeks URL's door die u wilt controleren.