Tools om het web vast te leggen en te converteren

Respecteert GrabzIt's Web Scraper robots.txt-bestanden?

Onze Web Scraper moet de regels respecteren die te vinden zijn in het robots.txt-bestand van een website. Een van de belangrijkste redenen hiervoor, behalve dat het aardig is, is dat webscrapers die het robots.txt-bestand niet volgen, op de zwarte lijst kunnen komen te staan ​​van een honeypot-service.

Deze services gebruiken robots.txt om een ​​webschraper te vertellen een bepaald bestand waarnaar vanaf de website is gelinkt, niet te bezoeken. Als de webschraper het bestand nog steeds bezoekt, wordt het IP-adres van de webschraper op de zwarte lijst gezet, waardoor wordt voorkomen dat de webschraper de website in de toekomst bezoekt.