Tools om het web vast te leggen en te converteren

Respecteert GrabzIt's Web Scraper robots.txt-bestanden?

Onze Web Scraper moet de regels in een robots.txt-bestand van een website respecteren. Een van de belangrijkste redenen hiervoor, behalve dat ze aardig zijn, is dat webschrapers die het robots.txt-bestand niet volgen, op een zwarte lijst kunnen komen te staan ​​van een honeypot-service.

Deze services gebruiken de robots.txt om een ​​webschraper te laten weten dat hij een bepaald bestand niet moet bezoeken dat is gelinkt vanaf de website. Als de webschraper het bestand nog steeds bezoekt, staat het IP-adres van de webschraper op de zwarte lijst, waardoor de webschraper de website in de toekomst niet meer kan bezoeken.