Onze Web Scraper moet de regels respecteren die te vinden zijn in het robots.txt-bestand van een website. Een van de belangrijkste redenen hiervoor, behalve dat het aardig is, is dat webscrapers die het robots.txt-bestand niet volgen, op de zwarte lijst kunnen komen te staan van een honeypot-service.
Deze services gebruiken robots.txt om een webschraper te vertellen een bepaald bestand waarnaar vanaf de website is gelinkt, niet te bezoeken. Als de webschraper het bestand nog steeds bezoekt, wordt het IP-adres van de webschraper op de zwarte lijst gezet, waardoor wordt voorkomen dat de webschraper de website in de toekomst bezoekt.