Onze Web Scraper moet de regels in een robots.txt-bestand van een website respecteren. Een van de belangrijkste redenen hiervoor, behalve dat ze aardig zijn, is dat webschrapers die het robots.txt-bestand niet volgen, op een zwarte lijst kunnen komen te staan van een honeypot-service.
Deze services gebruiken de robots.txt om een webschraper te laten weten dat hij een bepaald bestand niet moet bezoeken dat is gelinkt vanaf de website. Als de webschraper het bestand nog steeds bezoekt, staat het IP-adres van de webschraper op de zwarte lijst, waardoor de webschraper de website in de toekomst niet meer kan bezoeken.