Tools om het web vast te leggen en te converteren

Hoe een website en alle inhoud te downloaden?

Website

Er zijn enkele gevallen waarin het belangrijk is om een ​​volledige website te downloaden, niet alleen het eindresultaat. Maar HTML-webpagina's, bronnen zoals CSS, scripts en afbeeldingen.

Dit komt misschien omdat u een back-up van de code wilt, maar om een ​​of andere reden niet meer bij de oorspronkelijke bron kunt komen. Of misschien wilt u een gedetailleerd overzicht van hoe een website in de loop van de tijd is veranderd.

Gelukkig kan GrabzIt's Web Scraper dit bereiken door over alle webpagina's op een website te bladeren. Vervolgens downloadt de schraper op elke webpagina de HTML-code met alle bronnen waarnaar op de pagina wordt verwezen.

Maak een krabbel om een ​​volledige website te downloaden

Om het downloaden van uw website zo eenvoudig mogelijk te maken, biedt GrabzIt een scrape-sjabloon.

Starten laad deze sjabloon.

Voer dan uw in Target URL, wordt deze URL automatisch gecontroleerd op fouten en eventuele vereiste wijzigingen. Houd de Start automatisch schrapen checkbox aangevinkt, en uw scrape zal automatisch starten.

Uw Scrape aanpassen

Als u de sjabloon wilt wijzigen, schakelt u het selectievakje uit Start automatisch schrapen checkbox. Een wijziging zou zijn om de scrape regelmatig uit te voeren, bijvoorbeeld om regelmatig kopieën van een website te maken. Op de Schema plannen Klik op het tabblad Herhaal Schrapen selectievakje en selecteer vervolgens hoe vaak u het schrapen wilt herhalen. Dan klikken bijwerken om het schrapen te beginnen.

Uw gedownloade website gebruiken

Zodra het schrapen is voltooid, krijgt u een ZIP-bestand. Pak vervolgens het ZIP-bestand uit en binnenin in een map met de naam Bestanden worden alle gedownloade webpagina's en websitebronnen. Er zal ook een speciale HTML-pagina met de naam data.html in de hoofdmap van de map staan. Open dit bestand in een webbrowser en u vindt een HTML-tabel met drie kolommen:

  • Bron-URL - dit is de URL waarop de webschraper de bron heeft gevonden. Dus bijvoorbeeld: http://www.example.com/logo.jog
  • Brontype - dit is het type bron dat is gedownload. Er zijn vier soorten bronnen.
    • webpagina
    • Beeld
    • Externe bron - elke bron gedownload van een link-tag
    • Script
  • Nieuwe bestandsnaam - de nieuwe bestandsnaam die de bron is geweest saved onder. Merk op dat deze kolom ook een link naar het bestand bevat, waardoor het inspecteren van alle gedownloade bronnen veel eenvoudiger is.

Dit bestand is ontworpen om u te helpen de nieuwe bestandsnamen toe te wijzen aan hun oude locaties. Dit is nodig omdat een URL niet direct aan een bestandsstructuur kan worden toegewezen, omdat een URL veel te groot kan zijn om direct in het bestandspad te worden opgeslagen.

Er kunnen ook veel permutaties zijn, vooral wanneer een webpagina veel verschillende inhoud kan vertegenwoordigen door verschillende zoekopdrachten te wijzigen string parameters! Dus in plaats daarvan slaan we de website op in een platte structuur in de bestandsmap en geven we u data.html-bestand om deze bestanden aan de oorspronkelijke structuur toe te wijzen.

Natuurlijk kunt u hierdoor geen gedownloade HTML-pagina openen en verwachten dat u de webpagina ziet die u op internet hebt gezien. Om dit te doen, moet u de paden van de afbeeldings-, script- en CSS-bronnen enz. Herschrijven, zodat het HTML-bestand ze in uw lokale bestandsstructuur kan vinden.

Een ander bestand dat wordt opgenomen in de root van het ZIP-bestand heet Website.csv. Dit bevat exact dezelfde informatie als het bestand data.html. Dit is echter inbegrepen als u de download van de website programmatisch wilt lezen en verwerken, misschien met behulp van de toewijzing van de URL's aan de bestanden om de gedownloade website opnieuw te maken.