Tools om het web vast te leggen en te converteren

Hoe een website en alle inhoud te downloaden?

Website

Er zijn enkele gevallen waarin het belangrijk is om een ​​volledige website te downloaden, niet alleen het eindresultaat. Maar HTML-webpagina's, bronnen zoals CSS, scripts en afbeeldingen.

Dit komt misschien omdat u een back-up van de code wilt, maar om een ​​of andere reden niet meer bij de oorspronkelijke bron kunt komen. Of misschien wilt u een gedetailleerd overzicht van hoe een website in de loop van de tijd is veranderd.

Gelukkig kan GrabzIt's Web Scraper dit bereiken door over alle webpagina's op een website te bladeren. Vervolgens downloadt de schraper op elke webpagina de HTML-code met alle bronnen waarnaar op de pagina wordt verwezen.

Maak een krabbel om een ​​volledige website te downloaden

Om het downloaden van uw website zo gemakkelijk mogelijk te maken, biedt GrabzIt een scrapsjabloon. Klik hier gewoon op sjabloonkoppeling om aan de slag te gaan.

Eenmaal geklikt wordt uw schraap gemaakt. Ga vervolgens naar de Target websites (s) en voer de URL in van de website die u wilt downloaden in de Target URL tekstvak. Dan klikken Doel toewijzen en wacht een seconde of twee.

Sla het over Schraapinstructies en Exportopties en ga rechtstreeks naar de Schema plannen tab. U kunt vervolgens klikken bijwerken om te beginnen met schrapen. Als u echter wilt instellen dat de scrape volgens een regelmatig schema wordt uitgevoerd, bijvoorbeeld om regelmatig back-ups van een website te maken. Klik vervolgens op de Herhaal Schrapen selectievakje en selecteer vervolgens hoe vaak u wilt dat het schrapen wordt herhaald.

Uw gedownloade website gebruiken

Zodra het schrapen is voltooid, krijgt u een ZIP-bestand. Pak vervolgens het ZIP-bestand uit en binnenin in een map met de naam Bestanden worden alle gedownloade webpagina's en websitebronnen. Er zal ook een speciale HTML-pagina met de naam data.html in de hoofdmap van de map staan. Open dit bestand in een webbrowser en u vindt een HTML-tabel met drie kolommen:

  • Bron-URL - dit is de URL waarop de webschraper de bron heeft gevonden. Dus bijvoorbeeld: http://www.example.com/logo.jog
  • Brontype - dit is het type bron dat is gedownload. Er zijn vier soorten bronnen.
    • webpagina
    • Beeld
    • Externe bron - elke bron gedownload van een link-tag
    • Script
  • Nieuwe bestandsnaam - de nieuwe bestandsnaam die de bron is geweest saved onder. Merk op dat deze kolom ook een link naar het bestand bevat, waardoor het inspecteren van alle gedownloade bronnen veel eenvoudiger is.

Dit bestand is ontworpen om u te helpen de nieuwe bestandsnamen toe te wijzen aan hun oude locaties. Dit is nodig omdat een URL niet direct aan een bestandsstructuur kan worden toegewezen, omdat een URL veel te groot kan zijn om direct in het bestandspad te worden opgeslagen.

Er kunnen ook veel permutaties zijn, vooral wanneer een webpagina veel verschillende inhoud kan vertegenwoordigen door verschillende zoekopdrachten te wijzigen string parameters! Dus in plaats daarvan slaan we de website op in een platte structuur in de bestandsmap en geven we u data.html-bestand om deze bestanden aan de oorspronkelijke structuur toe te wijzen.

Natuurlijk kunt u hierdoor geen gedownloade HTML-pagina openen en verwachten dat u de webpagina ziet die u op internet hebt gezien. Om dit te doen, moet u de paden van de afbeeldings-, script- en CSS-bronnen enz. Herschrijven, zodat het HTML-bestand ze in uw lokale bestandsstructuur kan vinden.

Een ander bestand dat wordt opgenomen in de root van het ZIP-bestand heet Website.csv. Dit bevat exact dezelfde informatie als het bestand data.html. Dit is echter inbegrepen als u de download van de website programmatisch wilt lezen en verwerken, misschien met behulp van de toewijzing van de URL's aan de bestanden om de gedownloade website opnieuw te maken.