Tools om het web vast te leggen en te converteren

Gegevens extraheren uit PDF-documenten

Gegevens uit de inhoud van PDF-documenten schrapen is niet zo flexibel als HTML-documenten, maar er zijn nog een aantal manieren om dit te bereiken GrabzIt is Web Scraper. Schrap eerst de PDF-inhoud die u gebruikt PDF functies in plaats van de Page maar anders werken de functies over het algemeen op dezelfde manier.

Een filter voor een PDF-document is veel eenvoudiger dan dat voor een HTML-document. Allereerst moet u opgeven welk type inhoud u wilt extraheren: koppelingen, afbeeldingen of tekst.

//Extract images
PDF.getValue({"type":"image"});
//Extract links
PDF.getValue({"type":"link"});
//Extract text
PDF.getValue({"type":"text"});

Voor links en afbeeldingen kunt u beperken welke afbeelding of koppeling wordt geretourneerd door de positie ervan op te geven.

PDF.getValue({"type":"image","position":"2"});

Hiermee wordt de tweede afbeelding in een document opgehaald. Voor tekst, afbeeldingen en links kunt u de geretourneerde gegevens verder beperken door een paginanummer op te geven.

PDF.getValue({"type":"image","position":"2","page":"5"});

Hiermee wordt de tweede afbeelding van de vijfde pagina geretourneerd. Tekst wordt geleverd met de toegevoegde optie van regelnummer, maar tekst ondersteunt positie niet.

PDF.getValue({"type":"text","page":"5","line":"10"});

Dit krijgt de tiende regel tekst van de vijfde pagina. Afgezien van deze filteroptieverschillen werkt het schrapen van gegevens uit PDF-documenten op een vergelijkbare manier als gegevens uit HTML-documenten schrapenomdat u echter niet zo specifiek kunt zijn over wat u uitpakt met een PDF-filter, moet u mogelijk een opgeven patroon om de juiste informatie uit de tekst te extraheren.