Gegevens uit de inhoud van PDF-documenten schrapen is niet zo flexibel als HTML-documenten, maar er zijn nog een aantal manieren om dit te bereiken GrabzIt is Web Scraper. Schrap eerst de PDF-inhoud die u gebruikt PDF
functies in plaats van de Page
maar anders werken de functies over het algemeen op dezelfde manier.
Een filter voor een PDF-document is veel eenvoudiger dan dat voor een HTML-document. Allereerst moet u opgeven welk type inhoud u wilt extraheren: koppelingen, afbeeldingen of tekst.
//Extract images PDF.getValue({"type":"image"}); //Extract links PDF.getValue({"type":"link"}); //Extract text PDF.getValue({"type":"text"});
Voor links en afbeeldingen kunt u beperken welke afbeelding of koppeling wordt geretourneerd door de positie ervan op te geven.
PDF.getValue({"type":"image","position":"2"});
Hiermee wordt de tweede afbeelding in een document opgehaald. Voor tekst, afbeeldingen en links kunt u de geretourneerde gegevens verder beperken door een paginanummer op te geven.
PDF.getValue({"type":"image","position":"2","page":"5"});
Hiermee wordt de tweede afbeelding van de vijfde pagina geretourneerd. Tekst wordt geleverd met de toegevoegde optie van regelnummer, maar tekst ondersteunt positie niet.
PDF.getValue({"type":"text","page":"5","line":"10"});
Dit krijgt de tiende regel tekst van de vijfde pagina. Afgezien van deze filteroptieverschillen werkt het schrapen van gegevens uit PDF-documenten op een vergelijkbare manier als gegevens uit HTML-documenten schrapenomdat u echter niet zo specifiek kunt zijn over wat u uitpakt met een PDF-filter, moet u mogelijk een opgeven patroon om de juiste informatie uit de tekst te extraheren.