Tools om het web vast te leggen en te converteren

Converteer URL's en HTML naar DOCXPython API

De mogelijkheid toevoegen om HTML of webpagina's te converteren into Word-documenten naar uw toepassing zijn nog nooit zo eenvoudig geweest GrabzIt's Python API. Onthoud echter voordat u begint dat nadat u de URLToDOCX, HTMLToDOCX or FileToDOCX methoden de Save or SaveTo methode moet worden aangeroepen om de DOCX daadwerkelijk te maken.

Basisopties

Door webpagina's vast te leggen terwijl DOCX de hele webpagina converteert intoa een Word-document dat uit meerdere pagina's kan bestaan. Er is slechts één parameter vereist om een ​​webpagina te converteren intoa Word-document of aan converteer HTML naar DOCX zoals weergegeven in de onderstaande voorbeelden.

grabzIt.URLToDOCX("https://www.tesla.com")
# Then call the Save or SaveTo method
grabzIt.HTMLToDOCX("<html><body><h1>Hello World!</h1></body></html>")
# Then call the Save or SaveTo method
grabzIt.FileToDOCX("example.html")
# Then call the Save or SaveTo method

Aangepaste identificatie

U kunt een aangepaste identificatie doorgeven aan de DOCX methoden zoals hieronder weergegeven, wordt deze waarde vervolgens teruggegeven aan uw GrabzIt Python-handler. Deze aangepaste id kan bijvoorbeeld een database-ID zijn, waardoor een DOCX-document kan worden gekoppeld aan een bepaald database-record.

from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.customId = "123456"

grabzIt.URLToDOCX("https://www.tesla.com", options)
# Then call the Save method
grabzIt.Save("http://www.example.com/handler.py")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.customId = "123456"

grabzIt.HTMLToDOCX("<html><body><h1>Hello World!</h1></body></html>", options)
# Then call the Save method
grabzIt.Save("http://www.example.com/handler.py")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.customId = "123456"

grabzIt.FileToDOCX("example.html", options)
# Then call the Save method
grabzIt.Save("http://www.example.com/handler.py")

Kop- en voetteksten

Om een ​​kop- of voettekst toe te voegen aan een Word-document, kunt u een verzoek indienen om een ​​bepaald document toe te passen sjabloon naar de DOCX die wordt gegenereerd. Deze sjabloon moet zijn saved van tevoren en specificeert de inhoud van de kop- en voettekst samen met eventuele speciale variabelen. In de onderstaande voorbeeldcode gebruikt de gebruiker een sjabloon die ze hebben gemaakt met de naam "mijn sjabloon".

from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.templateId = "my template"

grabzIt.URLToDOCX("https://www.tesla.com", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.templateId = "my template"

grabzIt.HTMLToDOCX("<html><body><h1>Hello World!</h1></body></html>", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.templateId = "my template"

grabzIt.FileToDOCX("example.html", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")

Converteer HTML-element naar DOCX

Als u gewoon een HTML-element zoals een div of span direct wilt converteren intoa een Word-document dat je kunt met de Python-bibliotheek van GrabzIt. Je moet het passeren CSS-selector van het HTML-element dat u wilt converteren naar de targetElement methode van GrabzItDOCXOptions klasse.

...
<span id="Article">
<p>This is the content I am interested in.</p>
<img src="myimage.jpg">
</span>
...

In dit voorbeeld willen we alle inhoud vastleggen in de reeks met de id van Article, daarom geven we dit door aan de GrabzIt API, zoals hieronder wordt getoond.

from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.targetElement = "#Article"

grabzIt.URLToDOCX("http://www.bbc.co.uk/news", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")