How to reduce your reliance on "bad" open source packages ✨ RSVP

pdftobb
Release 0.2.2

Parse bounding boxes from PDFs

Keywords: pdf, parser
License: MIT
Install: pip install pdftobb==0.2.2

Documentation

pdftobb

General PDF parsing code extracted from my newspaper mining codebase.

This uses pdfminer3k to dump a PDF file as an XML file. Then it collates bounding boxes and outputs a (pandas-style) CSV.

Installation

Via pip

Initialize a virtual environment
pip install pdftobb

Via git

Clone this repository, cd to it
Initialize a virtual environment, activate it
pip install -r requirements.txt

Usage:

If installed via pip: pdftobb path/to/pdf.pdf

If installed locally: python path/to/pdftobb.py path/to/pdf.pdf

Running pdftobb on a file file.pdf will generate two files: file.pdf.xml (the output of pdf2txt.py -t xml file.pdf > file.pdf.xml) and file.pdf.csv, which is the XML file turned into a slightly more condensed csv file.

Dependencies: 0
Dependent packages: 0
Dependent repositories: 0
Total releases: 3
Latest release: Apr 28, 2019
First release: Apr 28, 2019
Stars: 0
Forks: 0
Watchers: 1
Contributors: 1
Repository size: 16.6 KB
SourceRank: 6

Source repo 2FA enabled: TEXT!
Package manager 2FA enabled: TEXT!
Is security responsive: TEXT!
Dependencies are managed: TEXT!
Issue-free release available: TEXT!
Succession plan available: TEXT!
Package manager 2FA enabled: TEXT!

Releases

0.2.2: Apr 28, 2019
0.2: Apr 28, 2019
0.1: Apr 28, 2019

Contributors

See all contributors

Something wrong with this page? Make a suggestion

Export .ABOUT file for this package

Last synced: 2021-02-19 08:34:32 UTC

pdftobb
Release 0.2.2

Release 0.2.2

0.2.2

0.2

0.1

Documentation

pdftobb

Installation

Via pip

Via git

Usage:

Stats

Development practices

Releases

Contributors

pdftobb Release 0.2.2

Release 0.2.2 Toggle Dropdown 0.2.2 0.2 0.1

Documentation

pdftobb

Installation

Via pip

Via git

Usage:

Stats

Development practices

Releases

Contributors

pdftobb
Release 0.2.2

Release 0.2.2

0.2.2

0.2

0.1