Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- # pdfparanoia
- pdfparanoia is a PDF watermark removal library for academic papers. Some publishers include private information like institution names, personal names, ip addresses, timestamps and other identifying information in watermarks on each page.
- pdfparania это библиотека для удаления водяных знаков из PDF файлов научных статей. Некоторые издатели
- включают личную информацию, такую как названия институтов, имена, IP-адреса, время и дату и другую
- информацию в водяные знаки содержащиеся на каждой странице.
- ## Установка
- Просто.
- ``` bash
- sudo pip install pdfparanoia
- ```
- или,
- ``` bash
- sudo python setup.py install
- ```
- pdfparanoia написана для python2.7+ или python 3.
- Вам также понадбится установить "pdfminer" вручную если в не исполльзуете pip для установки pdfparanoia.
- ## Использование
- ``` python
- import pdfparanoia
- pdf = pdfparanoia.scrub(open("nmat91417.pdf", "rb"))
- with open("output.pdf", "wb") as file_handler:
- file_handler.write(pdf)
- ```
- или из шелла,
- ``` bash
- pdfparanoia --verbose input.pdf -o output.pdf
- ```
- и,
- ``` bash
- cat input.pdf | pdfparanoia > output.pdf
- ```
- ## Поддерживаемые виды водяных знаков
- * AIP
- * IEEE
- * JSTOR
- * RSC
- * SPIE (в какой-то степени)
- ## Лог разработки
- * 0.0.13 - RSC
- * 0.0.12 - SPIE
- * 0.0.11 - интерфейс командной строки pdfparanoia. Используйте его либо отправокой PDF данных внутрь через пайп, либо определяя путь к PDF в первом аргументе
- * 0.0.10 - JSTOR
- * 0.0.9 - AIP: улучшенные проверки для false-positives; IEEE: удаление мусора из stdout.
- * 0.0.8 - IEEE
- ## Лицензия
- BSD.
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement