Pyxtract

Create my first open source project – Pyxtract

Create my first open source project – Pyxtract:
https://github.com/skupriienko/Pyxtract

Python module for extracting texts from thousands of URL and/or PDF:

– Download and parsing articles from URLs
– Extract texts from local PDF files
– Analyze texts
– NLP preprocessing
– Visualization
– Word clouds
– Name Entity Recognition

Python PDF-and-URL-parser

Python PDF-and-URL-parser

Python PDF-and-URL-parser

Назбирав на комп’ютері уже кілька тисяч PDF файлів – статті та книги з програмування. Так само зібрав тисячі посилань на сайти. Тому вирішив об’єднати все в одну таблицю csv і написав для цього такий код – https://github.com/skupriienko/PDF-and-URL-parser

Мені б раніше таку штуку, коли ще писав дисертацію… 🙂