Create my first open source project – Pyxtract:– https://github.com/skupriienko/Pyxtract Python module for extracting texts from thousands of URL and/or PDF: – Download and parsing articles from URLs– Extract texts from local PDF files– Analyze texts– NLP preprocessing– Visualization– Word clouds– Name Entity Recognition
Категорія: Data Mining
Python PDF-and-URL-parser
Python PDF-and-URL-parser Назбирав на комп’ютері уже кілька тисяч PDF файлів – статті та книги з програмування. Так само зібрав тисячі посилань на сайти. Тому вирішив об’єднати все в одну таблицю csv і написав для цього такий код – https://github.com/skupriienko/PDF-and-URL-parser Мені б раніше таку штуку, коли ще писав дисертацію… 🙂