Pyxtract

Create my first open source project – Pyxtract

Create my first open source project – Pyxtract:
https://github.com/skupriienko/Pyxtract

Python module for extracting texts from thousands of URL and/or PDF:

– Download and parsing articles from URLs
– Extract texts from local PDF files
– Analyze texts
– NLP preprocessing
– Visualization
– Word clouds
– Name Entity Recognition

Awesome Python Learning

Awesome-Python-Learning v.1.0.1

Extended my Awesome Python Learning dataset (https://airtable.com/shrNtoOfPJVDcO3fG/tblAYr9pYzqpWhYJ0) with new 205 links:

– Articles about Software Engineering
– Developer’s Tools
– MOOC and courses
– Video

Here CSV dataset – https://github.com/skupriienko/Awesome-Python-Learning

P.S. You can try create your own database for everything https://lnkd.in/dpnX4sE

скільки часу займе записати 1 мільйон рядків у базу даних

Cкільки часу займе записати 1 мільйон рядків у базу даних

На співбесіді на Junior Python Developer мене спитали, скільки часу займе записати 1 мільйон рядків у базу даних. Я відразу сказав, що мілісекунди. Ми довго сперечалися, я наводив свої доводи, але після того розмова чомусь швидко завершилася.
Вирішив перевірити, чи я помилявся. Таки не помилявся, виходить 300 мілісекунд для простого варіанту in-memory. З модулем numpy це буде і того менше – 15 мілісекунд.

До чого я це кажу? Люблю доводити справу до кінця, навіть якщо інтуїція підказує, що вибрав лише частково правильне рішення.

UPD. Буду грунтовніше вчити бази даних…

Ukrainian Stopwords (українські стоп-слова)

Ukrainian Stopwords

Довго шукав список українських стоп-слів (Ukrainian Stopwords) для відсіювання зайвих слів при аналізі текстів.
Зустрічалися в інеті не зовсім повні. Вирішив створити свій, але найбільший з існуючих:

– https://github.com/skupriienko/Ukrainian-Stopwords

Python Jobscraper

Python Jobscraper для збирання вакансій

Поки мав вільний час, вирішив написати на Python код Jobscraper для збирання вакансій Python Developer з українських сайтів роботи та додав препроцессінг текстів і скромний метааналіз із візуалізацією.

Мета була суто практична – зібрати в одну талицю всі вакансії Python Developer із різних сайтів за один день.

Ось, що з того вийшло – https://github.com/skupriienko/Jobscraper

P.S. Думаю ще додати Airtable API, щоб мати чудовий інтерфейс.

Python Gmail-reader

Python Gmail-reader

Іноді нема часу читати купу листів, що надходять на пошту Gmail, тому створив для Python Gmail-reader, який дивиться всі листи і шукає потрібні речі – посилання, найбільш уживані слова або ж розпізнає і візуалізує вміст:

– https://github.com/skupriienko/Gmail-reader