Gensim

Программерский детектив

Итак, пока я тут доделал парсер-конвертер html-статей в набор предложений (с помощью BeautifulSoup4, различных регулярок и NLTK.tokenize - для подачи на вход нейросети на TensorFlow) и доволен чистотой результата, решил сделать паузу и, все-таки, написать эту забавную и поучительную историю. Программерский детектив Приятно наблюдать как недавно собранный компьютер “перемалывает” всеми 8(16) ядрами нужную мне задачу. Вот только я не ожидал, что придется перезапускать это так много раз. В последний раз так мозг закипал, наверное, только когда нужно было сделать динамический пересчет релокейшенов загруженного модуля win32.

Оживил privacy-formula.com

Наконец, спустя много лет заменил заглушку на http://privacy-formula.com/ на что-то интересное. :) Теперь там автоматический агрегатор новостей на тему “privacy”. Парсятся разные источники. Сначала одна библиотека извлекает главный контент со страницы (ищет саму статью), потом другая делает text summarizing - короткую выжимку именно значимых предложений. Ну а сам сайт на Django в виде 1 страницы в анонсами статей, где по ссылке “подробнее” отправляет на нужный ресурс. Кстати, повесил еще плагин от Google для автоперевода.

Кластеризация методом k-средних

Фух. Наконец, дошли руки (и настрой) до того, чтобы разобраться с алгоритмом кластеризации похожих ключевых слов. Пока просто по точным вхождениям, без использования лемматизации. Давно оно меня пугало. Кластеризация методом k-средних, преобразование текстовых данных в векторный формат, “мешок слов”… Но, как оказалось, есть хорошая библиотека, которая позволяет не особо “лезть под капот”. Побаловался с туториалами, понял принцип и сразу же и сделал. https://radimrehurek.com/gensim/index.html