Кластеризация методом k-средних

Фух. Наконец, дошли руки (и настрой) до того, чтобы разобраться с алгоритмом кластеризации похожих ключевых слов. Пока просто по точным вхождениям, без использования лемматизации.

Давно оно меня пугало. Кластеризация методом k-средних, преобразование текстовых данных в векторный формат, “мешок слов”…

Но, как оказалось, есть хорошая библиотека, которая позволяет не особо “лезть под капот”. Побаловался с туториалами, понял принцип и сразу же и сделал.

https://radimrehurek.com/gensim/index.html