Tokenizer

Получение предложений из HTML

Довел до формата библиотеки и выложил на github - html2sent. Эта небольшая либа принимает на вход HTML и делает в нем кое-какие правки (удаление явно “неинтересных” тегов, простановка точек в некоторых местах при их отсутствии и прочее), чтобы на следующем этапе nltk tokenizer намного качественней смог разбить текст на предложения. Ну и опционально можно включить удаление таблиц, списков и т.п. Очень удобно для массового прогона HTML файлов с целью вытягивания красивого текста.