Наверное нету ничего более сложного чем на эапе пре-лингвистического анализа научится отбирать слова которые несут большую информативность или меньшею. В этом разделе блога я по нимного постараюсь преодкрыть завесу тайны над существующими методами и алгоритмами которые Вы сможете использовать самостоятельно.
Но все по порядку и начнем мы с малого и простого. Наш первый метод будет давольно банальным и основыватся на обычном подсчете числа вхождений того или иного слова в текст(под вхождением подразумивается число раз которое слово встречается в тексте). Разумеется для этого необходимо описать что такое слово и как его сравнивать. К примеру у нас в одном месте текста встречается слово Кот, а в другом месте слово Кота, это одно слово или разные? Но об этом тоже позднее.
Возвращаемся к нашим баранам. Для текста в котором необходимо отсеять слова-паразиты експертным методом выберается другой текст схожей тематики(т.е. мы уже видим громосткость этого метода необходимостью подключения експерта). Далее из обоих текстов выбераем 5% слов которые встречаются чаще всего. Получаем два множества слов, одно из нашего текста, другое из експертно выбраного текста. Анализируем эти два множества на пересикаемость. В случае если какие либо слова садержутся в двух множествах одновременно, эти слова считаются словами "паразитами"...
Вот такой простой, однако грамозткий и во многом проблематичный для конкретной реализации, алгоритм мы рассмотрели. У кого по нему возникнут дополнительный вопросы прошу пишите мне в личку.
|